2015年5月4日 星期一

賽伯計量學新手入門(四)-FanGraphs網站

文章來源:Getting Started@FanGraphs

Key Concepts and Terms(核心概念與專有名詞)

現在大家對賽伯計量學有了基礎的理解,並知道在FanGraphs上能找到什麼,接下來比較重要的是掌握在FanGraphs上會用到的一些專有名詞和概念。


推論、推測(Projection)

在FanGraphs上到處都可以發現"Projection"這個詞,因為我們很多有關棒球的討論對話都是涉及到我們對未來表現的預估。我們希望知道一名球員在未來會表現多麼的好,並作判定。我們需要用有關該名選手和相似選手的所有資訊來推測出他未來的發展。

推論並不代表是對未來完美的評估,推論是"最佳猜測",用來當作比較的基準。更多有關:推論projection


天賦 (True Talent)

由於棒球充滿了如此多的隨機性,運氣戲劇性地影響打席、比賽甚至是球季的結果是很常見的。有時選手將一切都做對了,但球卻還是彈到了錯誤的方向。隨機變化影響了任何我們觀察到單一次事件的結果,所以這些結果並不會完美地反應棒球員實際的天賦。

換句話來說,當你擲一枚硬幣20次時,一個沒作弊的公平硬幣平均要得到10次正面與10次反面。但實際上,在任何單一組擲20次硬幣的實驗中,正反面次數的任何排列組合都是可能的。偶而得到一次15:5的結果也不是很奇特的事情。棒球就像是如此,有時候就算是一個公平沒作弊的硬幣也會得到有趣的結果。天賦代表是一名選手或隊伍有多麼的好,但由於運動(game)的本質,有時會發生好球隊會輸給壞球隊等等情況。


回歸 Regression(Toward the Mean)

在現今回歸常常被討論,以致於它變成了一種無意義的行話,但如果要精通賽伯計量學,它是一個非常重要的概念。就像前面看到的,棒球有時候是以技巧能力分勝負,而有時候則是運氣凌駕了實力。一名棒球員的天賦水準並不會在一天或一週當中有劇烈的改變,但他們的天賦水準並不是唯一影響結果的因素。

由於運氣隨機性等因素,在我們處理相當小的樣本時,球員時常會有比他們天賦水準要好或要差的表現。這代表要有一個非常大的樣本,才可以預期選手的成績會朝他母體平均回歸到一個等級。換句話說,如果一個強打者有著 0.4的高BABIP,大概會有著他可能無法持續如此好的BABIP數值的想法,所以可以預期他接下來會有個類似將BABIP作平均的較緩和表現(即做回歸)。


替代級球員 Replacement Level (Player)

替代等級(替代程度)(Replacement level)常常會被拿來激烈地辯論,因為人們有時相信它是種虛無飄渺憑空產生的東西,但他事實上是扎扎實實真的存在的。替代級,或是替代球員的定義是一名球員或球隊裡的球員,可以在自由球員市場中不額外花錢或代價就取得的球員用最低價格即可取得的球員。換句話說,替代級就是可以從小聯盟自由球員或4A級球員脫穎而出的水準。

我們算出一個由替代級球員所組成的隊伍每季約可以贏得48場比賽。一年有2430場球賽,當中有大約1000 WAR (wins above replacement)是由MLB 選手贏來的。我們喜歡將選手與替代等級比較是因為替代等級可以作為一個共通的衡量標準。"我們無法藉由比較目標球員與一名隨機球員來得到資訊" ,因此替代等級是一個有助益的基準,而且在數學上相當精確。如果你計算小聯盟自由球員在大聯盟一年或兩年的表現,他的WAR經常平均落在大約0 WAR。


防守度量 Defensive Metrics

防守度量也是具有爭議的,因為它們是新的數據而且他們常常與我們所見不相符合,而我們喜歡相信我們的眼睛。本質上,這些度量試著藉由結合下列兩者來評斷防守員表現的多麼好

  • 每個動作(play)的難易度 (基於平均水平的球員有多常完成這個動作)
  • 每個play守下的分數(類似的安打球所改變的跑壘/分數)

這些衡量方式的輸入(input)不是完美的,但總體的結構與原理十分有用。我們想要知道野手到底守下了多少分數,但我們不能永遠相信工具,我們必須實際去作測量。更多解釋請參考這篇The Beginner's Guide to Measuring Defense


統計學與術語Statistics and Terminology

最後,經常保持腦袋清醒客觀看待統計學語言風格是很重要的。有些統計數據毫無疑問地比某些更好,但沒有任何單一統計數據是完美的。wOBA永遠是比打擊率更好的辦法,但wOBA並不是沒有缺點瑕疵。想要嚴謹地分析事物,在辯論中就必須要盡可能的準備夠多資訊

你必須了解FanGraphs上的作家以及他們的讀者是誰。如果在FanGraphs中的文章引用了WAR,但沒有提到一些它的潛在缺陷,那是因為作者假定讀者已經明白那些資訊。我們在排行榜中會將3.5WAR列在3.0WAR上面,但是我們知道那些選手是非常難用WAR分辨好壞的,因為太接近了。然而,如果還不熟悉而且不知道語言風格,大概會覺得我們用了大膽魯莽的陳述來判斷哪個選手比較好。通常最好的建議是在作推斷時要謹慎小心,因為有太多暗指的資訊是從來沒有用文字表達的。

1 則留言:

  1. The Best Slots | Casino Roll
    The best herzamanindir slots at Casino Roll. If you love table games, to 출장안마 play blackjack, 바카라 사이트 you have to bet twice for the https://febcasino.com/review/merit-casino/ dealer to win. The 1xbet app dealer must

    回覆刪除