任务2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉1/3的比赛,即使最好的击球手安全上垒的概率也只有2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的真实击球率为0.275,受运气因素影响,这个球手的击球率有10%的概率出现浮动,时而升至0.300,时而降到0.250。
设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。
像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在2009年和2010年的投球表现都很不错,但输赢纪录却有很大差距,分别是19∶5和13∶12,因为2010年水手队的击球手水平极差,给了对手很多机会。
此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的140年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。
这使得棒球预测者的工作变得十分轻松。(在这项运动中,)一个假设通常可以根据经验进行检验,利用精确度比较高的统计数据来证实或者证伪。而对于经济预测或政治预测来说,可用的数据就少很多——美国总统大选每4年才举行一次,不是每年都能产生几百个数据点——缺少数据,预测往往更易误入歧途。