但是相扑比赛的一个比较特殊的地方是,选手需要在 15场联赛中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一个7胜 7负的摔跤手碰到一个 8胜 6负的对手时,比赛结果对第一个选手来说极其重要,对他的对手则没有那么重要。列维特和达根发现,在这样的情况下,需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”,因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路。
没有可能是要赢的决心帮助这个选手获胜呢?答案是,有可能。但是数据显示的情况是,需要赢的选手的求胜心也只是比平常高了 25%。所以,把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现,与他们在前三四次比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方多 3~4倍的胜率。
这个情况是显而易见的。但是如果采用随机采样分析法,就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况。这就像捕鱼一样,开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼。
一个数据库并不需要有以太字节 ①计的数据。在这个相扑案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的。
很长一段时间内,随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的,在采样分析的时候,很多信息都无法得到。拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察研究数据的方方面面。
我们可以用 Lytro相机来打一个恰当的比方。 Lytro相机具有革新性的,因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同, Lytro相机可以记录整个光场里所有的光,达到 1 100万之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了,也就是收集了所有的数据,“样本 =总体”。因此,与普通照片相比,这些照片就更具“循环性”。如果使用普通相机,摄影师就必须在拍照之前决定好聚焦点。