大数据先锋
穿孔卡片与美国人口普查
美国在 1880年进行的人口普查,耗时 8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费 13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定,它也是很荒谬的。然而,因为税收分摊和国会代表 人数确定都是建立在人口的基础上的,所以必须要得到正确的数据,而且必须是及时的数据。美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显,当他们被数据淹没的时候,已有的数据处理工具已经难以应付了,所以就需要有更多的新技术。
后来,美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(Herman Hollerith)签订了一个协议,用他的穿孔卡片制表机来完成 1890年的人口普查。
经过大量的努力,霍尔瑞斯成功地在 1年时间内完成了人口普查。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来 IBM公司的成立奠定了基础。但是,将其作为收集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应该怎么办。但是,对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。
这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大时,这又不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。 1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。
统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对 1 100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的 97% ②。这是真的,不管是调查 10万人还是 1亿人, 20次调查里有 19都是这样。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。