大数据时代 - 《大数据时代》小数据时代的随机采样，最少的数据获得最多的信息（2）

《大数据时代》小数据时代的随机采样，最少的数据获得最多的信息（2）

大数据先锋

穿孔卡片与美国人口普查

美国在 1880年进行的人口普查，耗时 8年才完成数据汇总。因此，他们获得的很多数据都是过时的。1890年进行的人口普查，预计要花费 13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定，它也是很荒谬的。然而，因为税收分摊和国会代表人数确定都是建立在人口的基础上的，所以必须要得到正确的数据，而且必须是及时的数据。美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显，当他们被数据淹没的时候，已有的数据处理工具已经难以应付了，所以就需要有更多的新技术。

后来，美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯（Herman Hollerith）签订了一个协议，用他的穿孔卡片制表机来完成 1890年的人口普查。

经过大量的努力，霍尔瑞斯成功地在 1年时间内完成了人口普查。这简直就是一个奇迹，它标志着自动处理数据的开端，也为后来 IBM公司的成立奠定了基础。但是，将其作为收集处理大数据的方法依然过于昂贵。毕竟，每个美国人都必须填一张可制成穿孔卡片的表格，然后再进行统计。这么麻烦的情况下，很难想象如果不足十年就要进行一次人口普查应该怎么办。但是，对于一个跨越式发展的国家而言，十年一次的人口普查的滞后性已经让普查失去了大部分意义。

这就是问题所在，是利用所有的数据还是仅仅采用一部分呢？最明智的自然是得到有关被分析事物的所有数据，但是当数量无比庞大时，这又不太现实。那如何选择样本呢？有人提出有目的地选择最具代表性的样本是最恰当的方法。 1934年，波兰统计学家耶日·奈曼（Jerzy Neyman）指出，这只会导致更多更大的漏洞。事实证明，问题的关键是选择样本时的随机性。

统计学家们证明：采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。虽然听起来很不可思议，但事实上，一个对 1 100人进行的关于“是否”问题的抽样调查有着很高的精确性，精确度甚至超过了对所有人进行调查时的 97% ②。这是真的，不管是调查 10万人还是 1亿人， 20次调查里有 19都是这样。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。