值得我们注意的是,只拥有穿孔卡片的弗明汉研究对5 000人进行调查,就已经非常困难,而这件事发生的时间还在弗明汉研究之前。
对于当时拥有1.2亿~1.3亿人口的美国来说,进行这样的调查就相当于现在对几万亿字节的数据进行处理,毫无疑问,这是一个完全超越常规的“大数据”。
全面调查与抽样调查,哪种更节约、更高效?
为了解决这一问题,美国政府当时提出了两种方案。
一种是美国联邦政府议会提议“所有的失业者有义务在登记卡上填写必要项目,然后到最近的邮局将登记卡邮寄给政府”。
另一种方案则是由学习过当时最先进统计学理论的年轻人们提出的“随机选取人口总数的0.5%进行抽样调查”。
美国政府先采用了后一种方案,除了准确的失业率之外,政府还发现社会存在着极大的贫富差距,既占人口总数10%的人竟然拥有占人口总数40%的收入。而得知这一结果的人们却纷纷表示“随机抽选的结果根本没有科学根据,怎么能够证明这个数据是正确的呢”,可见这些人似乎更支持前一种方案。
但是,假设我们是那个时代的失业者,如果没有任何好处的话,谁会傻到将自己的信息写在登记卡上,然后特意跑到邮局去将这个登记卡邮出去呢?至少我是不会那么做的。如果我是当时的失业者,就算这样做会得到商品券,我都会因为麻烦而放弃,我想当时大多数人应该不知道有这么一回事。
实际上,确实有非常多的失业者对这项调查不买账,事后也证明这个调查数据远远小于实际失业者的数量。很多失业者认为这样的方式过于麻烦,因为美国政府无法准确掌握怕麻烦的失业者数量,所以由此得到的数据比实际数据少得多也是理所当然的。