正文

04 大数据时代,统计学火了(2)

看穿一切数字的统计学 作者:(日)西内启


弗明汉研究针对5 000余名对象定期进行检查与询问,调查频率是每两年1次。

如此大规模而且彻底的调查研究,为什么不每年进行呢?实际上当时的研究者也非常渴望能够做到1年1次。但是,由于当时的技术能力所限,每两年进行一次就已经是调查频率的极限了。

至于限制调查频率的原因,则是数据输入、管理以及采集所花费的时间和精力。

弗明汉研究小组在最初进行数据采集时所使用的设备,据说只有一台大型穿孔卡片机。

说起穿孔卡片,可能很多人连实物都没有见过吧。简单来说就是在一个厚纸片上利用物理手段打孔,根据打孔的位置记录数据。

首先,人工记录5 000人的生活习惯和血液检查的结果,再将数值转换为穿孔卡片进行保存,检查是否有错误,然后对各个调查项目的平均值和比例进行综合统计。进行这样的工作,每两年一次的频率已经是极限了。

至于弗明汉研究的目标“找到心脏病的成因”,需要对各个变量和多样的调查项目之间的关联性进行分析,这就需要用到逻辑回归的分析方法(实际上,逻辑回归分析本身就是因弗明汉研究而诞生的方法)。但是,对5 000名研究对象的数据进行分析,就相当于使用5 000个质数的矢量,进行包括对数变换在内的非常繁杂的矩阵计算,只有这样才能够得出最终答案。

一直到20世纪60年代国际商业机器公司(IBM)发明了大型通用计算机,并且将其应用到研究中之后,弗明汉研究才能够对10年间的调查数据进行分析。

无聊的“纸和笔的统计学”已经过时了

从那以后的计算机技术进步,可以说是突飞猛进。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号