正文

第5节:内在有偏的样本(3)

统计数字会撒谎 作者:(美)达莱尔·哈夫


可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许多人已经消失在茫茫人海中。

并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到5%~10%就已经相当可观了。也许这个调查的回收率会高些,但也不可能达到100%。

因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与未被样本包括的那些人--无法联系的人或者不愿意回答的人--具有同等的收入水平?

那些在耶鲁大学毕业生通讯录上被注明"地址不详"的迷路小羊羔是谁呢?他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了与校友办公室联系,他们的地址也可以通过查《美国名人录》(Who?s Who in America)或其他参考资料找到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的25年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才可能达到25111美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不起路费。

又是谁会将调查问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与同事的谈资时,"别担心,"他对老板说,"我与你一样,对这么低的工资感到羞愧。"

很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下25111美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了1924级耶鲁学生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性还需要满足这个假定:这些绅士们说的都是真话。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号