我们知道,除非在某处安装了泵站,否则一条河流永远不可能高于它的源头。同样的,根据样本得到的结论不会比样本更精确。当数据经过层层统计处理,最后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要再仔细留心整个抽样过程,这个光芒就会消逝。
为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因,它也是你在报纸和杂志中读到的许多资料根本不值一提的原因。
一位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义,我们来看看这个医生的样本,也就是说,他观察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如果一个人心理健全,他是永远都不会接受心理医生的治疗的。
对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。
记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。事实上误差总是存在,如果你仍旧半信半疑,想想1948年和1952年的美国总统大选,它们已足够证明这一点。(1948年美国选举时,所有民调都显示民主党的杜威会获胜,结果却是杜威败给了共和党人杜鲁门,这是美国历史上至今最大的"选举惊奇"。1952年美国大选,新闻传媒普遍看好民主党竞选人史蒂文森,最终共和党候选人艾森豪威尔以绝对优势赢得这场选举。)
更远的例子可以追溯到著名的《文学文摘》(Literary Digest)的惨败,这件事发生在1936年。曾经准确预测了1932年美国大选的1000万个电话用户和《文学文摘》订户,他们又对1936年的大选结果进行了预测,他们向那个倒霉的杂志编辑信誓旦旦地保证:兰登(Landon)将在竞选中脱颖而出,并且与罗斯福(Roosevelt)的所得票数之比为370∶161。这样一个久经考验的调查群体怎么可能产生误差呢?但的确有误差,正如后来许多大学论文和其他史学分析人员所发现的,1936年就有能力购买电话和订阅杂志的人并不能代表所有的选民,至少在经济上,他们是一个极特殊的群体,是有偏的,后来证实他们中的许多人是共和党的选民。该样本选择了兰登,而全国选民却心系罗斯福。