统计数字会撒谎 - 第25节：毫无意义的工作(2)

假设我们已经意识到了上述问题并达成共识：智力测验的智商仅仅是一种测量工具，它测量了人们处理事先准备好的抽象问题的能力，对这些能力我们很难给出确切的定义，哪怕彼德和琳达所做的是公认最好的智力测验--修订的斯坦福-比内测验(一种独立进行的并且不需要特别阅读能力的测验)。

智力测试只是智力水平的一个抽样。与其他抽样结果一样，代表智力水平的智商值也具有统计误差，这个误差将用来衡量该数值的准确度或可信度。

智力测验类似于估计某块地玉米质量时所做的工作，你在地里四处走动，随意地到处摘取一些玉米穗，当剥开并研究了大约100颗玉米穗时，你就能对整块地的质量大致有数。当已知两块地的质量不同，这些信息已经足够对它们的质量进行比较了。但如果两块地的质量接近，你就得摘取更多的玉米穗，并始终采用某种精确的质量标准来给它们划分等级。

我们可以定量地衡量你的样本以多大的精度代表总体，那就是：可能误差和标准误差。

假设你要完成一项丈量任务，即通过步测栅栏来了解几块地的大小。你要做的第一件事自然是检查丈量体系的准确性，通过多次步量后量出自认为的100码，你发现平均而言有3码的误差。这意味着，有一半的试验是你离开真实100码的距离在3码之内，而另一半试验是你与真实100码的距离在3码之上。

这样一来，在测量100码时，你的可能误差是3码，或者说3%。从此之后，每次被你步量测出的100码应该被记录成100±3码。

（大多数统计工作者更倾向于使用另一个类似的误差度量工具：标准误差。全部实验中将有2/3的试验落在加减1个标准误差的范围内，而不是刚好1/2的比例，人们还认为标准误差的数学处理更方便。出于分析目的的考虑，在这里我们还是坚持使用可能误差，并将其运用到斯坦福-比内测试中。）

假设智力测验的可能误差为3%，与我们假定的步量任务具有相同的可能误差。这与智力测验的好坏无关，而只是反映了测验与它所要测试的内容具有怎样的一致性。这样彼德的智商更全面的表达是98±3，琳达的智商则是101±3。