假设我们已经意识到了上述问题并达成共识:智力测验的智商仅仅是一种测量工具,它测量了人们处理事先准备好的抽象问题的能力,对这些能力我们很难给出确切的定义,哪怕彼德和琳达所做的是公认最好的智力测验--修订的斯坦福-比内测验(一种独立进行的并且不需要特别阅读能力的测验)。
智力测试只是智力水平的一个抽样。与其他抽样结果一样,代表智力水平的智商值也具有统计误差,这个误差将用来衡量该数值的准确度或可信度。
智力测验类似于估计某块地玉米质量时所做的工作,你在地里四处走动,随意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块地的质量大致有数。当已知两块地的质量不同,这些信息已经足够对它们的质量进行比较了。但如果两块地的质量接近,你就得摘取更多的玉米穗,并始终采用某种精确的质量标准来给它们划分等级。
我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和标准误差。
假设你要完成一项丈量任务,即通过步测栅栏来了解几块地的大小。你要做的第一件事自然是检查丈量体系的准确性,通过多次步量后量出自认为的100码,你发现平均而言有3码的误差。这意味着,有一半的试验是你离开真实100码的距离在3码之内,而另一半试验是你与真实100码的距离在3码之上。
这样一来,在测量100码时,你的可能误差是3码,或者说3%。从此之后,每次被你步量测出的100码应该被记录成100±3码。
(大多数统计工作者更倾向于使用另一个类似的误差度量工具:标准误差。全部实验中将有2/3的试验落在加减1个标准误差的范围内,而不是刚好1/2的比例,人们还认为标准误差的数学处理更方便。出于分析目的的考虑,在这里我们还是坚持使用可能误差,并将其运用到斯坦福-比内测试中。)
假设智力测验的可能误差为3%,与我们假定的步量任务具有相同的可能误差。这与智力测验的好坏无关,而只是反映了测验与它所要测试的内容具有怎样的一致性。这样彼德的智商更全面的表达是98±3,琳达的智商则是101±3。