抽样调查中“经常出现的悖论”
很多人出于直觉认为,只有进行全面调查才能够得到正确的结果。比如说,上一节提到的关于失业率的调查,假设随机选取的0.5%的人全部都是失业者,而剩下的99.5%的人则全都没有失业,那么实际上整体的失业率只有0.5%,而抽样调查的结果却是失业率为100%,这就是抽样调查中“经常出现的悖论”。
可是,这个“经常出现的悖论”所举的例子究竟会不会出现?严格来说答案是“有可能出现”。但是对统计学家来说,不能仅仅回答“有可能出现”,还必须回答“有可能出现的概率”。
如果失业率真的只有0.5%,那么对总人口1.2亿中的0.5%,也就是60万人进行调查,结果这60万人全部是失业者的概率当然不可能为0。因为在数学上,不管一个数字多么无限接近于0,严格地说都不能将其称为0。
如果要将这个数字以小数的形式准确地表示出来,那恐怕要多达100万位数字以上,而且前面所有的数字都以0表示。
或许有人不知道为什么会出现这个数字,让我们换一种说法。0.5%的概率,也就是抽签200次只能中1次,那么要连续抽中60万次的概率有多大呢?
虽然将抽中的签再次放回抽签箱中的方法(统计学中将其称为重复抽样),与不放回的方法(不重复抽样)相比抽中的概率更高,但即便如此,仍然需要“在60万次抽签中维持1/200概率”的奇迹。这就是之前提到的那个无限接近于0的小数。
重复抽样可以在60万次的抽样中维持“1/200”的概率,而实际上,失业率调查属于不重复抽样,在最后第60万次的抽样中需要从剩下的约1.194亿人中选出唯一的失业者,这完全可以说是一个奇迹。
由此可见,提出“经常出现的悖论”的人实在是相当悲观,要不然就是骗子。既然没有人担心“小行星撞击地球的危险”,为什么对“导致抽样调查结果不准确的概率”表现得如此不信任?