统计数字会撒谎 - 第17节：没有披露的数据(1)

第三章没有披露的数据

某位统计专家曾经建议，在被告知某个调查的结果时，你需要做的就是反问一句："为了得出这个结论，你调查了多少名被访者？"

正如以前曾指出的那样，采用严重有偏的样本几乎能够产生任何人需要的任何结果。只要样本容量足够小，或者你尝试足够多的次数，正确的随机样本也可以达到上述效果。

"用户反映使用多克斯（Doakes）牌牙膏将使蛀牙减少23%"，大字标题历历在目。你希望减少23%的痛苦，于是接着往下读。你发现这些结论出自一家信誉良好的"独立"实验室，并且还经过了注册会计师的证实。有了这些，你还想知道什么呢？

然而，如果你不是特别容易轻信他人，或者不是一个盲目乐观的人，经验将告诉你：一种牙膏很难比其他牙膏好。那么多克斯公司是怎样制造了上述结论？如果是说谎，但用大字标题报道这些谎言，他们又如何能够逃避责任呢？事实是，他们根本无需说谎，下面便是简单而有效的方法。

这里的主要把戏是不充分的样本--统计角度的不充分。但对于多克斯公司来说已经足够了。只有当你读小字体的文字时才会发现：被测试的用户仅由12人组成。单凭这点，你便不得不佩服多克斯公司，它留给你一个可能知道全部情况的机会。有的广告商索性将类似的文字都略去，留给读者--即便他是一个老练的统计专家--一个猜想：这里面到底玩了什么把戏？从这个角度来说，多克斯公司由12个人组成的样本还不算太坏。几年前，一种叫做可尼斯博士（Dr. Cornish）的牙粉上市了，并宣传"在治疗龋齿方面获得了极大成功"，因为该牙粉中含有尿素，而经过实验室的证明，尿素对于治疗龋齿是有益的。然而，由于实验室的工作只是刚刚起步，仅仅建立在6个案例之上，毫无疑问这个结论是缺乏意义的。

下面，让我们再回头看看，多克斯公司是怎样轻易地获得一个不存在漏洞并经得起检验的标题。让规模不大的一组人连续记录6个月的蛀牙数，接着使用多克斯牙膏。之后一定会发生以下的其中一种结果：蛀牙明显增多，蛀牙明显减少，或者蛀牙数量无显著变化。如果是第一或者第三种结果，多克斯公司编档保存好，当然最好是藏在别人找不到的地方，然后重新实验。由于机遇的作用，迟早有一组被测试者将证明有很好的效果，并且这个结果足以好到作为标题直至引发一场广告战。事实上，不管实验者使用的是多克斯牙膏，还是发酵粉，或者还是继续使用原来的品牌，上述结果都会发生。

任何由于机遇产生的差异，在大样本的使用中都是微不足道的，不足以作为广告标题。例如，蛀牙减少2%将不会对销量有多大的提升作用。这更显示了使用小样本的优势。

给定一个足够小的样本，怎样才能完全依靠机遇形成毫无指导性的结论呢？这个事儿你自己也可以试试，而且几乎不费劲。让我们开始抛一枚便士，有多少次是头像朝上的呢？当然是一半的次数，这谁都知道。