它在文献中有代表性吗
嘿,好消息!“研究发现,每天喝一小杯红酒有助于避免糖尿病、阿尔茨海默病和心脏病等与衰老有关的健康问题。”
但是等一下!“一杯红酒对心脏实在不利:科学家揭穿适度饮酒有益健康的迷思。”
嗯……
嘿,还有更多好消息!“红酒富含抗氧化剂,每天一杯可降低男性患前列腺癌风险10%以上。”
但是再等一下!“即使每天只喝一杯酒也会增加患癌风险:研究警示,酒精与至少七种形式的疾病有关。”
一个爱喝红酒的人读《每日邮报》,情绪会像坐过山车一样跌宕起伏。这些标题都是基于过去五年的真实研究,《邮报》并没有在胡编乱造(也不是说只有《邮报》才容易出现这种情况)。那么到底是怎么回事?红酒会让我们长生不老,还是会害死我们?
如果你正在进行一项研究、一项民意调查或者任何一个要用抽样方法来了解的事情——比如有多少人可能投票给工党,某药物治疗某疾病的效果如何——你得到的答案不一定和事实完全一致。即使你有一组无偏差的样本,并且研究做得很规范,你得到的数字也可能只是由于概率的机制而随机地高于或低于真实情况。
这一点带来的影响显而易见。假设吃炸鱼柳可以稍微降低打鼾的风险(当然不太可能,但我们先假设一下)。
假设我们说,现在已经有很多不同的研究讨论炸鱼柳是否会影响打鼾。我们还假设,虽然有些研究规模很小,但做得都很规范,没有发表偏差、p值操纵或其他可疑的统计行为(虽说这么规范也实属罕见,但先不管这些)。
我们期待的是,这些研究的平均结果会表明,吃炸鱼柳的人打鼾稍微少一些。但任何个别研究最终都可能返回略有不同的结果。如果这些研究确实没有偏差,你会预期这些结果呈一种正态分布,集中在真实效应周围。有些结果更高,有些更低,其中大部分在中间附近。
所以,即使已经有很多关于炸鱼柳与打鼾相关的研究,其中一些研究的结果也不能代表现实情况。它们可能高估或低估了效应,甚至可能发现该效应并不存在,或者发现炸鱼柳导致打鼾。再次强调,这些研究或其发表过程不一定有任何问题。这些结果只是随机性的产物。
这时候该做的,是努力弄清楚所有这些研究趋向于什么结论,即平均结果是怎样。这就是为什么人们会在学术论文的开头做文献综述——将自己的研究结果放到科学文献整体的背景中去看。有时研究人员会做后设分析,这种学术论文会纵览现有的所有相关文献并尝试将结果汇总。如果现有研究足够多,如果在研究或发表过程中都不存在系统性偏差(我们说过,这两个如果有很大的不确定性),顺利的话,这样的汇总结果能让你清楚地了解真实的效应。
科学就是这样进步的,至少理论上如此。每当一项新研究发表,它就会被纳入现有的研究集合;如果顺利的话,一般而言,新数据的加入会使人们在科学理解上的共识更接近现实。
但是,假设这时候发表了一项新研究,它说的不是“这项研究让我们对底层现实情况的理解更进一步,也许还略微产生了改变”。相反,进行该研究的科学家立即摒弃了所有的既有研究,并说:“这项新研究证明过去所有的相关研究都是错的。现在认为,炸鱼柳会导致打鼾,把我们以前说的全忘了吧。”
每次记者就新的研究论文(如《开创性新研究揭示炸鱼柳导致打鼾》)撰写新闻报道时,发生的都是这种事:没有将其放在现有研究的背景下考虑。
平心而论,这是一个很难解决的问题。报纸报道的是新闻;在科学领域,最明显的“新闻”就是新研究的发表。如果新闻标题是《新研究没有多少新信息,且只能在既有研究的背景下看待》,这可不怎么抢眼。此外,科学论文需要被视为全部相关研究这一整体的一部分,而不是独立存在的,而大多数记者和大多数读者一样,可能都没有意识到这一点,他们会产生,“哦,这周我看到喝红酒有好处”,诸如此类的想法。不仅如此,许多媒体日益拮据的财务状况也意味着科学记者通常每天要写五篇以上的报道;他们除了记述新闻通稿外,很可能根本没时间做别的,遑论为结合背景信息来解读新研究而联络其他科学家了。
但这终归是个问题,因为无论是就存在风险的特定情形,还是就科学进程本身而言,它都会给读者一种误导性的印象。假设新研究频频出现,结果炸鱼柳和打鼾的关联一周一变,那读者就有理由认为科学基本上是在随意编造。
我们对炸鱼柳和打鼾的拙劣思想实验只是一个例子,但这样的情况一直在发生,涉及真实的事物。我们继续给《每日邮报》挑错,在他们的网站上以“新研究称”为关键字进行谷歌搜索,返回了超过5000条结果,涉及的主题从肥胖对脑功能的影响,到社交媒体和压力的关系,再到咖啡是否让人更长寿。这些研究是真的吗?是真的。每项研究都准确勾勒出当前对科学的最佳理解吗?可能没有。
问题还会更严峻。一项发现孤独症患者脑内铝含量高的研究在2017年引起了一些媒体的关注。更广泛的孤独症研究在努力寻找与孤独症相关的强环境效应;这项研究在其中不具代表性,但它加剧了人们对接种疫苗的更广泛恐慌(因为有些疫苗含铝)。
接着说疫苗恐慌和孤独症的关系。这一问题的肇始是安德鲁·韦克菲尔德(Andrew Wakefield)等人于1998年发表在《柳叶刀》期刊上的研究,他们似乎发现麻腮风疫苗与孤独症之间存在关联——但该研究本身是一个离群点。一个单一的小型研究发现了一个意想不到的结果——成熟的科学报道方法不会对它抱有太大兴趣,哪怕该研究没有作假。然而,由于新闻行业广泛倾向于将单一研究看作事实,而非更大图景中的一个瞬象,于是导致了巨大的健康恐慌,全球疫苗接种水平下降,少数儿童因麻疹致死或致残。有时,仅仅是有时,精准地传达一项单一研究的重要程度(通常:不高)真的很重要。
那么关于红酒和健康,有什么共识?好吧,尽管新闻标题千差万别,但多年来,公共卫生立场没有太大变化。少量饮酒(粗略地说是指每周最多喝4升啤酒或等量酒精的其他酒类)的人往往比完全不喝酒的人寿命稍长;但是当饮酒量超过这个数值时,预期寿命又会下降。这一结果在大型研究中一遍一遍又一遍地出现。它被描述为一条J形曲线:死亡率先下降,然后爬升,呈倾斜的J形或是耐克那个钩。
这是一个很小的效应,而且还不完全清楚是由什么导致的——例如,人可能出于健康原因而不饮酒,这或令他更有可能过早死亡。但共识似乎确实是,与滴酒不沾相比,少量饮酒可能有很小的保护作用。尚不清楚红酒是否尤其如此。
但由于效应很小,任何新的研究都很容易发现少量饮酒对你有害、有益或者毫无影响。新研究只有在相关背景下看才有意义。当你看到一些内容,尤其是关乎健康和生活方式并含有“新研究称”字样时,要谨慎对待。
追求新奇
BBC新闻在2015年发布了一篇文章,题为《钱会让你变刻薄吗?》,讨论的是对“金钱启动”(money priming)的研究,这个心理学领域研究的是金钱如何影响人的行为。这篇文章最引人注目的是,它谈到了一项研究发现:只是让一些人做与金钱有关的词句重组题以“启动”金钱的想法,就会降低他们帮助他人或向慈善机构捐款的可能。
金钱启动是一个更广泛的领域“社会启动”的一个分支。对社会启动的研究,大约在21世纪的头10年才流行起来。它发现了惊人的结果,比如上面的讨论;或是在社会启动的情况下,用与年龄相关的词(如“宾果”“皱纹”“佛罗里达”——美国人显然将佛罗里达与退休联系起来)启动某人,会使他们在离开实验者办公室时走得更慢。
社会启动这事可不得了。伟大的心理学家丹尼尔·卡尼曼(Daniel Kahneman)因与阿莫斯·特沃斯基(Amos Tversky)的合作研究而获得了诺贝尔经济学奖,他还是引领我们理解认知偏差的先驱。他在2011年写道,在惊人的启动效应面前,“你不得不信服”。在自愿捐款箱的上方,比起张贴不带感情的花朵图片,贴一双眼睛的图片会导致人们放入更多的钱。让人们想象一个不光彩的行为,例如在同事背后捅刀子,会导致他们购买比平时更多的肥皂和消毒剂,似乎要用来洗刷灵魂,即“麦克白夫人效应”。
但在BBC的那篇文章及其他文章(比如《大西洋月刊》2014年的一篇)发表之际,对金钱启动的研究陷入了困境。人们试图再现早期研究者的结果,但不成功,或者发现效应要小得多,没那么厉害。这是怎么回事?
嗯,这涉及许多方面。有很多很好的书可以帮你了解“再现危机”——在科学的许多领域,特别是心理学,且尤其是社会启动领域,人们突然意识到,过去的大量研究经不起推敲。但我们在这一章要探讨的是科学对新奇的追求。
科研实践的核心存在一个巨大的问题。这并不是个别研究人员的错,尽管有些人确实钻了这个系统的空子。问题还存在于大众媒体的报道方式——不光是科学报道,所有报道均是如此——尽管这没那么令人惊讶。
这个问题就是:科学期刊想要发表有趣的科学成果。
这听起来似乎没什么毛病。你也许认为,发表有趣的结果正是科学期刊应该做的——毕竟,发表没有告诉我们任何新内容的无趣结果有什么意义?但事实上,这里有一个问题,一个巨大的问题,而这个问题正是许多错误的或有误导性的数字出现在新闻报道中(或许更重要的是,出现在科学文献中)的根本原因。
这种对新奇的追求有时非常明显。2011年,一项著名的研究震撼了心理学研究界:达里尔·贝姆(Daryl Bem)的《感知未来:表明有异常回溯性影响作用于认知和情感的实验证据》。这个拗口的标题隐藏了一个看上去不得了的发现:人能够通灵,有灵视(clairvoyant)之能,能感觉到未来。
贝姆的研究使用了好几种经典的心理学实验方法,并将步骤颠倒过来。其中一个是启动实验,就像上面提到的社会启动。假设你想知道能否用潜意识中的(阈下)图像改变某人的行为:一张图片只显示几十毫秒,快到人的意识无法察觉。你可以给被试看两张相同的图,比如一棵树,一张在屏幕左边,一张在右边,然后让他们选择喜欢哪个;但就在这两张图出现前,会有一个令人不安或不快的图像在眼前出现一瞬间,也许是某种暴力的或令人厌恶的东西,要么在左边,要么在右边。再次强调,画面出现速度太快,难以觉察;但有一个假设是,你的无意识思维会探查到它——正是这个假设支撑着“阈下广告”,这个十几二十年前让大家都非常兴奋的观念。如果负面图像出现在左边,你可能不太会说你“更喜欢”左边的树;如果它出现在右边,你可能不会选择右边的树。这是一个常见的实验模型,属于“社会启动”这个热门细分领域的一部分。
贝姆的研究也正是如此,但有一个有趣的改动:它颠倒了顺序。它让启动图像在树木之类的图片之后出现。奇怪的是,与负面启动图像出现在同一位置的树仍然不太会为被试所选择。效应很小,但具有统计显著性。该研究一本正经地表明,这只可能是通灵能力的产物。
已经读到了这里,你当然会知道还有其他原因可以解释这个现象:纯属碰巧。有时,研究发现错误的结果只是因为数据有噪声;它们也可能得到真实的结果,也可能得到更大或更小的结果。
大多数读到这里的人应该会认为总人口的“真实”通灵能力水平为零。但是数据中的随机误差可能时不时地使一项研究返回的结果看似真实存在。
这就是为什么科学不会或说不该以单篇论文为思考依据。相反,科学关注的是,该研究在包含所有相关研究的集合里处在什么位置。要找到这种共识立场,你可以进行后设分析和文献综述,即将某个课题下的所有研究成果结合起来。如果1项研究发现通灵能力真实存在,而99项研究发现不存在,那么也许你应该把这一项离群值看作巧合,将其排除。
而要达到这种效果,让某个课题下的所有研究都发表出来就至关重要。但事实并非如此,因为科学期刊想要发表的是有趣的科学结果。在贝姆研究的例子中,该课题下的其他研究并未全部发表,原因显而易见:一组科学家试图在一项新研究中再现贝姆研究中的一项发现,结果没有成功:他们的实验返回的是一个不具统计学意义的结果。这篇论文被发表贝姆论文的期刊《人格与社会心理学杂志》拒稿。该期刊对已有研究的乏味重现不感兴趣。它想要新奇的结果。
这项研究后来在可开放获取的期刊《科学公共图书馆·综合》(PLOS One)找到了归宿。但若它未获发表,想做后设分析的人就只能搜索到一篇论文,即贝姆的那一篇,然后就没别的了。期刊对新奇性的追求将导致科学看上去已经得出共识,即通灵能力真实存在。但其实,贝姆研究在心理学界引起了巨大的争议,因为研究人员意识到,该研究让他们必须在两个难以下咽的结论中接受一个:或是通灵能力真的存在,或是奠定心理科学的实验和统计方法可以产生毫无意义的荒唐结果。
(值得注意的是,贝姆后来确实做了一项后设分析,其中纳入了Ritchie等人的论文和其他几篇论文,结果显然还是通灵能力真的存在。这项分析还检查了发表偏差等多个方面的因素。所以,要么通灵能力真的存在,要么就是奠定心理科学的实验和统计方法即使在后设分析中也可以产生毫无意义的荒唐结果。)
追求新奇导致了科学中的一个基本问题,就是“发表偏差”。如果有100项研究探索通灵能力是否真实存在,其中8项发现的确如此,92项发现并非如此,那么这就是个相当可靠的迹象,说明通灵能力并不真实存在。但如果期刊为了寻求新奇而只发表那8篇发现积极结果的论文,那就会导致全世界相信人类可以预知未来。
这些通灵能力研究虽然可笑,但如果是医生为病人开药,而发表偏差导致人们对一种抗癌新药充满希望,但它实际上并没有效果,那就糟了。很不幸,这是真事。30多年前,研究人员塞姆斯(R.J.Simes)指出,在已发表的癌症研究中,提前注册的研究和未注册的研究相比,返回积极结果的可能性要小得多,这表明许多未注册的研究未获发表。一个评议抗抑郁药有效性的研究小组发现,55项研究中有13项根本没有被发表;一旦把这些研究的数据加回去,抗抑郁药的表观有效性下降了1/4。
就制药公司而言,你可以说它是由赤裸裸的企业贪婪驱动的:如果他们的抗抑郁药研究发现这种药不起作用,那他们就无法通过卖这种药赚那么多钱。这可能是一方面的原因,不过一项研究发现,行业赞助的试验其实比其他试验更有可能在一年内报告结果(这是美国法律对临床试验的要求)。
事实上,推动这个现象的主要原因是,大多数期刊根据研究所发现的结果来选择发表哪些研究。而你要研究某个课题(假设是在餐厅点菜前哼《马赛曲》能否让人更愿意点炸薯条)时,通常不会在刚有这个念头时就将给期刊投稿,而是会等结果出来后再投。
而对科学期刊来说,《哼〈马赛曲〉不会影响对食物的选择》是一个极其无趣的标题,所以大多数期刊都会将其退回。但假设哼歌真的不影响食物选择,如果有20个小组做了相同的研究,那么平均而言,其中一组就可能仅凭巧合而发现具有统计显著性(p<0.05)的结果(我们一如既往地假设研究是规范进行的)。而这个结果将进入科学文献,然后上新闻。
这就是本章开头提到的金钱启动研究中发生的情况:一项后设分析用漏斗图来确定是否存在发表偏差问题,发现确实存在。金钱启动效应也许真的存在,但似乎比它名声大噪时要小得多,因为许多得出了消极结果的研究仍躺在研究人员的文件柜中。
又因为科学家知道期刊通常不会发表消极结果,所以真实情况还要更糟。他们甚至因此不会投稿。或者,他们会做一些小调整,让结果看起来是积极的——也许以新的方式重新分析数据或删除一些离群值。科研事业是“不发表就淘汰”:你如果没有在科学期刊上发论文,事业就得不到推进,也无法获得终身教职。因此,科学家们在发表论文上受到极大的激励——本质上,他们被激励去做p值操纵。
如果你看大众新闻,情况就更糟了。即使这些研究真被学术期刊发表了,像《哼〈马赛曲〉不改变任何事情》这种无趣标题也不会被媒体报道。媒体对新奇的追求尤其强烈,毕竟叫“新闻”。报纸会刊登空难这种奇、刺激、罕见的报道,而不会报道飞机安全着陆,那很常见、无聊;因此,公共对话和科学文献一样,随处可见令人兴奋的危险事物充斥着扭曲的视野。两者的道理是一样的。
有一些了不起的做法能减少科学界的这个问题。带来最大希望的是“注册报告”(Registered Reports):期刊基于研究项目的开展方法同意发表研究,而无论该研究结果如何,以此避免发表偏差。有一项研究比较了常规心理学研究和注册报告,发现96%的常规学研究得出了积极结果,但在注册报告中,这一比例只有44%,这表明问题很严重。注册报告正在迅速流行,但愿能很快成为主流吧。
当然,要让主流新闻媒体报道没有任何发现的无趣研究,或者报道巴黎戴高乐机场成功降落的每次航班,大概不现实。但媒体可以开始大力宣传科学领域中的这个问题,但愿以此吸引到的注意力能使越来越多的期刊采用注册报告和其他明智的改革,因为这是一个根本性的问题,也是我们读到的数字不可尽信的一大原因。
(本文摘自汤姆·芝华士、大卫·芝华士著《数字一点不老实:看穿纷繁信息中的数据玄机》,邓妍译,理想国|九州出版社,2023年11月。)