作者 | 黄永明 发表时间 | 2015-11-06 来源 | 南方周末、科学
弗吉尼亚大学的诺塞克和同事们在过去几年里一共严格重复了98个心理学实验,其中有两个实验分别做了两次,因而他们一共做了100次实验。其中只有39次重复是成功的。 (南方周末资料图/图)
1959年,一名统计学家研究了四份主要的心理学期刊上的文章,发现其中97%都报告了统计学上显著的阳性结果。1995年,这名统计学家又做了一次统计,发现情况依旧。另一项研究显示,在自然科学的各个学科里,心理学得到阳性结果的可能性是最高的,而空间科学最低;前者是后者的五倍。
“不要相信你所读到的每一篇心理学文献。事实上,大约有三分之二不应该被采信”。《自然》杂志在报道中如是说。但心理学并非惟一遭遇严重的可重复性难题的学科,例如癌症生物学就是另一个类似的领域。
看到跟老龄有关的词后,年轻人走路的速度会放慢。这是心理学家约翰·巴赫(John Bargh)在1990年代初的一个发现,它也成为了“启动效应”的一个经典实验。然而,在二十年后,想要尝试重复该实验的心理学家却发现,他没有办法得到相同的结果。
这个例子常常被用来表达人们对心理学领域的一种担忧:可能有大量的实验是重复不出来的。至少在直觉上,心理学家们自己都觉得文献中的阳性结果太多了。1959年,一名统计学家研究了四份主要的心理学期刊上的文章,发现其中97%都报告了统计学上显著的阳性结果。1995年,这名统计学家又做了一次统计,发现情况依旧。另一项研究显示,在自然科学的各个学科里,心理学得到阳性结果的可能性是最高的,而空间科学最低;前者是后者的五倍。
阳性结果太多很可能并不是一件好事。在科学研究的逻辑中,如果一组科学家能做出某个结果,那么其他科学家在相同的条件下也应该能做出同样的结果;假如没有人能重复出来,那么负结果也是有意义的——它们有可能证伪某些结论。这形成了科学的一种自我修正过程。一个学科中存在大量的阳性结果,但很少看到负结果,可能说明它的自我修正能力存在问题。
重复实验
1990年代末,当布里安·诺塞克(Brian Nosek)还在耶鲁大学攻读心理学博士的时候,他就对方法学很有兴趣。他的课程中有一些来自1960年代和1970年代的文章,其中提到了实验的可重复性所受到的挑战。诺塞克惊讶地发现,几十年过去了,那些当年被提出来的问题并没有得到多少改善。
“一个缺失的信息是,就(心理学研究的)可重复性问题的大小给出最终的、经验性的证据。”诺塞克对南方周末记者说。
仅仅从理论上推测心理学研究所遇到的可重复性问题是不够的,诺塞克想要真正地去验证它。“我们认为,如果我们能够以足够多的样本量来重复我们心理学领域中的发现,那么我就能为争论做出贡献。”他说。
于是,从2011年开始,已经在弗吉尼亚大学工作的诺塞克与一批志同道合的心理学家一起,开始了他们的浩大工程。他们选择了三本心理学领域内的顶级学术期刊,然后尝试重复这些期刊在2008年发表的每一项实验。
这些心理学家尽最大努力还原原作的实验条件,他们也尽可能地与原作者协作,在他们的指点之下来完成那些实验。毕竟实验中往往有一些技术性的细节是没有呈现在论文中的。
诺贝尔奖获得者、心理学家丹尼尔·卡内曼(Daniel Kahneman)在2014年提出,重复性实验应该有四项操作规范:(1)在重复实验准备操作前(即收集数据前),重复实验者应向原作者告知重复实验的细节和准备工作,包括实际操作的方法和实际操作涉及的刺激物;(2)原作者应在规定的时间内(最好为1个月)回应并评价改进重复实验者的重复试验;(3)重复实验者可自行选择是否接受原作者的改进方案,但需要重复实验者解释原因并详细介绍最终的重复实验方案细节;(4)整个沟通过程将被记录,用于对双方立场的合理性的评价以及检验。
这种严格重复前人实验的做法在心理学中是不多见的。心理学家所做的往往是“概念性重复”。比如巴赫发现年龄相关的词让人走路放慢,那么会有另一名心理学家做一个实验,发现手里拿着较重的笔记板的人,对待面试者时会更认真。做后面这个实验的心理学家认为这个新的实验进一步证明了“启动效应”的存在。一部分心理学家认为,概念性重复的作用是提供更为强大的证据证明一个效应的存在。
然而,另一些心理学家认为,这种做法所带来的问题是,如果概念性重复并没有得到阳性结果,那么它并不会否定原始实验。换言之,如果后一组心理学家发现手持较重的笔记板没有让人对待面试者时更认真,那人们也不会认为这个实验在概念上否定了启动效应。这就成了一个“双重标准”——只能证明,无法证伪。
诺塞克和同行们在过去几年里一共严格重复了98个实验,其中有两个实验分别做了两次,因而他们一共做了100次实验。其中只有39次重复是成功的。所有原始实验中,有97%报告了显著效应,而诺塞克等人的重复实验中这个比例只占到36%。英国《自然》杂志在报道这一结果时说:“不要相信你所读到的每一篇心理学文献。事实上,大约有三分之二不应该被采信。”
诺塞克说,他们的研究结果并不能说明特定的原始实验是否成立,因为原始实验可能有问题,重复实验也可能存在问题,或者两种实验都没问题却在研究方法的关键部分出现差异。但是,有了这个经验性证据,诺塞克认为心理学家此前担心的状况被证实了,心理学文献中的确存在大量经不起验证的报告。
2015年8月28日,美国《科学》杂志发表了诺塞克等人的研究报告。英国《自然》杂志在报道时,引用同行心理学家的话表示,由于诺塞克检验的是心理学领域的顶级期刊,这些文章是质量最高的,那么如果将其他水平的期刊考虑进来,可能有超过80%的研究结果是重复不出来的。
为何无法重复
一个在心理学家之间流传的说法是,心理学实验的可重复性比其他自然学科要低。“我也听到过这种说法,但是我并没有看到在可重复率方面将心理学与其他学科做比较的直接证据。”诺塞克对南方周末记者说。
“然而,做重复实验的驱动力在不同学科中都是低的。”诺塞克继续说,“研究人员因为生产出新颖的、创新性的结果而获得奖励,并非因为重复前人的研究结果。所以,研究人员在压力下去强调创新,这可能是以牺牲可重复性为代价的。”
数年前,诺塞克的博士生马特·莫泰(Matt Motyl)对意识形态很感兴趣,他做了一个实验。莫泰找了将近两千个人,这些人在政治观点上有中立的,也有极左和极右的。在实验中,这些人会看到不同灰度的英文单词,他们需要选择每个单词的灰度是多少。然后研究人员会判断他们的准确度有多高。莫泰发现,政治上极端的人,他们看到的颜色也是“非黑即白”的——他们并不会像中间派那样看到更多层次的灰色。
这个发现让莫泰非常兴奋。如此新颖和漂亮的结果发表出来,对他事业的帮助是不言而喻的。然而,由于种种原因,诺塞克的实验室对这个实验进行了一次直接的重复。他们又测试了另外1300人。然后,莫泰所发现的“非常显著”的效应消失了。
“我们他妈的为什么要重复这个实验?!”这是研究组的第一反应。尽管重复出的结果并不代表原始实验一定不成立,但毕竟有了这一出之后,审稿人会犹豫是否允许论文发表。并且,实验室的所有人都知道了这件事,他们也就不好当做什么都没有发生而继续去发表论文了。
研究者们判断一个效应是否存在的重要依据,是统计学中的P值。最初,莫泰得到的P值是0.01,这通常代表“非常显著”;重复实验时,P值则只有0.59,而一般认为只有当P值低至0.05时效应才是显著的。本质上来讲,P值的作用是衡量一个效应能否归因于随机结果。其发明者的本意与今天使用中的实际作用是并不相同的,而且P值并不能回答一个关键问题:一个假说为真的几率有多大?
在实际的操作中,研究者有许多方法来“裁剪”他们的数据和分析,最终让P值达到0.05左右。有学者注意到一个有趣的现象,心理学有大量的论文所报告的P值聚集在0.05左右,这被怀疑是人为“钓鱼”的结果。
心理学研究中有太多意想不到的和微妙的因素能够左右实验结果。重复实验时,受试者的不同可能导致结果不同;或者重复实验的人在技巧上有欠缺也会导致重复不出来。甚至于,像房间颜色这样很可能根本不被察觉的细节都能够左右实验结果。
“心理学研究对象具有特殊性。相比于其他学科,只有心理学是以自身问题为研究对象的,心理的内隐性、复杂性和人类研究自身问题的局限性,为心理学研究设置了其他学科无法遭遇的困难。心理学兼具自然科学与人文科学特性,生理、认知、发展、人格与社会、临床、教育、工业与组织、军事、犯罪司法、体育运动、艺术与创新等五十余种心理学研究的细分领域所面临的困难各不同,其可重复性也有所不同。”南开大学心理学教授周详告诉南方周末记者。
“科学是一个不断减少不确定性的过程,任何与可重复性偏低相关联的不确定性都无法阻止人类对自身奥义的探索与解读。”她继续说,“与其对心理学研究非理性迷信或全然不信,更建议读者有条件地相信,面对抽象结论,尝试追溯原文(包括诺塞克这篇《科学》杂志上的原文),依据原始报告的情境与限定进行谨慎的有条件的解释、传播及外推应用。识别与摆脱标题党的诱惑,也正是成熟读者的科学素养以及社会文明整体进步的表现。”
学术自省
除了大学教授的身份之外,诺塞克还是一个名为“开放科学中心”的非营利性组织的执行主任。他最新的关于心理学研究可重复性的研究就是在该中心的框架下完成的。中心所建立的开源网站让科学家和学术期刊有机会更加透明地协作,并改进可重复性问题。
在他看来,心理学领域并非唯一遭遇严重的可重复性难题的学科。癌症生物学是另一个类似的领域。“开放科学中心”正在进行一项十分相似的研究,来检验癌症生物学领域的可重复性。
“诺塞克等人的工作体现出互联网时代下的科研工作的协同范式。”周详评论说,“诺塞克领导的‘开放性科学协作’,可以承担多实验室重复实验项目,促进科研工作的众包众筹和协同创新的实现。”
不管怎样,周详认为诺塞克等人的研究“是心理学科的学术自省风潮的产物之一,必然促进学科的健康发展”。“国外学者由于观察到心理学科研结果的高阳性比率和期刊的审稿与报道偏差,正在开始矫正型的学术自检活动。重复性研究是其标志之一。”周详继续说。
在中国,一些心理学家正采用另一种路径来改善心理学研究。例如,复旦大学心理系教授张学新与同行发起了学术期刊的“公评”审稿制度,他们正在创办由多个高校共建的双语期刊《中国心理学家》(Chinese Psychologist)。这份期刊所发表的科研报告将在网上做公开评审,所有人都可匿名登入,对稿件进行批评;作者也可以与评论者在网上展开交互讨论。
“科研进步是原创与重复权衡的结果。”周详说。诺塞克的研究发表在《科学》杂志上,已经在科学界引起很大关注,普林斯顿大学的社会心理学家贝琪·帕拉克(Betsy Paluck)预计,这将带来关于科学操作与出版的更为广泛的讨论。