不要全盘相信任何单个的研究成果。最好的态度是:挺有趣的,先记着,再看看。
看什么?看研究是怎么做的,看研究的进展和全貌——那正是优质科普所应当努力提供的内容。撰文 | 向睿洋(阿姆斯特丹自由大学心理学硕士)
你可能经常从各种书籍、媒体看到一些心理学科普,介绍一些研究发现。
比如一篇文章说保暖、多喝热水会改善你的人际关系,因为一项研究表明,物理温暖会提升人际温暖,相比于拿冷咖啡,拿一杯热咖啡会让你对陌生人有更积极的评价。另一些文章说在设计调查问卷时,最好把落款签名设计在问卷的开头而不是最后,因为一项研究表明这样可以提高被调查者回答的诚实度。
还有文章说应该多给孩子听莫扎特的音乐,甚至应该从孕期就开始把听莫扎特的音乐作为胎教,因为一项研究表明听莫扎特的音乐能提升人的认知能力。
我们总是倾向于相信这些研究结果,有心的话还会主动运用到生活中。然而,近年来,研究者越来越多地发现,心理学或范围更广的社会科学研究,常常是不可重复的。也就是说,一些此时此地这些人身上发现的现象,在彼时彼地那些人身上就消失了!可重复性是科学的一个重要特征。这些不能重复的现象并不是真正的科学效应。
如果不能重复的研究只是孤例,那倒也没什么。不幸的是,2015年的一项大规模重复研究发现,能成功重复的心理学研究的比例,竟然不足40%!超过一半的研究结果都并不可靠。这就是近十年心理学界广泛讨论的“可重复性危机”。
可重复性危机可重复性最早进入心理学研究者的视野,大概是在2011年。
这一年心理学界发生了两件大事:荷兰著名社会心理学家斯塔佩尔(Diederik Stapel)被发现数据造假,他的那些“著名”发现都是虚假的,发表的58篇文章被撤回;美国著名社会心理学家达里尔·贝姆(Daryl Bem),享誉大半生后,以73岁高龄在社会心理学顶级期刊《人格与社会心理学》(Journal of Personality and Social Psychology,JPSP)上发表了一篇对超感官知觉,也就是所谓的第六感(预测未来)的实证系列研究,报告了9个实验来说明超感官知觉现象的存在。
心理学顶级期刊所认同的研究方式,却催生了如此有争议的发现,那么其他已发表的研究是不是也可能不可靠呢?从此以后,心理学界逐步对研究实践进行反思,越来越多的研究者开展了重复性研究。
其中最有代表性的,当属美国弗吉尼亚大学的心理学家诺塞克(Brian Nosek)领导的开放科学合作计划(Open Science Collaboration),在2015年进行了第一项大规模重复研究,对三大心理学顶级期刊《人格与社会心理学》(JPSP)、《实验心理学》(Journal of Experimental Psychology,JESP)、《心理科学》(Psychological Science,PS)上的100项研究进行了重复,发现只有36%的研究得到了成功重复。
需要注意的是,一项研究的结果未能成功重复,并不能说明效应一定不存在。研究重复失败,可能有4种原因:原始研究存在问题,研究者动了手脚,如篡改了数据;原始研究得到的结果是巧合,最常见的情况是原始研究的被试数量太小,相当于抽取小样本,很容易抽到并不能代表总体的巧合样本。原始研究得到的结果是真实的,但只适用于当时当地参加研究的被试群体,而不适用于重复研究的被试群体。
原始研究得到的结果是真实的,是重复研究出了问题,比如实验流程未能完全重复原始研究。
前三种原因导致的重复失败,都可以说明原始研究得出的结果是不可靠的。而第4种情况当然是有可能出现的,所以单独一项重复研究可能并不能说明问题,对一项研究结果进行重复验证是必要的。不过,第4种情况出现的比例不会很高,说明有大量心理学研究结果确实不可靠。
可重复性危机的出现,恰恰说明了心理学和社会科学正走在成为一门硬科学的道路上,只是学科内部存在一些需要解决的问题。期刊鼓励发表原创研究,不鼓励发表重复研究。于是大多数研究都是探索性的,研究者初步发现一个现象,马上发表,然后就把这个现象当成一个确实存在的效应,不再进行检验、重复。在所有人都追逐着发表新的研究、发现新的现象,而大量发表的结果是来自于巧合,或只适用于特定人群,甚至是篡改数据而得到。
基于这些并不真实存在的效应,大量后继的新研究成了没有根基的空中楼阁。
发现问题就解决问题。可重复性危机并没有压垮心理学,而是促使研究者对研究实践进行调整改进,重视重复研究,期刊也开始鼓励重复研究的发表。大家这才发现,越来越多经典研究,甚至是写进了心理学教材的研究得到重复,其中很多都未能成功重复。
随着重复研究越来越多,即使是心理学教授和研究者也很难追踪到所有最新的重复研究结果。
为了帮助更多人了解重复研究的进展,一批心理学家组建了“开放和可重复研究训练框架”(Framework for Open and Reproducible Research Training, FORRT)。他们整理了上百个心理学效应的重复情况,目前还没有完成(2024年才全面完成),但已具规模,可以在网站上看到他们总结的结果。
在这130多个效应中,只有不到20个得到成功重复,40多个标记为mixed,未能成功重复的多达近70个。我们姑且认为mixed算部分成功重复,那么replicated和mixed加起来也还不足50%,可见确实有很多效应无法被重复。
大量心理学研究结果无法被成功重复,面对这个现实,我们应该怎么办?是不是要弃心理学如敝履,从此不再相信心理学,不把心理学当成一门科学吗?
正如前文所说,可重复性危机并没有压垮心理学,研究者们正在积极地改变研究实践,一方面通过重视重复研究和元分析,检查以往研究的可靠性;一方面通过鼓励预注册(即在研究开始之前就详细登记研究方法和预期结果,防止研究者对数据进行操纵),以及增加样本量(提高统计检验力),来提升新研究的可靠性。
但整个学科迈向更严谨的科学还需要时间。目前,我们对哪些心理学知识靠谱,哪些不靠谱仍难有十足的把握。在这种情况下,我们需要具有批判性的思维。或许可以这样说:任何单个研究的成果都不能全盘相信。对于那些吸引眼球的标题、让人眼前一亮的研究成果,最好的态度是:挺有趣的,先记着,再看看。