我们可以在多大程度相信一项科学发现?这个问题的答案至关重要,因为在许多领域中,偶有出现已发表的研究结果的可重复性受到质疑的情况。在一项名为社会科学复现项目(the Social Science Replication Project)的新研究中,再一次将研究结果的可重复性问题置于科学辩论的风口浪尖。因为科学家发现,在21个具有影响力的社会实验研究中,只有13个可以被复现。
社会科学复现项目的研究人员调查了在2010-2015年间,发表在顶级期刊《自然》和《科学》上的21项社会科学实验的可重复性。8月27日,他们将研究结果发表于《自然·人类行为》期刊上。研究人员重复了在2010到2015年发表在《自然》和《科学》上的21个社会科学实验。《自然》和《科学》都是非常有声望的科学期刊,发表在上面文章通常被认为是重要的,并且具有创新性和影响力。
为了测试那些初始论文的结果,研究人员在进行的重复测试中采用了更多的受试人数,并采取了多种统计方法进行分析。并且这些研究的初始作者对新研究的实验拟定进行了反馈,还提供了他们使用过的数据、软件和代码。研究人员耗费了很大的心血才完成了对这些研究的检测。
在21个重复实验中,研究人员发现只有13个实验能与初始研究有着相同方向上的显著效应;而且观察到的效应量级大约只有初始研究中的一半。心理学和实验经济学中具有前瞻性的复现项目已经揭示了这些领域的问题,但是它们并没有重点关注过发表在具有高影响力期刊上的文章,因为高影响力期刊可能更注重新颖性,而且可能会有更多的编辑审查。
在未通过可重复性测试的8项实验中,有一项是来自于现为肯塔基大学副教授的Will Gervais,在2012年,当他还是英属哥伦比亚大学的一位心理学博士生时,进行了这项研究善于分析的人是否更不可能持有宗教信仰的实验。如今,他承认这个实验非常薄弱。科学研究的一个基本特征是自我纠正,所有的科学结果都应该是坚实可靠的,这一点非常重要,因为一项研究的发现常常会被用来作为未来工作的起点。
发表在《科学》和《自然》这样的核心期刊上的文章,不仅会推动科学进展,还会通过媒体传播给大众。在实验经济学复现项目(EERP)中,18个复现研究中的11个具有与初始研究相同方向的显著效应,复现结果的效应的平均值是初试结果的66%。在可重复性项目:心理学(RPP)中,97个复现研究中的35个具有与初始研究相同方向的显著效应,复现结果的平均效应值是初始结果的49%。
仍在进行中的可重复性项目:癌症生物学(RPCB)中,10个复现研究中的4个成功复制了初始研究中的重要部分,另有2项取得部分成功。
不可重复意味着错误吗?并不是。其实,实验无法复现的原因多种多样。社会生活的异质性和人们在空间与时间上的多变性使得我们难以对同样事情得到相同的结果。但是这并不意味着初始的结果没有出现过,也不代表后续复现的结果没有出现过。
现在,数以千计的研究人员会在发表研究成果之前,预先注册他们的方法论和假说,以此来阻止外界认为他们会在事后篡改数据的担忧。一般来说期刊都会要求研究人员提交他们的整个数据集和分析代码。目前的研究也开始从复现研究中更清楚地确定可能的结果。有些研究复现了研究结果的方向以及有效性的量级;有些研究复现了方向但是有效量级更低一些;还有一些复现研究似乎没能出现任何结果。
出现复现了方向却没能复现出同等有效量级的情况,可能是因为诸如研究设计或报告中的任何方面等因素导致结果的有效性在初始研究中被夸大。对研究的设计、实施和报告投入更多的精力,将会在某种程度上解决这一问题。更有趣的是那些在复现研究中没有出现任何结果的研究。这有可能是因为一些潜在的独立变量只出现在一个实验中,而没有出现在另一个实验中。
重要的是,识别这些潜在的变量并了解其影响,能提供更好的机会以理解当下正在调查的现象。
眼下正进行的这项研究是非常重要的,因为它表明了即使是发表在高影响力期刊上的研究结果,同样可能无法被成功复现;因此,期刊的影响因子并不能确保研究结果的正确性。此外,当这些作者让一个大约由400名科学家组成的群体来预测某项研究结果能否被复现时,在该项结果能否被复现与观察到的复现结果的效应值这两方面,有着良好的相关性,也就是说,群体预测正确的时候远多于错误的时候。
重要的问题依然存在。虽然这些正式的复现项目是预先注册有着详细实验拟定的前瞻性研究,但用来复现的结果的选择却并不是随机的。在另一项研究中,Peder Mortvedt Isager鉴定了85个独立的复现工作,并发现可以基于理论影响、个人兴趣、学术、公众或社会影响、方法问题等方面来考虑选择的策略。
目前的这项研究选择的是发表在《科学》和《自然》上的论文,而它们都不太可能是社会科学研究中的典型例子。正如作者指出的那样,现有的可重复性研究有着“相对小的研究样本,并包含独特的入选标准和未知的普遍性。”然而,在不同学科都观察到的这种不可重复性,意味着引用这些研究成果的人并不能可靠地断定报告的结果是真实的。
我们从可重复性计划了解到,如果初始研究具有较大的效应值和较小的P值(详见《“可重复性危机”引发的一场科学辩论》),那么更可能成功复现。我们可以认为具有低误差风险的活体研究更有可能被成功复现,但是目前并没有直接证据支持这一观点。令人沮丧的是,目前没有任何一个可重复性研究没考虑到了在初始研究的设计中,作者是否在某种程度上处理了可能存在的误差风险,这或许能预测成功复现的可能性。
此外,如果用于复现研究的资源有限,那么,最好通过大幅度增加(或降低)我们对大量表现出某些共同特征的研究结果的信心,将目标集中在能够做得最好的地方。要做到这一点,需要这样一个可重复性研究——对初始研究的选择,是通过对那些有或没有感兴趣特征的研究进行的随机取样。鉴于一项复现研究将能对初始文献进行30–65%的“修正”,那么对于研究的资助者来说,这仍然代表着高回报率的研究。
当研究人员发表的作品挑战了公认的智慧时会遇到很多困难,在这样的背景下,这种工作的重要性在职业发展中很少得到认可。各种可重复性项目,作者们理应接受的喝彩,以及为这类研究开发专门的资金流,在某种程度上都是解决这种不平衡现象的方法。以科学地方法看待复现的“失败”,实则能提供巨大的研究机会。要对这些机会加以利用通常需要各方协作,这样,这些机会或许就能转变为更加周到、更加完善的研究计划。
基于这些原因,我们不该将目前关于研究的可重复性问题视为一场危机,或许更应视其为一个机会。