长期以来,一篇学术论文的被引用次数,都被视为是衡量一项研究的质量的重要指标,但这也存在争议。比如2011年,一篇发表在《科学》杂志上的心理学论文就发布了一个非常“有趣”的结论,论文称,人们将互联网作为一种“外部”记忆形式,依赖它来获取信息,而不是靠自己回忆事实。这样的研究结果在社交媒体和学术界都引发了不小的轰动。
然而,在2018年的一项研究中,一组研究人员对21篇于2010年和2015年之间发表在《科学》和《自然》期刊上的备受瞩目的论文进行了检验,其中就包括我们刚刚提到的那篇论文。研究人员发现,这篇论文中的一项关键发现无法被复制。但是,这篇论文的被引用次数高达1417次,其中有超过400次引用发生在2018年的复制工作之后。
于是,关于学术论文的引用次数出现了这样一种声音:在一项发现的有趣程度和不可复制性之间,存在某种关联,越是不可靠的研究,传播度越广。现在,一项新的研究结果似乎印证了这场正在发生的“复制危机”。
5月21日,加州大学圣迭戈分校的经济学家Marta Serra-Garcia和Uri Gneezy在《科学进展》杂志上发表了一项新的研究,他们发现当试图对那些发表在主要的心理学、经济学和科学期刊上的社会科学以及医学论文进行重复时,很多结果都不成立。而且与那些可复制的研究相比,无法复制的研究的被引用次数往往比那些可复制的研究更高。
在这项研究中,Serra-Garcia和Gneezy从三个有影响力的复制项目中,收集到了80篇论文的数据。这些项目试图系统地复制一些发表在顶级心理学、经济学和其他综合类科学期刊(如《自然》和《科学》)上的发现。从数据来看,在心理学领域被调查的100个实验中,只有39%被成功复制;经济学领域的18项研究中有61%的可被复制。
研究人员分析了这些论文在谷歌学术搜索(Google Scholar)上的数据,发现那些无法被复制的论文有着明显更高的被引用次数,平均每年被多引用16次。这是一个很显著的数字,同一时期的那些发表在具有较高影响力的期刊上的论文,平均每年只能积累约40次的引用次数。随着时间的推移,最终平均来说,无法成功复制的论文的被引用次数比能够复制的论文的引用次数多153次。
有意思的是,研究人员还发现,发表在《自然》和《科学》上的论文有着最显著的引用次数差距——不可复制论文的被引用次数比可复制论文的被引用次数多300次。而且,当研究人员检查这些不可复制的论文在复制项目发表之后的引用次数时,发现这种差距也仍然存在。引用这些论文的研究很少在新论文中提到复制失败的事实,据调查,提到了复制失败一事的研究只有12%。
在论文中,研究人员写道,其实专家是可以很好地预测哪些论文将能被复制、哪些不能的。因此他们想知道,为什么那些不可复制的论文还是能得以发表呢?他们提出了一种可能的答案,即学术期刊的评审团队在做“取舍”,当一项研究的结果看起来“很有趣”时,他们就会降低对其证据的要求,采用更低的可重复性标准。有趣的发现也会被媒体更多地报道,或者会在一些社交网络平台传播,引发大量关注。
这也是学术研究中的一个矛盾:科学家既希望他们的工作是准确的,但也希望他们的结果能吸引关注。
当然,一次失败的复制并不意味着最初的发现就一定是错误的。因为对于一些社会科学研究来说,研究方法的改变和参与者习惯的演变,有可能导致新得出的结果不同于过去。
但不可否认的是,新的研究结果或许指出了一个我们在评判一项研究时所存在的“根本问题”,即大多数学术机构都将引用次数作为衡量一项研究的重要指标,以及一些期刊也倾向于刊登更有趣、更吸引眼球的发现,是目前复制危机的根源。而那些被多次引用的并不可靠的研究所能产生的影响可能是巨大的。
例如1998年,英国的神经科医生Andrew Wakefield在著名的生物医学期刊《柳叶刀》上发表了一篇论文,称自闭症和接种麻腮风(麻疹、腮腺炎和风疹)三联疫苗之间存在关联,导致世界各地无数的父母加入了反对麻腮风疫苗的行列。虽然《柳叶刀》在2010年撤回了这项错误的发现,然而关于自闭症与麻腮风疫苗有关的说法仍没有停息。
我们说,“非凡的主张需要非凡的证据”。这或许应该成为学者和期刊评审团队在看到有趣的研究结果时谨记在心的一条宗旨。新的研究结果再次提醒我们,无论是学者还是评审,都应该付出额外的努力来加强已发表研究成果的可信度;同时,当读者在读到有趣的研究时,也应该持更谨慎的态度。