研究无法重复？物理学也需要担心

过去几年，在粒子物理学和宇宙学领域，出现了很多重大新闻，例如比光速还快的中微子、能放出伽玛射线的暗物质粒子、宇宙早期的暴胀所产生的引力波在微波背景辐射上留下的证据等。大多数新闻后来被证实是错误的，而且我认为剩下的新闻也正确不了。在没有经过评审，或者已经知道即将有更好的数据的情况下，向同行或公众宣布这些看起来重大无比的结果会产生不好的影响。

物理同行们曾为新出现的新闻兴奋，但现在只是摇摇头，把它们当成笑话：“又来了一个暗物质的候选者。”这一领域喊了太多次“狼来了”，已经失去了信誉。我的一个同事告诉我，科研基金的评委们在面对搜索暗物质粒子的申请时，已变得越来越谨慎。

我还担心错误的发现会损伤科学的公信力。如果某些宇宙现象一会儿被发现，一会儿又被否定，更何况像平行宇宙和全息宇宙这样的假想概念层出不穷，那人们怎么相信一个科学结果是成立的？

出现这种情况有几个原因：激烈的学术竞争，对公开数据越来越频繁的使用，以及没有经过充分评审就公开发表的论文草稿。这些原因都破坏了传统的论文发表标准。20多年前，粒子物理学和天体物理学领域首先开放了数据和研究论文，其他领域也紧随其后。现在，科学界必须处理这一趋势带来的问题，确保那些发表了错误结论但很有诱惑力的论文不会淹没对重大科学突破的客观解释。

科学研究和报告科学发现的方式出现了3个变化，让大量虚假发现出现。首先，很多人没有遵守统计标准。越是惊人的发现需要越坚实的证据。在粒子物理学领域，新发现成立的阈值通常为“5-西格玛”（5 sigma）：如果一个信号是平均噪音水平（西格玛）的5倍以上，那么这一结果是随机噪音的概率大约为350万分之一。但5-西格玛的使用率越来越低，因为科学家急着公布自己激动人心但不够确定的结果。

2012年7月，欧洲核子研究中心官方宣布，欧洲粒子物理学实验室（位于瑞士日内瓦附近）的大型强子对撞机发现了希格斯玻色子。但在此之前，缺乏论证且有误导性的新闻稿已经开始传播了，即使这项研究并不存在竞争。

即使科学家会在论文中修改措辞，比如把“发现”（discovery）改成“证据”（evidence）或“迹象”（indication），也几乎改变不了媒体的报道方式。以最近的暗物质发现报道为例。

3月8日，天文学家在arXiv网站上发布了一篇没有正式发表的论文。随后，这些天文学家所在的大学发布了一篇新闻稿报道了这篇文章。在新闻稿中，论文作者表示，最近在银河系附近发现的富含暗物质的矮星系里，找到了伽玛射线存在的迹象，“让人向往”。科学家在费米伽玛射线人造卫星大面积望远镜（LAT）拍摄的图片中发现了伽玛射线的信号，这看起来符合暗物质粒子湮灭时产生高能放射的事实。

但作者也承认，光子只是噪音水平的3～4倍，所以结果并不确定。

同一天发表在arXiv上的另一篇论文并不支持这项发现。费米大面积望远镜的团队更全面地重新分析了相同的数据，并没有在噪音之外发现任何信号。他们使用了升级后的软件，灵敏度提升了30%到40%。第一篇论文的作者承认，当时已经很快就能升级软件，并可以确认或否定他们的发现，但他们已经等不及了。

科学家把噪音起伏当成发现并不新鲜，但如果他们“发现”的可能是暗物质，就会在媒体上广为传播。即使公正的报道也会引起公众的联想。《纽约时报》的报道提到了监测到噪音的可能，但整篇报道仍在暗示可能会有让人激动的新发现。其次，科学家越来越多地使用公开的数据，但这样做是有风险的，因为在仪器灵敏度的临界点附近，一些研究人员会得到假结果。

很多人都可以挖掘数据，但如果没有来自仪器建造者和校准者的内部信息，分析数据会很困难。

从费米大面积望远镜的数据中发现暗物质就是一个例子。自2009年起，费米大面积望远镜开放了数据。这些数据通过复杂的算法和校准过程，把来自探测器的电信号转化成让所有物理学家原则上都可以分析的量化数值。但只有仪器的建造者才有降低噪音影响的诀窍。当更多的人可以获得数据的时候，误用数据的风险也会增加。

即使是最大规模的合作也不能监督来自外部的数据使用者做出的发现。哪怕合作内部重新分析数据，如果错误的结果先被公之于众，也会带来负面影响。

第三，越来越多的论文发布到非正式出版的预印本文库上，比如arXiv（2014年有10万篇论文提交到arXiv上），而新闻稿也会在同行评议之前发布。科学家需要通过竞争获得职位、资助、职业指标（比如h指数）和奖项，所以他们会仓促地发表不成熟的结果，并宣传自己的发现。

发布在arXiv上的不正确论文不仅增加了一些没有意义的噪音结果，还会干扰研究资金评审，让理论科学家浪费时间想出解释。另外，根据不正确的论文写出的新闻报道也会误导公众。

一个著名的案例发生在去年，一篇关于引力波和宇宙暴胀（即大爆炸一瞬间后宇宙的急速膨胀）证据的研究报告尽管并不成熟，但在同行评议流程之前就被发布。

研究证据来自位于南极的“第二代宇宙泛星系偏振背景成像微波望远镜”（BICEP2 microwave telescope）。研究人员在宇宙微波背景辐射（大爆炸留下的辐射）中，发现了漩涡状的偏振模式（也就是B模式，B-mode），信号本身的存在没有任何问题，检测标准达到了7-西格玛。但他们发现的信号并不是来自宇宙的源头。6个月后，欧洲空间局普朗克卫星的数据表明，这些信号来自银河中发出辐射的尘埃。

再一次，我认为那篇论文的作者知晓普朗克卫星的数据即将公布，却迫不及待地在结果确认前就宣传他们的发现。最终，BICEP2和普朗克卫星的研究人员合作得到了可靠的结果，这种方法本来就应该在研究一开始的时候就被考虑采纳。

为了避免科学标准和科学声誉被进一步破坏，研究人员需要严格遵守最佳的科学研究规范。物理学家首先要做的是保证采用5-西格玛或与之等价的规则，保证发现的可靠性。

不能通过在线发布结果的方法取代论文发表流程。应该先向科学同行，而不是公众披露重要发现。来自科学同行的批判性检验是必需的，这不仅仅是为了避免人为偏误。由于在线发布的结果会影响到经过仔细检验的研究结果的公信力，因此在线发布非正式版本的论文时，就需要更严格的质量保证。

arXiv开发了“认证系统”（endorsement system），用户必须寻求其他用户的认证后才能发表论文，这保证了不科学的文章不会在arXiv上大量出现。针对重大的发现需要更多类似的措施。对重要的发现要提名审稿人，这么做可以让读者和作者放心，也能给审稿人带来声誉。学术期刊也不应该鼓励研究论文引用arXiv上的文章。

仪器建造者和仪器专家需要审阅根据自己收集的原始数据做出的重大发现。

他们可以担任研究人员的审稿人、顾问或是合作作者。其他提供辅助数据，并能证实或否定某个结果的研究团队也应该在重大结果公布之前参与评审。这需要竞争对手自觉地遵守规范——对于报告重大发现的论文而言，这也可以通过提名审稿人的方式实现。我们还需要建立一种奖励机制，鼓励遵守科研规范的研究人员。比如，在合作过程中，合作各方应该有一套机制，保证数据分析团队不会埋没科学家的论文，也不会削弱他们对论文的贡献度。

在会议上发布的重大结果也应提前进行评议。我们需要设计出论文作者的排名规则，以便清楚说明来源。

学术期刊和arXiv需要找到一种策略，在上述合作中保证主要科学家的功劳。例如，BICEP2的团队最后仍然选择和普朗克卫星团队合作，如果有更好的方法可以保证他们的优先发现权，也许他们就会推迟向媒体公布自己的发现。BICEP2最早的论文的引用次数比修正后的文章要多10倍，这并不奇怪。

很多错误论文的被引用次数比正确的论文更多。学术指标需要修改，从而可以去除对无效论文的引用。这样就可以鼓励科学家做出可靠的发现，而不是抢先公布并随后撤回研究结果。物理学家的协会（比如美国物理学会和国际纯粹与应用物理学联合会）需要像生物学界那样，启动一些提高可重复性的计划。

科学家、出版商和科研资助机构的代表需要一起讨论如何改进各种规范，包括同行评议流程、学术指标、数据库使用方法、质量保证方法，以及科研行动守则。