科学的目的是尽可能准确地建立事实。因此,分辨观察到的现象是否是真实的、还是纯属巧合的结果至关重要。如果你以为你发现了一些事实,而它其实只是随机的,这会被称为虚假的发现或假阳性。尤其是在医学的某些领域,假阳性这种情况是非常常见的。7月22日,一篇发表在PsyArXiv的文章引发了一场激烈的大辩论。辩论的问题很简单,而且还正中所有科学研究的核心,即:什么样的结果才能算是可靠的?
这个问题非常重要,因为许多学科目前都面临着“可重复性危机”,即使是教科书里的内容,也未必能通过严格的重新测试。此次辩论的中心是“统计显著性”这个概念,它是决定研究结果是否能发表在科学期刊中最有影响力的度量标准之一。若一个结果要能被算得上是“统计上显著的”,它需要通过一项简单的测试。测试的答案被称为“P值”。如果P值小于0.05——恭喜你!通过测试,你拥有了一个统计显着的研究结果。
但不久前,来自统计学、心理学、经济学、社会学、政治学、还有生物医学等学科的72名卓越的学者想要改变这种现状。他们在一篇即将刊登在《自然人类行为》杂志上的文章中表示,研究结果必须通过更高的门槛,才能被视为具有“统计显著性”。这篇题为《重新定义统计显著性》的文章即将发表在《自然:人类行为》杂志。合作者包括了两位研究可重复性的重量级人物:John Ioannidis和Brian Nosek。
作者写道:“我们建议将P值改为小于0.005,这个简单的步骤将即刻提高科学研究在许多领域的重复性。”如果这一改变被接受,它就有可能大大减少科学文献中的假阳性。斯坦福大学健康研究教授John Ioannidis是这篇文章的作者之一,他说:“我们使用P值的方式存在很大的问题,这导致了现在学术论文中出现了大量误导性的主张。
”同时Ioannidis也表示,这个建议并不能解决科学中的所有问题,他说:“我认为这就像是一个大坝,在我们找到永久性修复的方法前,它能帮我们遏制洪水。”但并不是每个人都认同这种做法。它能导致的最好结果是,通过这个简单的改变,学术文献中的错误得以显著减少。而最坏的结果,这种居高临下的命令,可能会让科学中一些真正的问题丧失表达机会。这也正是这场辩论的主要焦点。