什么问题能让72位学术大牛一起发了一篇论文,还引来87位作者署名的反驳论文?其实是个P问题。对于统计学上牵动人心的P值要多小才能算结果显著,科学家们开始了一场大规模论战。荷兰埃因霍温理工大学的心理学家丹尼尔·莱肯斯(Daniël Lakens)以心直口快闻名。
2017年7月22日,他在读完一篇标题为《重新定义统计显著性》的预印本论文后,毫不留情地在推特上开喷:“一群聪明人给出这么恐怖的糟糕建议,我对此非常失望。”这篇被喷的论文由72位著名的科学家共同完成,两个月后发表在了知名期刊《自然-人类行为》上。而让莱肯斯抓狂的原因是:这篇论文建议降低在众多实验中使用的显著性阈值,让p值低于0.005而非现在使用的0.05时才能算作结果显著。
科学家们希望用这种方式降低假阳性率,提高科学实验的重现率。但是37岁的莱肯斯认为这是一个灾难性的想法。在一个更低的显著性阈值要求下,需要更大的样本量才能让统计结果显著,会让许多实验无法操作。再者,他说,“当科学如此多样化的时候,为什么要限制一个单一的p值标准?”他和他的同事们在今年年初也投递了一篇针锋相对的论文,被《自然-人类行为》接受。
与众不同的是,这篇文章是全世界上百位科学家在谷歌文档里共同写出来的。什么是p值?p值是一个非常难掌握的概念。现在,让我们先通过简单粗暴的方式理解区分关于p值的各种概念:假设:科学家提出并要去证明的观点,与零假设矛盾。如:假设A和B有联系。若零假设是错的,那么与零假设相反的结论可能有效。P值:简单来说,p值越小,零假设有问题的可能性越大,你的假设就越可能成立。
若p=0.05,则这时拒绝零假设,有5%的可能性你“冤枉了”正确的零假设;若P=0.01,那么拒绝零假设你只有1%的可能是错的。显著性阈值α:p值小到什么时候才能拒绝零假设又被学界认可?这个一刀切的门槛就是显著性阈值,完全人为设定。目前这个学界认可的门槛高度是0.05,即,当p值小于0.05时,可以说实验结果统计学上显著。p值方法是广泛使用的统计手段,但因其自身的缺陷饱受争议。
学界对于p值的讨论一直很热烈,有一批科学家就认为,由p值小于0.05推出的结论并不如人们想象中的那么靠谱,需要降低实验中使用的显著性阈值。想要反驳修订阈值的论文,光用推特可不行。为了能深入讨论p值修订的问题,莱肯斯干脆在谷歌上创建了一个共享文档,标题是“为你的α值正名:对‘重新定义统计显著性’的回应”。
莱肯斯在文档中列出了12个讨论点,包括“我们应该对这个建议做出评价还是无视它”以及“这样重新定义统计显著性存在的潜在负面影响是什么”。莱肯斯说他想要这次的方案尽可能考虑每个人的想法,使想加入的人都等加入进来,并且没有主动找任何有名的科学家。在这种情况下,有接近150位科学家加入了讨论,文档激增到了100页。讨论的参与者十分多样,很多人分享了他们的私人经验。
因为p值和样本量有关,所以想要得到小于0.005的p值,可能需要更多的样本。有些参与者表示他们难以负担这样的大型实验,或者是没有办法招募到足够的被试。有些人则指出这个更低的阈值会使研究者转而寻求“方便的样本”,比如找本科学生或者采用网络研究。批评者还指出满足要求的大型实验更加难以复制,违背了提出新标准的初衷。同时,一个更严格的显著性阈值可能会让研究人员规避风险、更少地去研究困难课题。
除去修改阈值对科研造成的负面影响,参与者们对论文最大的质疑还是在于:0.005其实和0.05一样随意,真正的阈值实际上取决于我们对一个主题的了解程度,和在这个主题上得到错误答案的风险。比如,初步实验对出现假阳性结果的风险接受度应该更高,药物实验则可能需要一个更低的p值。莱肯斯希望能将谷歌文档中的讨论变成论文发表,不过这一次事情没有那么顺利。
虽然作者们精诚合作,但留给莱肯斯的任务还是很多——尤其是在莱肯斯需要完成常规工作的情况下。他只能利用空闲时间来完成任务,比如早上或者夜间。“有那么一瞬间我觉得我要疯了。”莱肯斯说。在论文完稿的过程中,有几个参与者选择了退出,部分原因是他们不同意论文中的部分内容。最终87个人同意成为论文的共同作者。修订阈值派的回应莱肯斯等人的论文建议完全丢弃“统计显著性”的标签。
作为替代,研究者应该描述并解释它们的实验设计和数据处理方式,包括所选取的统计阈值。“有时候显著性水平可以是0.05,有时候是0.005,或者是0.10。”莱肯斯说。对于莱肯斯的观点,主张修订显著性阈值的科学家们也有所回应。原论文《重新定义统计显著性》的第一作者是德克萨斯农工大学的瓦伦·约翰逊(Valen Johnson),他认为莱肯斯的方法行不通。
“让每篇论文的作者决定他们自己的显著性水平是不可行的,”他在写给《科学》的邮件中写道,“理由很简单,没有足够的资源对每个被提出的显著性阈值进行详细、公证的审查。”“同时也不清楚“证明α的合理性”在实际中如何操作。”论文的共同作者、阿姆斯特丹大学的埃里克-简·瓦根马克斯(Eric-Jan Wagenmakers)补充道。要想证明阈值的合理性并不是一件容易的事。另一位重要的共同作者态度更为温和。
在弗吉尼亚大学的心理学家布莱恩·诺塞克(Brian Nosek)看来,“莱肯斯那篇论文中传达出的信息非常好,实际上不是对我们的论文的批判。”诺塞克说《重新定义统计显著性》这篇论文传达的关键信息非常有限:目前0.05的显著性阈值让人们高估了证据的可信度,如果要降低这一阈值,0.005是一个合理的替代值。
“其他对显著性问题的建议,比如抛弃所有的显著性检验、对所选取的α做出解释、结合贝叶斯推论、更多的重复实验等等,也都是非常不错的改进。”诺塞克说。这一场辩论还会继续,不过地点可能不会是谷歌文档了。谷歌文档中发生的故事“令人惊叹”但效率并不是很高,莱肯斯说,“当你的时间有限时,你不应该这么做。”“讨论很激烈。我们确实因为无法取得统一的意见,放弃掉了一些论点。如果只有我一个作者,我会把那些加进去的。
”莱肯斯补充说道。看来关于统计显著性,能讨论的还有很多。而每一次讨论,都可能是完善科学方法的星星之火。