近日,最新一期《Nature》杂志发表了三位统计学家的一封公开信,他们号召科学家放弃追求“统计学意义”,并且停止用统计学中常见的P值作为判断标准。
这三位统计学家是分别是瑞士巴塞尔大学的动物学教授Valentin Amrhein,加州大学洛杉矶分校的流行病学的统计学教授Sander Greenland,伊利诺伊州埃文斯顿西北大学的统计学方法学家和营销学教授Blake McShane。
这篇公开信名为《科学家们起来反对统计学意义》(Scientists rise up against statistical significance)。正如标题所言这三位号召科学家放弃追求“统计学意义”,并且停止用统计学中常见的P值作为判断标准。
p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性。产生的
结果可能会带来争议。
一般认为P≤0.05或者P≤0.01就有显着性差异,研究就有统计意义。三位统计学家写完公开信的草稿之后,还邀请了其他人阅读,并表示如果人们同意三人的观点,就签上自己的名字。意想不到的是,这篇文章得到了许多人的赞同。在最初的24小时内,就有250人签了名。
一星期后,共收到800多份签名,签名者包括来自50多个国家的统计学家、临床和医学研究人员、生物学家和心理学家,除南极洲没人以外,所有大洲都有人签名。
一名倡导者称,这是“对统计意义轻率测试的外科手术式打击”,也是“一个为更好的科学实践发声的机会”。难道大学里好不容易听懂的统计学,会变成一件没“意义”的事情吗?
为什么要放弃统计学意义的概念?几代人以来,研究人员一直被警告说:统计上不显着的结果并不能“证明”零假设(即假设各组之间没有差异,或者某个处理方法对某些测量结果没有影响)。因为统计上,显着的结果也不能“证明”其他一些假设,观点容易扭曲了文献,导致了一些研究之间的冲突。所以,三位统计学家提出一些建议,让科学家们不至于成为这些误解的牺牲品。
让我们清楚什么是必须停止的:我们永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论,或者同样地,因为置信区间包含0。我们也不应该得出这样的结论:两项研究存在冲突,因为其中一项研究的结果具有统计学意义,而另一项则没有。这些错误浪费了研究工作,误导了政策决策。
例如,在一系列研究消炎药的服用效果的研究中,因为这些研究的结果没有呈现统计的显著性,一些研究人员就下结论说,服用这些药物与新发的心房颤动(最常见的干扰心跳频率的症状)没有关联,同时这一结果与那些早期呈现统计显著的研究相悖。
现在,让我们看看实际的数据。研究人员描述了他们的统计不显着的结果,发现风险比为1.2。他们还发现95%的置信区间跨越了从微不足道的风险降低3%到非常显着的风险增加48%(P = 0.091)。研究人员从较早的具有统计学意义的研究中发现,风险比同样为1.2。这项研究更加精确,其风险区间在9%到33%之间(P = 0.0003)。
当区间估计包含严重的风险增加时,得出结论认为统计上不显着的结果显示“无关联”是荒谬的;同样荒谬的是,声称这些结果与先前研究中显示相同观察效果的结果相反。然而,这些常见的实践表明,依赖统计意义上的阈值会误导我们。
这些错误以及类似的错误普遍存在。对数百篇文章的调查发现,统计上不显着的结果被解释为“没有差异”或“没有影响”的约有一半。2016年,美国统计协会在《美国统计学家》上发表声明,警告误用统计意义和P值。本月,《美国统计学家》杂志又发表了40多篇关于“21世纪的统计推断:一个没有P<0.05的世界”的论文。编辑们在介绍这期特刊的时候谨慎地说,“不要说’统计意义重大“。
三位统计学家也强调,他们不是在呼吁禁止P值。不是说P值不能在某些特定的应用程序中用作决策标准,而是他们与过去几十年的许多其他研究结果一样,呼吁停止以传统的二分法使用P值——来决定结果是反驳还是支持一项科学假设。
避免这种“二分法”的一个原因是,所有的统计数据,包括P值和置信区间,都会随着研究的不同而自然地发生变化,并且往往变化非常大。事实上,单凭随机变化就能很容易导致P值的巨大差异,远远不止落在0.05阈值的任何一侧。
例如,即使研究人员可以对一些真实的效果进行两次完美的复制研究,每次都有80%的机会达到P < 0.05,那么其中一个得到P < 0.01,另一个得到P > 0.30也就不足为奇了。无论P值是大是小,都需要谨慎。
问题不在于统计,而在于人和认知:把结果分成“统计显着性”和“统计非显着性”,让人们认为以这种方式分配的项目是截然不同的。同样的问题也可能出现在任何涉及二分法的统计替代方法中,无论是频域法、贝叶斯法还是其他方法。
不幸的是,科学家和期刊编辑们错误地认为,超过统计意义的临界值就足以证明一个结果是“真实的”,这导致他们对这类结果给予了特权,从而扭曲了文献。统计上有意义的估计值在大小上向上偏倚,而且可能偏差的幅度很大,而统计上不显着的估计值是向下偏倚的。因此,任何侧重于统计学意义的估计的讨论都是有偏见的。
最重要的是,对统计意义的严格关注鼓励研究人员选择一些数据和方法,这些数据和方法对于某些期望的结果具有统计显着性(或者仅仅是可发表的),或者对于不期望的结果没有统计显着性,例如药物的潜在副作用,从而使结论无效。预先登记研究和承诺公布所有分析的所有结果可以大大减轻这些问题。然而,即使是预先登记的研究结果也可能因分析计划中始终未作决定而产生偏差。即使是出于好意,这也会发生。
2014年,Nature的一篇文章中,就讨论了P值并不像许多科学家所假设的那样可靠。当时文章引起了业界很大反响,由此引发了后来美国统计协会在2016年警告滥用统计意义和P值。
如果研究人员确实放弃了统计学意义,他们应该做些什么呢?三位统计学家认为:我们必须学会接受不确定性。一种实用的方法是将置信区间重新命名为“兼容区间”(compatibility intervals),并以避免过度自信的方式解释它们。具体地说,建议作者描述区间内所有值的实际含义,特别是观察到的效果和极限。
在这样做时,他们应该记住,考虑到用来计算区间的统计假设,区间极限之间的所有值都与数据合理地兼容。因此,在区间中挑出一个特定的值(例如null值)没有任何意义。而且当谈到兼容间隔时,请记住四件事:首先,给定假设的条件下,仅仅因为区间给出了与数据最相容的值是不恰当的,因为这并不意味着它之外的值是不相容的;其他值只是兼容性较差。
实际上,区间之外的值与区间内的值没有实质性差异。因此声称区间显示了所有可能的值是错误的。其次,根据假设,并非所有内部值都与数据同等兼容。点估计是最兼容的,其附近的值比接近上下限的值更兼容。这就是为什么我们敦促作者讨论点估计,即使它们具有较大的P值或较宽的区间,以及讨论该区间的上下限。
例如,上述作者可能写道:与以前的研究一样,我们的研究结果表明,给予抗炎药物的患者新发房颤的风险增加了20%。尽管如此,根据我们的假设,风险差异从3%增加20%和从48%增加20%,影响显然是不一样的,也与我们的数据合理地相容。解释点估计,同时承认其不确定性 ,将阻止你做出“无差异”的虚假结论,并避免过度自信的论断。第三,与它来自的0.05阈值一样,用于计算区间的默认95%本身就是一种任意约定。
计算的区间本身有95%的可能性包含真值是错误的,再加上模糊的感觉,这是一个置信区间决定的基础。根据应用,可以证明不同的置信水平是合理的。并且,如在抗炎药物实例中,当它们施加的二分法被视为科学标准时,区间估计可以使统计显着性的问题永久存在。最后,也是最重要的一点,保持谦虚:兼容性评估取决于用于计算区间的统计假设的正确性。
实际上,这些假设充其量只有很大的不确定性。尽可能清楚地做出这些假设并测试你可以做的假设,例如绘制数据并拟合替代模型,然后报告所有结果。同时,三位统计学家呼吁消除统计意义,并将置信区间作为兼容性区间,这并不是万灵药。尽管它将消除许多不好的实践,但它很可能引入新的问题。因此,监测文献中的统计滥用应该是科学界目前的一项优先事项。
但是,当原始研究和复制研究的结果高度一致时,消除分类将有助于阻止过分自信的断言、“没有区别”的不合理声明和关于“复制失败”的荒谬声明。滥用统计意义对科学界和那些依赖科学建议的人造成了很大的危害。P值、区间和其他统计度量都有它们的位置,但现在是统计意义消失的时候了。
这也并不意味着大学的统计学白上了。研究人员可以从教育自己对统计的误解开始,最重要的是在每项研究中从多个角度考虑不确定性。从逻辑、背景知识和实验设计应与P值和类似指标一起考虑,以得出结论并确定其确定性。持怀疑态度,选择一个好问题,并尝试以多种方式回答它。毕竟,接近事实需要很多数字。