在科学实验中,研究者们往往需要判断某个结果在不同的实验条件下是否有差异,并检验这种差异是不是由于偶然因素造成的。
最伟大的统计学家之一、英国人 Ronald Fisher 在 20 世纪 20 年代提出了一个假想的思路来确定实验效果是否只靠运气出现:首先假定实验结果在不同实验条件下没有差异,即所得结果是全然随机出现的;然后计算在完全随机的假设下出现当前数据结果或更极端的结果模式出现的概率,这就是当代统计学中所谓的 P 值。
更年轻的波兰裔统计学家 Neyman 和英国统计学家 Pearson 在 Fisher 的思想框架的基础之上,提出了更具通用性、数学气息也更强的假设检验模式。
有意思的是,Fisher 本人对 Neyman-Pearson 的“改进”并无好感,但在后来者的眼中,两者之间在技术与思想上的分歧逐渐淡化,他们的意见被整合成为了大部分研究者所熟悉的一种既不是纯 Fisher 式、也不是纯 Neyman-Pearson 式的统计推断方法——零假设显著性检验。
虽然 P 值被广泛使用,但真正理解 P 值所代表的意义的人却很少。2002 年,德国研究者对心理学的研究者和学生进行一项调查,给他们呈现了 6 个关于 P 值的陈述。所有学生均无法正确理解 P 值的意义;即便是教授方法学的教师,也有 80% 无法正确理解 P 值。说明研究者极容易对 P 值产生误解。
P 值 < 0.05 在科研界被推上神坛,被研究者视为“存在效应”及论文可能发表的指标,在当前“publish or perish”文化下,就有研究者想尽一切办法让 P 值达到可发表的标准。这种做法导致了一个奇怪的现象:如果我们把已发表研究中的 P 值分布画出来,会发现 P 值分布在 0.05 附近出现了一个峰值,表明在已发表的研究中,P 值在 0.05 附近是非常多。
对于新发现的研究结论,我们建议将其统计显著性的默认 P 值阈限由 0.05 改为 0.005。其主要的目的是为了在以最广泛接受的方法来降低发表论文中结果的假阳性。同时 0.005 的标准主要是用于推断证据的强度,而非作为发表论文的标准。