在零假设显著性检验中,p值是在假设零假设正确的情况下,获得检验结果至少至少与实际观测样本相同极端的样本的概率。学术研究中,研究人员习惯用p值衡量实验数据的可靠性。当p值小于0.05时,意味着仅因偶然性产生的概率小于5%时,结果具有统计显著性。但是,古德哈特定律指出当指标变成目标后,就不再是一个好的指标。P值就有这样的特点,许多研究中的p值并不可靠,甚至是被操纵的结果。
科学家几乎都不会为了得到想要的p值而进行科学欺诈,但仍有很多不易界定的破坏科学过程诚实性的行为。研究人员有时会尝试不同的统计假设或测试,直到他们找到一种方法,可以让他们的p值跨过具有统计学意义的临界值p=0.05。这就是所谓的p值操纵,是一个十分严重的问题。有时他们会修改测试取得的结果。
一项临床试验本来是要测量某种新药对5年存活率的影响,但在没有存活率发现任何变化后,研究人员可能会挖掘数据,找出3年后患者生活质量明显改善的地方。
为了避开这个陷阱,研究人员应该在查看数据之前明确说明所有这些选择,然后测试他们事先承诺的那个假设。例如,我有可能决定测试那些达到投票年龄的成年男性和女性,看看他们是否会在看好的州长候选人选举失败后服用更多的止痛药。
或者,我可能会测试在共和党人取代民主党人当选美国众议院议员的那些地区,看看儿童用泰诺的销量是否会下降。无论我选择看什么,重要的是我在分析数据之前就做出明确说明。否则,通过观察足够多的不同假设,我总会得到一些有显著性的结果,即使我找不到真正的模式。
但是,我们不妨从研究者的角度看一看。假设你刚刚花了几个月的时间,收集了大量数据。你测试了你的主要假设,最终得到了一些看上去有希望但不具有显著性的结果。你知道,就这样保持不变的话,不要说优秀期刊,甚至其他所有期刊都不会发表你的研究成果。但你认为你的假设肯定是成立的,也许只是没有足够的数据支撑。所以你继续收集数据,直到你的p值降到0.05以下,然后你立即停止收集数据,以免它变回到阈值以上。
或者你可以尝试一些其他的统计测试。由于数据接近显著性,选择正确的测量方法和测试,也许能让你跨过p=0.05这道关卡。当然,稍加修改,你就找到了一种能给你带来显著结果的方法。或者你的假设似乎只对男性成立,而有统计意义的模式被包含在你的样本里的女性淹没了。你一看,哎呀,如果只看男性,你会得到一个有统计显著性的结果。怎么办?
放弃整个项目,放弃数千美元的投资,让你的研究生再推迟6个月毕业……还是只记录男性的研究结果,然后提交给优秀期刊?在这些情况下,为选择后一种做法找一个理由似乎并不是那么难。你可能会对自己说:“我确信这种趋势确实存在。我从一开始就在考虑将女性排除在研究之外。”祝贺你。你成功地对你的研究进行了p值操纵。
假设有1000名在诚实性方面无可挑剔的研究人员,他们在任何情况下都会拒绝p值操纵。
这些品德高尚的学者测试了上千个关于政治上取得的胜利和止痛药的使用之间是否存在关系的假设,但所有这些假设都是不成立的。在p=0.05这个水平上,单凭碰运气,这些假设中就有大概50个假设会找到统计学上的支持。这50名幸运的研究人员将研究结果写下来,发给期刊,然后被期刊接受并发表。在其余950名研究人员中,只有少数人会不辞辛苦地写下他们的阴性结果,其中只有几个人能够发表他们的阴性结果。
读者查阅文献时,会看到有50项研究表明政治结果和止痛药消费之间存在联系,也许还有为数不多的研究称没有发现任何联系。读者会很自然地得出结论:政治对止痛药的使用有很大的影响,而那些失败的研究肯定是测量了错误的量,或者是在寻找模式时出了问题。但现实恰恰相反,两者之间没有关系。之所以看起来有关系,纯粹是人为因素导致的——哪些结果值得发表是由人决定的。
本质上讲,问题在于论文是否有发表的机会受它所报告的p值影响。因此,我们一头撞上了选择偏倚的问题。得以发表的那些论文是全部实验的一个有偏差的样本。在文献中,有统计意义的结果被过度表现,而没有统计意义的结果则表现不足。没有产生显著性结果的实验数据最终被科学家扔进文件柜里(现在则是被扔进文件系统中)。这就是所谓的抽屉问题(file drawer effect)。
还记得古德哈特定律吗?“指标变成目标后,就不再是一个好的指标。”从某种意义上说,p值就具有这个特点。因为p值低于0.05对于论文发表来说是必不可少的,所以p值不再是衡量统计支持的好指标。如果科学论文是否发表与p值无关,那么p值仍将是一个有效指标,可以衡量推翻原假设时得到统计支持的程度。但是,由于期刊明显偏好那些p值低于0.05的论文,因此p值已经失去了原先具有的用途。