尽管近年来统计推断领域人才与工具迭出,但原假设显著性检验(Null Hypothesis Significance Testing, NHST)仍是20世纪后半叶以来最为流行的统计推论模式。一项针对Science、Nature和PNAS三本顶级杂志的调查表明,在过去的20年,出现在三本杂志中的图表仍然高度依赖、且越来越依赖于p值(Cristea & Ioannidis, 2018)。
但是,如此常用的p值在统计学界和科学界其实褒贬不一。原因不外乎两点:1)从统计原理的角度上,p值能够反映的信息与数据所代表的实际信息存在较大差别;2)从研究者使用的角度上,p值的构造理念和解读方式本身不容易理解,具有认知上的误导性。如何正确地使用与解读p值,遂成为一个“一直在讨论、从未被解决”的问题。
与NHST的流行相伴的,是过于强调统计显著性来区分实验效应是否存在的理念。
这可能使得研究者一直纠结于自己研究的p值是否小于0.05,从而造成所谓的p值操纵(p-hacking)、发表偏见(publication bias)等一系列负面现象。但事实上,相比统计显著性或是p值是否小于0.05,对于研究本身而言,还有更为重要的指标,包括但不限于置信区间(Confidence Interval,CI)、统计效力(power)、效应量(effect size)等等。
况且,p值会因研究设计和操作的不同自然存在一定差异,这就意味着在不同的实验中p值本就没有可比性。
鉴于以上种种理由,执科学发表之牛耳的自然杂志(Nature)于2018年发表了一篇800多位科学家联合署名的评论文章,反对滥用统计显著性。
在该评论文章中,揭竿而起的科学家们呼吁摈弃掉根据“统计显著” vs “统计不显著”,即所谓的“统计显著性”来得出结论的二分思维(www.nature.com/articles/d41586-019-00857-9)。如果统计推断的仪式化操作不被打破,研究者没有良好的统计思维,那么,换掉p值,“与时俱进”的新问题还是会不断出现。
另外,更早一些时候,2016年美国统计学会(American Statistical Association,ASA)其实也曾就统计检验及p值的相关问题发出过官方声明。声明明确指出了p值的含义、使用规范及其局限——p值不可表示原假设成立的概率;不应仅依靠p值得出研究结果;应完整报告p值及其实验条件、不应选择性报告p值;p值不可表示研究效应的大小或重要性;p值本身不可用于评判假设或模型的好坏。
但除了这些和p值所依赖的原假设检验原理直接相关的局限外,还有一个可能更为严重的问题——原假设检验和p值本身作为一种统计工具“仅有局限、并无过错”,但使用者的滥用和误用,使得原假设检验和p值成为了被批判的靶子。这就涉及前面提及的p值的第二个问题:在认知层面,p值本身就容易遭到误解。
无论是Nature上800名科学家倡导的废弃统计显著性,还是ASA呼吁的规范使用p值,亦或是其他关于p值的热烈讨论(例如:Benjamin等在2017提出的将统计显著的p值阈限下调至.005;以Basic and Applied Social Psychology等期刊为代表所主张的“罢黜”所有依靠p值的研究),其核心议题均是如何正确理解及正确使用p值或CI(置信区间)。
到底如何正确理解p值?
2014年2月,ASA论坛上曾出现过一位美国统计学教授的疑问:“为什么大学和研究院在教p < .05的规则——因为科学界和杂志都在用。” “那为什么科学界和杂志都在用p < .05的规则——大学和研究院在教。”短短的两句话,道出目前科学界p值使用和教育过程的死循环。
一方面,杂志编辑和科学界对p值的推崇使得基于p < .05得出一个“显著”结论成了几乎每一位学生和科研人员的必修课;另一方面,经受了该必修课洗礼的学生理所应该地在论文中一次又一次地使用p < .05,使得科学界和杂志编辑进一步加深了对p值的依赖。但是,这样的封闭循环显然并不利于统计推断理念的更新——接二连三的研究已经充分表明一个事实:想要正确理解p值并非易事。
早在1986年,Oakes (1986) 针对心理系学生的调查就表明,仅有3%的受访者对p值做出了正确解读。2002年,Haller和Krauss的调查表明,教授方法学的教师对p值的误解率也高达80%,心理系学生更是全军覆没,无一能够准确解读p值。
近十年,又有研究者对心理学研究者进行了关于p值解读的调查(Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos, & Longobardi, 2016; Badenes-Ribera, Frías-Navarro, Monterde-i-Bort, & Pascual-Soler, 2015; Lyu, Peng, & Hu, 2018; 胡传鹏等, 2016),但结果均表明:大部分研究者无法正确解读p值。
大家学习到的似乎只有如何获取p值的“套路”,而并非蕴含在p值背后的深层逻辑和统计学意义。
值得一提的是,一度被认为是p值滥用之解药——基于估计的统计指标置信区间CI,也没有逃过被套路的命运。2014年,Psychonomic Bulletin & Review刊文报告了562名心理学研究者和学生对CI的理解情况,结果表明,仅有11名受访者正确解读了CI。
近年来,又有多项研究针对CI的解读进行调查(Greenland et al., 2016; Lyu et al., 2018; Morey, Hoekstra, Rouder, & Wagenmakers, 2016),结果也一致表明:大部分研究者无法正确解读CI。
对此,德国马克斯-普朗克研究所的吉仁泽(Gerd Gigerenzer)教授将这样的统计操作称为“无脑的统计”(Mindless Statistics)——许多研究者只是学到了统计推断的“套路”,即:建立零假设、依据p值接受/拒绝假设、如此循环往复,而没有真正理解统计推断的思维。
现在我们还做“无脑的统计”吗?距离1986年Oakes发出的第一份p值问卷已经过去了三十余年,研究者及学生们对p值和CI的解读情况是否有所好转?特别地,向来以基础数学训练功底和统计计算功力为傲的中国研究者,能够濯清涟而不妖地独善其身吗?答案似乎是否定的。
从2017年9月到2018年11月,我们利用Oakes等人的针对p值和CI的问卷再一次重复了该研究。
不同的是,这次调查中,我们联系了“知识分子”“科学人”“统计之都”“定量群学”“我爱脑科学网”等多家科学类公众号,将调查的学科规模扩展到了社会科学、医学、理学、工学、农学、经济学,以及数学/统计学等背景的1479名受访者,而不是仅限于心理学受访者。所有受访者均系统学习了假设检验的相关课程(如概率论与数理统计、心理与教育统计学、管理统计学等)。
我们使用的问卷中设置了一个采用独立样本t检验比较两组均值差异的研究场景,统计结果为p = .008,受访者根据这一p值对“你已证实原假设是错的”“你发现了原假设为真的概率”等四句陈述进行正误判断;类似地,CI部分,我们给出了两组均值差的95%CI为[0.1, 0.4],并让受访者对“真实均值差/总体均差有95%的概率落在0.1和0.4之间”等四句陈述进行正误判断。
本次调查的结果仍与前人的研究保持高度一致:平均而言,有89%的受访者错误解读了p值,有93%的受访者错误解读了CI;所有学科背景的受访者,包括数学/统计学背景的大部分研究者、学生均无法完全正确解读p值和CI。更尴尬的是,受访者对自己的回答似乎还挺“有信心”。当自评自己回答的信心程度时,受访者对各道题的平均信心程度均超3.8分(五级李克特量表,分数越大越自信)。
另外,我们发现最高学位获得地为海外或港澳台的研究者或学生,对p值的误解似乎要(统计上显著地)少于最高学位获得地是中国内地的研究者或学生(p值:84% vs 90%;CI:89% vs 93%),尽量两者同样拥有相当高的误解率。
如吉仁泽所言,很大一部分的统计推断工作遵循了这样的仪式化套路:步骤1:建立零假设;步骤2:报告p值,接受、拒绝假设;步骤3:一遍又一遍地重复步骤1和2。
这种套路容易使人们陷于不求甚解而又过于自信的危机中:只知道小于0.05的p值是好的,只知道远离0的CI是好的,而不明白p值和CI到底意味着什么。要打破这样的现状,最好的做法就是学习一套系统完整的统计方法(a set of statistical toolbox),而不是继续延续以往仪式化的统计推断套路传授。
另外,对于海外学位获得者的误解率较少,可能的解释是海外媒体对于这个话题的讨论相较国内更为“火热”,从而达到了部分“脱敏”的效果,这可能也从一个侧面反映出我们这类调查的作用所在。这里要严正申明:“揭发”学界存在的问题,目的是为了让大家充分地了解当前科研者的统计推断之现状,以期研究工作者能够注意到当前的问题,更加重视正确地使用p值,而非将其当作一种把数据“升华”为“科学发现”的仪式。
我们的研究属于最近正在慢慢兴起的“元研究(meta-science, or science of science)”的范围,对研究行为进行研究,以其更合理地进行科学探索。
类似的,也有研究者去调查了北美心理学教科书中关于“统计显著性”的解释,在30本教科书里,发现有25本对这个概念的解释是包含了某些错误的(Cassidy, Dimova, Giguère, Spence, & Stanley, 2019)。
我们衷心地期待,在不久的将来,科学界的统计推断指标不断地走向多元化。
但如果这种统计推断的仪式化操作不被打破,研究者没有良好的统计思维,就无法保证在将来是否会出现诸如现在已经开始流行基于贝叶斯因子(Bayesian Factor,BF)的“贝叶斯因子操纵(BF-hacking)”、基于BF > 3.0的发表偏见等其他“与时俱进”的新问题出现。
我们的研究仅是针对p值和CI进行了调查,也有研究者已经发现,其他常用的统计指标如克隆巴赫alpha系数的理解也不容乐观(Hoekstra, Vugteveen, Warrens, & Kruyen, 2019)。那么对于其他尚未进行过调查的统计指标,如效应量、贝叶斯因子,研究者是否也存在很深的误解?这一点目前仍无从得知。
事实上,在本次研究中,研究者对BF的误解已经初露端倪。
例如,有部分研究者声称了解频率学派和贝叶斯学派的区别,但却无法正确回答p值是哪一个学派的统计指标。总之,公开本次调查的结果,目的是让大家真正重视如何正确解读p值和CI这个问题。对于不少方法学研究者而言,对于p值与CI的理解似乎是常识。遗憾的是,现实中有很多本应当是常识的声音,却需要不断的重复才能成为常识。这可能是一个真正需要重视的大众心理学问题,也是值得科学共同体的反思的问题。