心理学期刊充斥着大量追求新奇的研究,而且这些实验的结果难以重现,这不仅导致某些研究得不到证实,还可能引起一些学术不端行为。对于许多心理学家而言,有明确迹象表明,他们的研究领域遇到了麻烦。讽刺的是,最明显的迹象来自一项有关预感的研究。美国康奈尔大学的社会心理学家达里尔·贝姆向学生自愿者展示了48个单词,然后出其不意地要求他们尽可能多地写下所记得的单词。
随后又进行一项练习:贝姆给学生随机提供部分测试过的单词,并让他们抄写。贝姆在《人格与社会心理学杂志》上发表了他的这一发现,以及另外8个支持心理效应的实验。毫无疑问,不少科学家怀疑他的观点。3个研究小组分别试图重现贝姆所报道的实验结果,都没有成功,这导致他们在发表研究结果时,遭遇重重障碍。这一事件给心理学研究敲响了警钟。
心理学中的阳性结果有时会像谣言一样,容易传播而难以消除。
它们占据着大部分追求新奇研究的期刊。同时,那些试图重现这些研究结果的工作,尤其是当重复实验得到阴性结果时,却难以发表,只会搁置在个人文件柜里,或者变成茶余饭后的谈资。这些问题在整个学术界普遍存在,但心理学领域一些根深蒂固的文化规范使这些问题更加严重。例如,调整实验设计以保证得到阳性结果已成为普遍做法。
一旦阳性结果得到发表,几乎没有研究人员去做重复实验,取而代之的是“概念性重复”,也就是用不同的方法检验类似的假说。批评人士称,这一做法相当于在摇摇欲坠的地基上用纸牌建房子。
一些著名的欺诈案例使这些问题成为了人们关注的焦点,始作俑者原以为不会被察觉,因为重复实验的难度很大。目前心理学家正试图解决这些问题。人们已经开始评估问题的规模,并给重复实验提供发表的机会。
普遍的偏见面临这些问题的并非只有心理学。在一篇著名的论文中,目前供职于斯坦福大学医学院的流行病学家约翰·约阿尼迪斯认为,据统计推断,“许多已发表的研究结果是错误的”。英国爱丁堡大学的社会学家丹尼尔·法内利对科学界各领域4600项研究进行了调查,结果发现,1990年至2007年之间阳性结果的比例增长了22%以上。
英国卡迪夫大学的实验心理学家克里斯·钱伯斯说,心理学阳性结果泛滥,其中一个原因是强调“有噱头的”结果,“高影响因子的期刊往往把心理学研究当做吸引眼球的把戏”。结论必须精彩、抢眼甚至令人难以置信。西蒙斯声称,部分责任在于审阅过程。“我们审阅文章时,总是让作者证明他们的发现是新奇或者有趣的,”他说,“我们通常不要求他们证明自己的发现是真实的。”西蒙斯应该是了解这一点的。
他最近在《心理科学》上发表了一篇文章,半开玩笑地“宣布”,披头士的《当我六十四岁》这首歌可以使听众的年龄减小一岁半。西蒙斯设计这项实验是为了说明,利用有统计学意义的结果来支持假设是何等容易。
美国哈佛商学院的消费者心理学家莱斯利·约翰对2000多名心理学家进行了一项调查,结果发现,超过50%的人都会首先检验结果的统计学意义,然后再决定是否收集更多数据,直到获得阳性结果就停手。
超过40%的人选择性发表阳性结果。一般说来,大多数接受调查的心理学家都认为这些做法情有可原。“很多人继续这么做,因为他们在接受科研训练时,老师就是这么教的,”美国伊利诺伊大学厄巴纳-香槟分校的心理学家布伦特·罗伯茨说。于是,提供证据的重担就压在了进行重复实验的人肩上,但他们面临着很大的困难。
比利时布鲁塞尔自由大学的认知心理学家斯特凡·多扬和同事未能重复出美国耶鲁大学约翰·巴奇的经典实验时,也遇到类似的问题。巴奇曾通过实验指出,人们无意中想到与年龄有关的单词时,行走速度会变慢。而多扬的论文遭到多次拒绝后,最终也发表在《公共科学图书馆·综合》上。巴奇怒气冲冲地在博客上发文回应,认为多扬的研究小组是“一群外行的研究人员”。后来,有人发表博客描述了这次交锋,巴奇又与博文作者进行了一番争论。
巴奇说,他之所以反应如此强烈,部分原因是他发现人们对“潜意识思维过程非常重要”这一观点越来越怀疑,他感到这一研究领域受到了损害。
诚然,一次重复实验的失败并不能否定原来的结果。许多平淡无奇的原因都可能导致重复实验失败。如果原来的实验结果不是很明显,重复实验时就可能偶然出现阴性结果;参与重复实验的自愿者也可能与原来实验中的不同;另外,一个研究小组可能根本没能力重现另一个研究小组的实验。
“做实验与导演戏剧有共通之处,”美国普林斯顿大学的心理学家、诺贝尔奖得主丹尼尔·卡尼曼说。诸如实验的日期、房间的颜色等细枝末节,都可能会影响结果,而实验方法中从来不会描述这些细节。例如,巴奇就辩称,多扬的研究小组给自愿者展示了太多与年龄有关的单词,这可能引起他们对实验隐藏意图的注意。
重视阳性结果对各学科的文献分析表明,学术期刊都倾向于发表“阳性”研究结果——即“支持”待验证假说的结果。
而精神病学和心理学痼疾最深。1996年,当巴奇发表了那篇关于潜意识诱导效应的论文之后,几十个实验室如法炮制,开始了各自的诱导性实验。例如一项实验显示,比起拿轻写字板的自愿者,拿重写字板的自愿者参加面试时更认真,面对社会问题时更有紧迫感。而另一项实验则发现,在与清洁有关的单词的影响下,受试者对肮脏行为更宽容。这种概念性重复对于经常涉及抽象概念的心理学是有用的。
“人们通常认为,与完全不变的重复相比,‘概念性重复’能更好地证明某些效应的普遍性,”美国印第安纳大学布卢明顿分校的心理学家、《人格与社会心理学杂志》的编辑艾略特·史密斯说。
但另一些心理学家认为,依赖概念性重复是有问题的。“你不可能完全复制某个概念,” 钱伯斯说,“这太主观了。谁也不确定一项研究需要多么‘类似’,才能算作概念性重复。”他表示,这种做法还产生了“逻辑上的双重标准”。
例如,如果一块重写字板无意中影响了人们的判断,人们就会将它视为“与年龄有关的单词使行走变慢”的概念性重复;但如果写字板的重量并未影响人们的判断,没有人会指出原来的诱导效应在概念性重复中被证伪。由于只能被证明而不能被证伪,概念性重复往往是一系列弱结果彼此论证。
“这是验证性偏差在科学中的体现,” 美国弗吉尼亚大学的社会心理学家布赖恩·诺塞克说,“如果不进行概念性重复,心理学的发展将受到限制,但它并不能取代直接重复实验。为了证明‘A’是真实的,你需要再做一次‘A’,而不是去做‘B’。”
学术欺诈与不端概念性重复的做法,会导致学术不端行为难以发现。2011年11月,荷兰蒂尔堡大学的社会心理学新秀迪德瑞克·斯达伯接受调查,最终供认了大量学术欺诈行为。
斯达伯发表了一系列令人振奋、引人注目的研究成果,例如混乱的火车站等无序环境会助长歧视。重复这些实验有许多困难,这使得斯达伯的学术欺诈行为很难被发现。负责调查这一案件的科学委员会写道:“尽管这些过于漂亮的结果本应引发人们的怀疑,但实际上却被奉为圭臬……即便人们亲自进行过重复实验,他们也会相信,自己的失败是因为缺少斯达伯先生的技能。”现在,人们已经清楚,斯达伯至少在30篇论文中窜改和捏造了数据。
斯达伯的故事,与美国哈佛大学的心理学家卡伦·鲁杰罗和马克·豪塞尔的情况如出一辙,这两位分别在歧视和道德方面发表了备受瞩目的文章。鲁杰罗的学术欺诈行为于2001年被人们发现,而豪塞尔在2010年被发现存在学术不端行为。与斯达伯一样,他们都是被内部举报人揭露。“如果这个领域真的能自我纠正,那为什么他们两人的学术欺诈或不端一直未能被纠正呢?”诺塞克说。
在这些争议的驱动下,许多心理学家都在想方设法,鼓励研究人员做重复实验。“我认为心理学应该带头应对这一挑战,”美国加利福尼亚大学圣巴巴拉分校的认知心理学家乔纳森·斯库勒说。2012年1月,加利福尼亚大学圣迭戈分校的心理学家哈尔·帕施勒和同事一起创办了一个名为“心理学文件抽屉”的网站,心理学家可以在该网站提交未发表的重复实验,无论是否得到阳性结果。
美国加利福尼亚大学洛杉矶分校的社会心理学家马修·利伯曼提出了不同的方法。他说,“美国一流大学的心理学课程可以列出一份心理学研究结果的名单,要求研究生在自己的领域内选择一项,进行重复实验”。这样,学生将锻炼自己的技能,并早早发表有价值的文章,而心理学界则可以确认那些令人惊讶的效应是否站得住脚。
瓦根马克斯还认为,重复实验的发表规则应与其他研究有所不同——它们应该像医学上的临床实验一样预先登记,以避免西蒙斯所描述的情况:根据预设结果反过来扭曲实验数据,以及根据实验结果来决定是否发表。在重复实验初期就与原文章的作者联系,甚至一起合作,可以从一开始就确保实验方法的完善。
这些改变可能还只是部分科学家的一厢情愿。
另一些科学家尚在质疑问题究竟是否存在,甚至诺塞克也指出,对于假阳性结果的普遍性,还没有切实可靠的评估。为了弥补这一点,去年年底,他召集了一组心理学家,尝试重现3个最重要的心理学期刊在2008年发表的每一项研究结果。该小组将尽可能使用与原始实验相同的方法,并尽量与原作者一起工作。诺塞克称,这项研究的目的不是揪出个别有问题的工作,而是为了“获得一些初步证据,以确定重复实验到底有多大的必要”。
有些研究人员认为,诺塞克等人不可能得出什么结论,但帕施勒相信自己的担忧会得到证实:许多心理学研究结果都不可重现,而未能重复出原始结果的研究都搁置在研究人员的“文件柜”中,这些都是事实。帕施勒说:“到那时,真相将无可辩驳。”