全球诚信排名,中国倒数第一?我们花了四年时间,推翻了这篇Science论文。
希望不同文化下的人能够彼此理解、尊重、信任,让这个世界少一些极端化的思想,多一些科学和理性。
各位朋友大家好,我是杨芊,来自浙江大学公共卫生学院,今天想跟大家分享一个关于中国公民诚实度争议的科研故事。
这个故事的由来,要从2019年发表在国际顶级学术期刊《科学》上的一篇文章说起。它的标题非常直白,就叫做《全球公民诚实度》。来自欧美的学者在全球40个国家开展了现场研究,将一些公共场所作为实验点,包括酒店、银行、邮局、警察局和一些文化场馆。然后请一位德国助研到这些场馆的前台交一个钱包,并用英文告诉前台的服务员:“你好,我在你们门口的转角处捡到了这个,请你处理一下,我有急事先走了。”
我们来看一下这个所谓的“钱包”,它其实就是一个透明的夹子,里面有一张名片。名片上除了这个人的姓名和职位信息之外,就只有一个联系方式,是电子邮件地址。此外它还有一个便笺、一把钥匙,有的里面还放了一些钱。这篇文章的作者用“前台给这个电子邮箱发邮件的比例”,作为衡量全球公民诚实度的唯一标准。这是论文里一张主要的图,它对这40个国家进行了一个诚实度的排名。大家找到中国在哪了吗?没错,它被排在倒数第一。
文章发表以后,有超过10个国家的新闻媒体对这篇文章进行了报道,在国内同样也引起了巨大的争议。作为社会和文化科学领域的一名研究者,我觉得这个结果跟我的专业直接是相悖的。首先,中华民族向来以诚信为美德;其次,我国已经全面脱贫了,大家觉得会有那么多人为了钱包里的几十元钱就罔顾做人的原则吗?这不仅仅是我个人的观点,也是很多科研人员共同的质疑。
很快,浙江大学的周欣悦教授和清华大学的孙亚程教授在《科学》杂志原文的评论区发表了一个辩驳,他们指出这个实验是有硬伤的。但是,《科学》的编辑却认为他们没有进行针对性的复制实验,所以没有给予实质性的回应。后来因为评论过多,甚至关闭了这篇文章的评论区。
因此我们聚焦到了针对性的复制实验上。我有幸是中国卫生政策与管理学会(CHPAMS)的会员,我们有一个“行为经济学”的微信群,群主是美国欧道明大学社区与环境健康学系的教授张琪,他和学会的几位资深创始人一起号召开展这样有针对性的复制性研究。我作为最先的响应者之一,邀请了周欣悦老师一起加入。然后用滚雪球的方式,组建了一个足以支撑全国多中心现场研究的社科领域跨学科合作团队。
我们认为,要还原事情的真相,纠正外界对中国诚实度的误解,就必须要拿出完整严谨的证据,这是我们作为学者义不容辞的责任。别看这只是一个复制研究,其实开展起来困难重重。
首先,我们合作者里大部分都是公共卫生领域的研究者,做社会心理学的实验属于跨界;其次,我们团队也没有人在《科学》主刊上发过文章——别看原文的正文只有短短的5页,它的补充性材料却长达93页,要对这个实验进行完整严谨的复制,就必须要详细了解和精准把握每一个实验细节;而且为了尽快地启动实验,我们也来不及申请专项的经费,都靠各中心队长们已有的各项经费支撑。
此外还有一个我个人比较关注的问题:近年来心理学的很多经典实验都被质疑不可重复,那采用社会科学的方法到底能不能得出一个可信的结论呢?这也是我想追寻的答案。可靠的实验需要极致的复制。大家看这个钱包,我们不但要复制钱包的材料、外形和颜色,也包括它的重量和尺寸。再看名片上的这个名字,大家更容易联想到是一位男性还是一位女性?男性对吧?所以里面这个便笺也是请男生手写的。
另外,我们从淘宝上订来的夹子是崭新的,在用之前还要丢地上,用脚蹂躏两下,还原它的逼真度。里面的钱数也根据通货膨胀率从49块调整到了52块。在原实验里,实验者把钱包交出去以后,就回家苦苦等待邮件的回复。但是,两件事之间到底发生了什么?社会心理学实验最耐人寻味的就是刺激到反应之间的黑箱,而原文对这个黑箱的放弃就是它最大的漏洞。所以,我们一定要想办法了解钱包处理的过程和它的下落。
这就需要我们在原实验的基础上,设计新的实验环节。我们认为,诚实是一个多面体,不同文化下的人对诚实的定义是不一样的,如果仅仅只采用单一的测量方法,得出的结果肯定是有偏的。原文的助研是一位外国人,所以我们也聘请了外国的助研,并给他配备了一支有降噪功能的录音笔,放在他衣服的口袋里进行隐蔽录音。但这样并不能显示画面,也没有办法跟踪交接完毕以后钱包的处理过程。
所以我们团队中有老师认为,必须再增加两个中国助研,一个负责对钱包处理过程进行隐蔽性跟踪摄像,另外一个负责测量和记录环境变量。但是,另外有合作者认为,他人在场会促进社会赞许性的行为,人为增加旁观者的数量就会引起旁观者效应,这是对真实世界研究的一个巨大干扰。那几天,微信群里各个老师都旁征博引,感觉关系都快决裂了。
最后我们通过讨论,达成共识,就是在原文有钱没钱的条件之外,再随机抽取一半的点,中国助研提前15分钟进入,持续拍摄到钱包被处理到一个静止的状态。而另一半的点不跟拍,中国助研完成所有的环境变量测量与记录后退出,外国助研再进入。采用这样的设计,不仅通过对比检验旁观者效应是否存在,又能保留一半对钱包下落的观察。像这样对实验细节的争论还不止一次,常常让人觉得友谊的小船岌岌可危。
但真理越辩越明,跨学科的讨论不仅让我们的实验设计更加合理,也让我们通过精诚合作达成四年的坚持不懈。
实验的大致流程确定以后,我所在的杭州被选为整个实验的预实验点。我们不仅测量了原文所有的环境变量,还增加了很多我们认为可能也会影响诚实行为的环境变量,包括温度、湿度、墙上贴的标语、门口的通行状况、人流的拥挤程度等等。
经过几轮短短的预实验,我们发现一个事实:外国助研的注意力主要集中在跟前台沟通上,所以他们对于一些简单而重要的事实记录都是有偏的,比如最重要的也最简单的,周围到底有几个人,都记得不是很准确。这也进一步佐证了设计新的实验环节的重要意义。
实验的另外一个重要创新是在一周以后,由中国助研扮演钱包的失主或者失主的朋友,会回到当初报失的场所认领钱包。当前台工作人员给回钱包或者是问他要名片上身份信息的时候,我们就进行实验的揭秘,并对他们进行访谈。这也是为了满足欺骗性社会实验的伦理要求,因为我们需要向被蒙蔽的参与者解释清楚整个实验,让他们知情,并取得他们的谅解和事后的同意。
我们会问,整个处理过程当中都有哪些人、你们没有关于失物处理的规定、最后有没有发邮件、谁发的、可不可以给这封邮件拍一张照片,以及你认为中国人的诚信观是什么样的。在全国10个城市部署实验,值得一提的是,开展这种欺骗性的社会实验,实验者要面临巨大的压力,因为他们不仅要面对被蒙蔽的工作人员的愤怒和质问,还要严谨地完成实验的解释和访谈工作。
比如我的一位研究生在预实验过程中,因为压力过大,没能正确说出名片上的名字,前台觉得她是骗子,就拒绝给她钱包。还有另一位外国助研是个俄罗斯的小姑娘,她在入境的时候被盘问得特别详细,因此在微信上向我倾诉:“老师,我怕警察叔叔。”面对这样的情况,我只能不断地为我的助研们打气,给他们支持和鼓励,帮助他们完成从自我怀疑、彷徨到脱胎换骨的过程。
为了更好地保护学生,我们还进行了大量准备工作,比如叮嘱他们一定要带学生证,开出各个学校的介绍信,帮他们复制了伦理批件以供携带,甚至为他们画出了进入和退出这些场馆的路线图。逐一解决了预实验当中的问题之后,我们就得以在全国其他城市启动了正式研究。
在此,我要致敬所有的合作者们:北部片区的队长是首都医科大学的韩优莉和南开大学的吕小康老师,东部片区是我、周欣悦和复旦大学的吕军老师,南部片区是深圳大学的蒋东红、华南师范大学的曲琛和广州中医药大学的龚文进老师,西部片区是北京师范大学的刘世勇和他的博士生西南财经大学的张薇薇,以及陕西师范大学的聂景春老师。
最后还有两个新加入的城市,分别是南京和哈尔滨,队长是南京医科大学的刘汝刚和哈尔滨医科大学的焦明丽老师。其中焦老师是主动请缨加入的,她说东北是中国这么重要的地区,原文竟然一个现场实验点都没有,也太失误了!
2019年底,全国500个实验点全部完成。我们必须在最短的时间内完成实验,因为这样的研究一旦引起了媒体的兴趣、引爆了舆论,那数据就不再可靠,我们只能终止项目。
经过大家的艰苦努力,实验花了整整半年的时间得以完成。杭州开始预实验的时候还是盛夏,同学们都顶着40度的高温在外面跑,而在哈尔滨最后结束的现场已经飘起了鹅毛大雪。全国500多个点在2019年底之前都完成了实验是特别幸运的,大家都知道,接下来的几年里开展这种依赖现场的实验变得异常困难。
然后就是繁重漫长的数据处理工作。由于数据量庞大、数据类型多样,只能通过自我检查、交叉检查和最终核对,来确保数据的可靠性和真实性。张薇薇博士所负责的这项工作占据了她博士生涯的大量岁月,她也是论文署名作者里唯一的学生。
在2021年的时候,我们在各自的城市,看到了这个“中国队长”微信群里发出来的结果。我如释重负:终于有交代了!可以开始撰写论文初稿了。
先看图中左边橙色的柱子,这是原文采用的指标,“主动通过邮件联系的回复率”。在它的数据里,在夹子里有钱的条件下,中国的邮件主动回复率是21.5%,没钱的条件是7%。我们复制实验的结果虽然比原文略高,但是两者之间并没有显著差异。这一点非常重要,说明我们对实验的复制是成功的。此外,敏感性分析也证明了中研在不在场并没有显著区别。
但再来看额外增加的条件,“一周后钱包的被动找回率”,右边的绿色柱子,这个结果迅速飙升到了78.6%和77%。也就是说总共500个钱包,有超过3/4都能够被成功找回。所以,中国人其实是非常诚实的一个民族!
主动联系是度量诚实的唯一标准吗?那为什么两种不同的测量方式之间有这么大的差异呢?在找钱包的时候,我们还调查了所有500个点的回访对象对于诚实标准的看法。
前台工作人员大部分都认可,如果你把钱包据为己有,那肯定是不诚实的;但是没有主动联系失主,却并不能算不诚实。这个结果也在后面的全国代表性抽样的调查当中得到了完美的复现:中国人更加认可“妥善保管”是测量诚实的适宜方法,却不是很认同把“主动联系”作为测量诚实度的唯一标准。
那为什么中国人的诚实观更认可妥善保管呢?什么理论能解释它?其实文化心理学的经典理论就可以。
一个广为人知的文化差异,就是集体主义与个人主义的差异。我们采用原文30多个国家主动联系比率的数据,跟它们的集体主义文化进行相关分析,发现主动联系与集体主义指数呈负相关!也就是说,如果一个国家的集体主义文化得分越高,那么就越不愿意采用邮件回复对方。这是因为,在中国这样集体主义典型文化占优的国家当中,我们崇尚行为的约束、克制与服从,这比个人主义的彰显、主动和独立更加受认可。
而妥善保管钱包正是成熟自制的表现,因此比“主动发邮件”更能代表诚实行为。
因此,我们不仅提供了中国人诚实度的证据,而且也揭示了原文的理论疏忽。社会科学对我们的生活影响深远。2022年6月,我们的文章投向了《科学》杂志。10天以后,刘世勇老师的邮箱里躺了一封编辑的回复,她表示,由于我们只有一个国家的现场数据,所以不能把我们的研究发表在《科学》主刊上,但她也承诺,不论这篇文章之后发在哪,只要《科学》杂志都会报道。这让我们对接下来的投稿之路充满希望。
2023年7月,我们这支由国内外15所高校组成的跨学科科研团队,终于在《美国科学院院刊》(PNAS)上发表了这篇扩展性复制实验。《科学》副主编Ekeoma Uzogara的评论《科学》杂志主编也很诚信,2023年8月10日,她在《科学》的In Other Journals(他刊)栏目对我们的文章进行了报道。
她不仅认可我们的研究范式,而且承认仅仅依赖“电子邮件回复率”会导致对不同文化背景下公民诚实度的评估偏差。
这场历时4年的科研故事到这里就告一段落了,我要再次致敬所有的合作者们。其实在旅程当中,我们每个人都收获良多。比如最早给《科学》杂志写评论的孙亚程老师就说:原文让他感到被冒犯,所以他写的评论带了情绪。但是情绪并不能迎来尊重与对话,基于事实的证据远胜过于情绪性的对抗。
这些是我们可爱的同学们,他们是这场实验的“幕后英雄”。我们在每一个城市都有50个实验点,有些点之间相隔数十公里,所以他们几乎从早到晚都在奔波和记录。在论文长长的致谢名单里,我们写上了每一位助研的名字和每一位对这篇文章有贡献的人。
在此,我也想呼吁大家一起开展跨学科的合作,期待有更多真正交叉性、有组织的科研。
如果你来自社会科学领域,期待你能够进行更多有创新性、有建设性的研究,为真正重要的社科问题发声;如果你来自自然科学领域,我也希望你能摒弃对人文社科的偏见,大家携手共建属于中国的学术话语体系。社会科学对我们的生活影响深刻。今天站在科学院的演讲台上,我真心想推荐几位我所熟知的,出身于心理学领域,并一直在为科学的开放、共享不断努力的青年学者。
他们是,清华大学的王飞,著名ID“沉默的马大爷”;北京大学的张昕,“叨叨昕”;武汉大学的喻丰,“道德小美狗”的主人;南京师范大学的胡传鹏,中国开放科学社区发起人;系统式家庭咨询师李松蔚。
最后,我想用我非常喜欢的一个角色——李莲花的话结尾:有的人弃剑如遗,有的人终身不负,人的信念终是有所不同的。希望不同文化下的人能够彼此理解、尊重、信任,能够让这个世界少一些极端化的思想、多一些科学和理性行为。谢谢大家!