渣男受女生欢迎?当心统计陷阱

作者: 张忠元

来源: 我是科学家iScientist

发布日期: 2023-01-13 12:01:05

本文由中央财经大学统计与数学学院教授张忠元演讲,讨论了统计学在日常生活中的应用及其易被误用的情况。文章通过多个实例,如药物测试、教育决策、性别歧视等,阐述了“相关不等于因果”的统计学原则,并强调了统计学在社会治理中应慎用,避免滥用。

渣男受女生欢迎?当心统计陷阱

张忠元

果壳

2023-01-13 12:01:05

转自公众号:我是科学家iScientist

编者按:

科学的⼒量很强⼤,然⽽科学的道理并不遥远,它就蕴含在市井之间。听中央财经⼤学统计与数学学院教授张忠元来聊聊⽣活中常⻅的统计陷阱。

张忠元演讲视频:

以下为张忠元演讲实录:

说起“统计学”,你可能会想到CPI或GDP这些数字。

这是政府统计的内容,属于统计学的⼀个重要分⽀。其实,统计学对我们⽇常⽣活的影响远⽐这些数字更深⼊和⼴泛。⽐如我们⼤家吃的药物,看起来是制药业的⼯作,其实统计学在其中贡献很⼤。如果没有统计⽅法,我们就没办法知道这个药它是不是⼀种安慰剂。什么是安慰剂?⼀个淀粉⽚,医⽣说是⽌痛的,结果吃了淀粉⽚的病⼈会有1/4报告说不疼了或症状减轻了,其实他吃的只是淀粉⽚——安慰剂效应的威⼒可⻅⼀斑。

如果我们不⽤统计⽅法把安慰剂效应去掉,市场上卖的药就不⼀定真的是可以治病的。

其实,你在⽇常⽣活中做的重⼤决策,很多也是观察了身边很多事情、咨询了身边很多⼈⽽做出的。这种“收集资料——去伪存真——最终得出结论”的过程就可以叫做“统计”。演讲嘉宾张忠元:《渣男受⼥⽣欢迎?当⼼统计陷阱》

统计⽅法和我们⽇常⽣活的联系⾮常紧密,但它不是靠直觉就能⽤好的。统计学很容易被误⽤和滥⽤。⽐如,我们经常会把⽇常⽣活中相互关联的两件事情看作是有因果关系的,但其实,事实往往不是这样,这个错误在统计学上叫“相关不等于因果”。简单来说,看到公鸡打鸣,然后太阳升起来了,但我们不能说太阳是被公鸡叫起来的。

再⽐如说,⼤数据分析表明:冰激凌销量⾼的时候,泳池溺⽔事故的发⽣量也会增加,所以“泳池溺⽔的事故的发⽣量”和“冰激凌的销量”这两件事是相关的——它们有共同的原因,就是季节——但它们显然没有因果关系。这是⽐较简单的情况。

当我们遇到更复杂局⾯的时候,就往往容易犯错误。⽐如说,看到⼩孩⼦天天玩游戏,然后他的考试成绩⼜⽐较差,家⻓就会很⾃然地把这两件事联系起来,然后简单地把“玩游戏”当做他考试成绩差的原因——其实这两件事是不是也只是具有相关关系⽽没有因果关系呢?它们是不是有⼀些共同的原因呢?家⻓们把这件事想清楚了,就可以给孩⼦提供更好的教育。

还有更隐蔽的情况。⽐如这是我在朋友圈看到的图。说,我和⼤雄差不多都没⽤,为什么我就没有那只叮当猫呢?其实在⼤雄身上,“没有⽤”和“有叮当猫”这事是相关的,但是你不能把它们当作因果,所以,你没有⽤,也不⼀定有那只叮当猫。(我的朋友圈就是这么⽤来抬杠的,⼤家可以想⻅,我能有多少朋友……)

再⽐如这个:

她是怎么痊愈的?⼤家⾃⼰⼼⾥想。

还有更好笑的例⼦。这个发⾔⼈犯的错误就是,认为特定的影⽚类型和特定的消费⾏为是相关的——但这其实是虚假相关,就是说,“相关性”本身并不存在,它就是个巧合。为什么这么说呢?因为《芳华》是在冬天上映的。

另外,我要强调⼀句:相关固然不等于因果,但是相关⾥边也许蕴含着因果,所以往往需要科学家做更多的⼯作来研究。当然,这是后话。

“我是科学家”开设了⼀个栏⽬,叫做“我问科学家”。在电影⾥扮演了渣男的明星佟⼤为先⽣问了这么⼀个问题:为什么渣男还会被喜欢?要我说,这是个伪问题。这是没问我,问我的话,这节⽬办⼀期就结束了。(这么⽤朋友圈,可以想⻅,我真的没多少朋友了……)

为什么说它是个伪问题呢?容我慢慢道来。在我看来,要厘清这个问题,⾄少要分为三个层⾯。第⼀个层⾯,什么是“渣”?我理解的意思是“花⼼”。第⼆个层⾯,⼥⽣知道他渣吗?如果⼥⽣不知道他渣,这叫诈骗,不在我们的讨论范围之内。第三个层⾯,⼥⽣知道他渣,⽽且在同等条件之下⽐他不渣更喜欢,也就是说这个男⽣如果不渣了,不花⼼了,这个⼥⽣就没那么喜欢他了——这事⼉存在不存在?我⼼⾥是打了⼀个⼤⼤的问号的。

⼈们为什么会产⽣这种认知?在统计学上也早有研究,⾄少涉及到两个知识点,⼀个是⽣存偏差,⼀个是隐含变量。⽣存偏差的意思是,⼤家只会关注到或更多地关注到那些活下来的、成功的案例,⽽会忽略掉那些失败的、没有活下来的案例,进⽽分析那些活下来的成功的案例有什么经验、有什么特点,这其实没啥价值。

具体到这个问题,你只关注到或者看到了那些有⼈爱的渣男,⽽忽略掉了那些⼤量的没⼈爱的渣男,进⽽分析这些有⼈爱的渣男有什么特点,这事有价值吗?成功学⾛的都是这个套路,只分析那些成功的案例有什么特点,但你要是当真就废了。

⽐如这个,每年都有⼀次:⾼考状元有个特点,你家孩⼦有没有?有什么特点呢?难道是“都说中⽂”吗?我⼼⾥好⾼兴,我家孩⼦也有。第⼆个问题是隐含变量。

固然,有的渣男活下来了,有⼈爱了,但是这个“渣”的属性是给他减分的,让他有⼈爱的原因可能是他的其他属性。所以,这⾥如果忽略那些其他属性,简单地来分析“渣男有⼈爱”这事⼉就不靠谱。当然我们承认,在不同的⼥⽣眼⾥,这些属性的重要性排序不⼀样。⽐如,有⼈是颜控,看重颜值,只要有颜,其他都不重要;有⼤叔控,只要成熟,其他的都不重要;还有的看重男⽣经济状况,但我确实没听说有渣控的。

说到隐含变量,再来看下⾯这个研究。发表在美国⼀个期刊上的这么⼀个论⽂,说“清洁产品对⼥性肺部的伤害相当于每天都吸⼀包烟,⽽对男性的肺部⽆影响”。看到这,我差点没哭了,这是什么有毒的研究,为了让男⽣⼲家务都这么拼了嘛?“对⼥⽣的影响这么⼤,⽽对男⽣的肺部没有影响”这事⼉不是很诡异吗?只要是谈到“男⽣做家务”这样的研究,我都会认真对待,⼀定要写⽂章来反驳的。(毕竟书不能⽩读。

多读点书,就能在家庭当中⽴于不败之地。所以我离婚之后□□□□)

好,咱们⾔归正传。这个研究,要我看就是忽略了⼀个隐含变量:做饭。爱清洁的⼥性往往更愿意做饭,⽽做饭是伤肺的,⽽对男性⽽⾔,清洁更可能是他的⼀个职业,和他做饭不做饭没啥关系。再来看这个。如果我们考虑不同医院肿瘤科的死亡率,你会发现著名医院肿瘤科的死亡率可能⽐下级医院的更⾼。那是不是说,著名医院的医⽣的⽔平也没有很⾼?这当然不是事实。

因为这⾥也是忽略了⼀个隐含变量:肿瘤类型。到顶级医院看病的⼤部分都是难治性的肿瘤,死亡率本身就⾼。但是这个情况⽐较明显。

下⾯这个例⼦就没有那么明显了,需要⼤家⼀点思索。⼈们发现,美国伯克利⼤学在招⽣录取当中,⼥⽣的录取率明显偏低,于是质疑伯克利⼤学存在“性别歧视“的问题——这事⼉看起来没⽑病,数据就摆在这⾥,还有什么话讲?但那是你的反应。

⼈家伯克利⼤学那是⼀根头发分8瓣,细得很,不会轻易就说存在这个问题。当然,事实也的确不是这样。因为,如果分专业来看,你就会发现:在各个专业⼥⽣的录取率其实都是更⾼的。之所以会产⽣“总体录取率⼥⽣偏低”这⼀结果,是因为⼥⽣⼤部分都报考了那些本身就难以录取的学院,⽽男⽣则⼤部分报考了那些录取率本身就偏⾼的学院。这个现象就叫“⾟普森悖论”。

再来看下⾯这个例⼦。这是2组⼈,每组10个⼈。

⼤家进⾏过关游戏,过关⼈数多的那组获胜。关卡有两种,⼀种是简单模式,⼀种是困难模式。不管你选择哪种关卡,只要过关就算获胜。那么因为各种原因,第⼀组⼈更愿意选择简单模式。⼤家看⼀共10个⼈,有8个⼈选择了简单模式。第⼆组⼈更愿意选择困难模式,⼀共10个⼈,有8个⼈选择了困难模式。经过⽐赛结果如下:在简单模式下,第⼀组⼈有7个⼈过关,获胜了;第⼆组⼈全部过关。

所以在简单模式下,第⼆组⼈他的过关率是更⾼的。类似的分析,在困难模式下,第⼆组⼈他的过关率也是更⾼的。可是总体来看,第⼀组的过关率就更⾼了。这个现象就是“⾟普森悖论”,因为第⼀组⼈更多的选择简单模式了,简单模式本身过关率就更⾼。回到刚才“肿瘤医院和死亡率”的例⼦。那些著名肿瘤医院⾥的医⽣就好像那些更愿意选择困难模式的选⼿⼀样,本身就是命苦。

刚才讲了这么多统计学的误⽤,其实我们还要注意:统计学不能滥⽤。如果我们在社会治理当中滥⽤统计,后果就很严重了。⽐如,我们住在北京,如果统计来⾃各个省的⼈的犯罪率,假如,我是说假如统计得出结论,东北⼈的犯罪率更⾼,那我们能不能要求东北⼈晚上不许出⻔呢?显然不能这么做。为什么不能这样做?因为我们把⼀个基于群体的总体结论⽤在了个体身上,何况这种结论可能还有其他隐含因素。

⽽每个⼈都是很宝贵的,这种决策即便是伤害到了⼀个个体,代价也是巨⼤的、不可弥补的。我们在做决策时,都是在损失和收益之间做平衡的,⽽这种决策损失巨⼤,违背了伦理,属于统计学的滥⽤。它有⼀个专业的名词叫“统计性歧视”,这种决策不会发⽣。但是在⽇常⽣活当中,统计性歧视却常常在发⽣。那些戴着有⾊眼镜,按照性别、按照种族、按照籍贯来区别对待别⼈的⾏为,⼜岂⽌是⼀件两件?

不过,话说回来,你可以想象⼀个场景:⼀个⼥孩晚上夜归,后边有个男⽣⼀直跟着你——这个时候你该跑还得跑,不能说“张⽼师说了,我要是跑了,就是把他当坏⼈,这属于统计性歧视,我得跟他先交换个微信聊⼀聊,看他是不是坏⼈”。这样就属于僵化了,有枣没枣打三杆⼦,这不⾏。

记住:统计学你要慎⽤,不能滥⽤。

最后,作为统计学者,我要做⼀个统计:请没有来的朋友举⼿。没⼈举⼿,看来全北京的科普爱好者都来了,我这是要⽕。感谢各位的耐⼼。

演讲嘉宾张忠元:《渣男受⼥⽣欢迎?当⼼统计陷阱》

作者:张忠元

编辑:⻨芽杨

本⽂版权属于“我是科学家”,未经授权不得转载。如需转载请联系iscientist@guokr.com

阅读原文

UUID: a184f6cf-4b7c-4077-a380-6841e5fb36de

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2023/果壳_2023-01-13「转」_渣男受女生欢迎?当心统计陷阱.txt

是否为广告: 否

处理费用: 0.0114 元