从一个与统计有关的笑话说起:地理系毕业生的起薪最高

作者: 蒋迅

来源: 科学网蒋迅博客

发布日期: 2015-10-15 11:18:06

文章通过一个关于统计的笑话,讨论了统计数据分析的误区,强调了数据可视化和科学取样在社会调查中的重要性,并引用了篮球运动员乔丹的成功与失败的故事作为例子。

从一个与统计有关的笑话说起:据说,美国北卡大学地理系做了一次统计,看其毕业生的收入如何。他们发现地理系毕业生的平均起薪比同校其它系和其它学校地理系的毕业生的起薪都高。於是得出结论:要想起薪高,就得上北卡大学,上地理系。其实事实是:迈克尔·乔丹正好上的是北卡大学的地理系。他的“专业”是文化地理学,属人文地理的一个分支。所以,这个统计数据由於原始数据不准确而得出了错误的结论。

我们都知道,一般在处理统计数据时,会把最高值和最低值去掉。体操比赛中去掉一个最高分,去掉一个最低分就是这个道理。

这里我们不妨引伸一点。比如说,强国论坛做一次社会调查,看看中国人民是不是觉得自己幸福。它得到的结论能够代表全中国人民吗?不太可能,因为许多社会群落的人不会到那里去投票。同样的道理,有人搞了一个下辈子是否还愿意做中国人的调查,其结果也不可靠。

我不是说他们不可以做类似的调查,也不是说他们的结果不说明任何意义,但是怀疑他们的结果是不是一个科学的结果。社会调查是一门学问。取样有学问,设计题目也有学问。按照预想的结果来设计除了宣传外没有别的意义。

现在一个很时髦的单词是“大数据”,大数据确实给我们带来很多好处。但是,随之而来的是滥用大数据。数据太多,总可以找到一些巧合,有些人就用这些巧合大做文章。一篇讽刺这种滥用的文章说,全球温度增加与海盗数递减相关系数达99%。要阻止全球变暖,最有效的办法是大家都去当海盗。

还有一个统计笑话,说一位统计学家过河时淹死了。这条河的平均深度是3英尺。下面4张图,有相同的均值,相同的中值,和相同的方差。

结论:一定要可视化。这四张图叫作“安斯库姆四重奏”,是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个 (x, y) 点。这四组数据由统计学家安斯库姆于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。

乔丹说,在他的职业篮球生涯里,他有九千多次投球不中,打输过三百多场球。曾经有26次,他被任命去投最后一秒钟的关键的球,但是他没能投中。他曾经失败过很多次。“这就是我为什么成功了。”把这句话送给我的读者吧。有时候,乔丹会输得很瓷实。如此山寨不算侵权?乔丹败诉 无奈称尊重中国司法。

UUID: 4ab9ae81-c092-4d5f-bc1c-ba2b81b498fe

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院物理所公众号-pdf2txt/2014-2015/中科院物理所_2015-10-15_从一个与统计有关的笑话说起:地理系毕业生的起薪最高.txt

是否为广告: 否

处理费用: 0.0028 元