做这道高考数学题,学会优雅地与“杠精”对线

作者: 铸雪

来源: 科学大院

发布日期: 2022-06-23 11:00:10

本文通过分析一道高考数学题,探讨了如何使用统计学知识优雅地与“杠精”对线,特别是通过独立性检验和皮尔逊卡方检验来判断事件之间的关联性。文章详细解释了独立性检验的基本思路和皮尔逊卡方检验的应用,并举例说明了如何利用这些统计方法来反驳常见的“杠精”言论。

“石油公司的员工为了利益当然会质疑全球变暖!” “反对提高企业税的肯定是资本家!” “男生更擅长理科!” …… 这些“杠精”言论初看似乎有点道理,细想总觉得哪里不对! 抬杠有风险 图片来源:sina 不过,只要你研究一下今年的高考题,就能看出其中的奥秘! ↓↓↓ 今年数学全国卷I的第20题,就以人们关注的疾病防控作为切入点—— 下面我们就来仔细分析一下本题。

彼此相关 vs 毫无干系:独立性检验的基本思路 问题(1)要求同学们根据材料判断“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”这一结论是否正确,而这个问题的本质,即讨论事件“是否患该疾病”(记作B)与事件“卫生习惯”(记作A)是否独立。 这里所谓的“独立”,指的是事件A的发生不会影响到事件B发生的概率。

如果我们记事件A和事件B发生的概率分别为P(A)与P(B),那么两事件是独立的,当且仅当其中为事件A和事件B同时发生的概率。回到高考试题,我们可以将给出的条件抽象化,即那么我们可以给出假设H0:患病与否与卫生习惯没有差异这相当于说,参考上表,所以如果有成立,即ad=bd,可得H0(患病与否与卫生习惯没有差异)成立。但如果ad与bd之间的差异很大,说明H0不成立,即患病与否与卫生习惯有关。

这也就是独立性检验的基本思路。

皮尔逊检验:可以量化的独立性检验 上述独立性检验的基本思路虽然简洁明了,但存在一个根本性问题,即不足以定性地描述独立性。若想得出题目所述的“有99%的把握”这一要求,就需要我们引入更为严格的统计模型。 1900年,英国数学家卡尔·皮尔逊发表了著名的关于卡方检验的论文,奠定了现代统计学的基础。 皮尔逊在文中研究了拟合优度检验。

具体而言,假设实验中从总体随机取样,得到n个观测值,这些值被划分为k个互斥的分类,这样每个分类都有一个对应的实际观测次数。研究者对实验中各个观测值落入第i个分类的概率的分布提出零假设(H0),从而获得了对应所有第i个分类的理论期望次数以及限制条件:皮尔逊假设就是说,在上述H0成立,所有分类的理论观测次数mi均足够大且已知的情况下,同时假设各分类的实际观测数xi均服从正态分布。

当样本容量n足够大时,统计量极限分布趋向服从于自由度为k-1的卡方分布。

现代统计学如是说 这里有一个计算的小技巧。再次考虑我们上文提到的表格对于事件“不够良好”(A)的“病例组”(B),实际观测次数,而理论期望次数可以通过下面式子计算其他的事件也可以通过类似方法计算,最终我们得到代入皮尔逊计算的公式,化简(此处可以有请万能的Mathematica)之后就可以得到也就是高考试题中给出的公式。

如果将给出的具体数据代入,所以可以认为“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”。这也提醒我们,不同的卫生习惯对于是否患病有着切实的影响。(所以疫情期间一定要记得戴口罩,勤洗手!)

有了解这道题的经验,相信大家对于如何与“杠精”对线一定有自己的想法—— 石油公司的员工为了利益当然会质疑全球变暖!(检验“石油公司员工”与“质疑全球变暖”之间的独立性) 反对提高企业税的肯定是资本家!(检验“反对加税言论”与“资本家”之间的独立性) 男生更擅长理科!(检验“男生”与“理科成绩好”之间的独立性)

下面进行一个操作示范: 譬如要反驳“男生更擅长理科”这一论点,我们可以给出H0:性别与理科成绩无关首先根据数据计算然后计算自由度(分类变量数减1),最后在一定的显著性(如0.05,0.01)下比较,若小于临界值,则不能拒绝原假设,性别与理科成绩的差异不具有统计学意义。

虽说有关卡方的讨论到此已经可以告一段落,但试题中“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”这句话仍然值得我们稍微深入地讨论一下。题目中“有99%的把握”的说法,暗示了出题人希望考察p值这一知识点。这其实也是近年来学术界比较关注的一个问题。 这里我们简单介绍p值的基本原理。所谓p值,指的是假设检验中假设零假设H0为真,此时观测到至少与实际观测样本相同极端的样本的概率。

换言之,很小的p值说明在H0下观测到实际观测结果的概率很小(但事实却观测到了),故有理由拒绝H0。显然p值越小,拒绝原假设的理由越充分。

这道高考题告诉我们,对于生活中那些不能得出确定答案的问题,我们可以用统计学知识去得出具有显著性的结论。利用这些结论,我们就可以优雅地与“杠精”对线~ 不过,这些“显著”的结论并不是确切的,并不能仅仅因为相关就断然对因果下结论。千万不要让自己变成统计学“杠精”哦!

UUID: 9db6b73d-255f-423b-9b10-8ea9f79d62a8

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/科学大院公众号-pdf2txt/2022年/科学大院_2022-06-23_做这道高考数学题,学会优雅地与“杠精”对线.txt

是否为广告: 否

处理费用: 0.0061 元