如何通俗地理解卡⽅检验?

作者: ⼤⼩吴

来源: 公众号:⼤⼩吴的数学课堂

发布日期: 2023-06-22 13:22:57

本文详细介绍了卡⽅检验的基本概念、目的、假设提出、检验方法以及与反证法的相似性,旨在帮助读者更好地理解这一统计学工具。

同学们在学习“2×2列联表独⽴性检验(卡⽅检验)”时是否有这样的感受:这⼀块内容⽐较抽象,学习它到底有什么⽤?今天⼩编就和同学们来探讨到底什么是卡⽅检验。

在介绍卡⽅检验之前,我们⾸先需要介绍⼀种统计学思想“假设检验”,其基本逻辑是:根据所获样本,运⽤统计学⽅法对总体的某种假设作出检验和判断。假设检验⼜可分为参数假设检验和⾮参数假设检验,⽽列联表的独⽴性检验(⼜称卡⽅检验)就是⾮参数假设检验的⼀种。

我们⾸先明确卡⽅检验最基本的⽬的:“卡⽅检验主要⽤于分析两个分类变量的相关关系。”所谓分类变量,指的是取值为离散值的变量,⽐如“性别”就是⼀个分类变量,它的取值只有“男”和“⼥”。⽐如说,我们要研究⾊盲与性别这两个分类变量是否有关,就可以对⼈群进⾏抽样,得到如下列联表。

我们可以从表中直观地观察出这样⼀个事实:男性⼈群的⾊盲⽐例明显⾼于⼥性,这似乎可以⽀持我们提出⼀个合理的猜想:⾊盲与性别是有关的。

卡⽅检验的发明者为英国数学家卡尔·⽪尔逊,他认为需要⼀种⽅法来描述统计样本的实际观测值与理论推断值之间的吻合程度,即⽤以测定观察值与预期值之间的差异显著性,遂于1900年发布了著名的统计量,卡⽅检验提出后得到了⼴泛的应⽤,在现代统计理论中占有重要地位。

所谓“假设检验”⾸先就必须先提出假设,这⾥就涉及到⼀个问题:我们应该提出怎样的假设?这⾥提出原假设(null hypothesis,也称为零假设)和备择假设的概念:原假设是备择假设的对⽴⾯,同时遵循如下原则:“原假设通常是研究者想收集证据予以推翻的假设,⽽备择假设则是研究者想收集证据予以⽀持的假设。”所以⼀般是先假设两个随机变量⽆关,即相互独⽴。

已经提出假设,接下来便是研究该如何“检验”。还是以⾊盲与性别的关系为例,由于检验的基本原理是基于原假设收集数据,从⽽测定观察值与预期值之间的差异显著性。因此我们的预期值应当是基于“⾊盲”与“性别”相互独⽴得到的,即:两个分类的交叉项的概率可以根据独⽴事件的概率乘法公式得到。

显然,四个单元格中的数据和括号内的数据有⼀定差距。如果原假设成⽴,它们应该相差不远。这个“相差不远”该如何⽤数据去衡量呢?容易想到⽤每⼀栏中观察值与期望值差的平⽅和来描述观察值预期值。但是这样会产⽣⼀个问题:这个指标与每⼀栏⾃身的样本容量有关,不同的样本其基数是不⼀样的。换⾔之,这⾥需要的是⼀个相对量⽽不是绝对量。因此我们还要将求和公式中的每⼀个平⽅项除以这⼀栏的预期值。

这⾥构造的就是⽪尔逊发布的著名统计量,也即列联表的卡⽅检验公式。根据这个公式,我们可以计算出上述案例的值。那么,这个值该怎么⽤呢?在这⾥,我们需要简单了解⼀下卡⽅分布,其中对其严格的数学推导还需同学们进⼊⼤学后深⼊学习。

聪明的同学可能已经发现了,卡⽅检验的⽅法其实就类似于反证法。实际上,这两者既有联系也有区别。卡⽅检验先假设两变量独⽴,然后构造⼀个事件(具体来说该事件指的是⽪尔逊检验统计量⼤于给定显著性⽔平下的临界值),它在我们的假设之下发⽣的概率极⼩(即为)。如果它在实际情况中发⽣了,就与⼩概率原理⽭盾,因此我们便可以拒绝原假设。这个过程和反证法的步骤是类似的。

UUID: 39cc8ca6-2939-4a75-9f66-ba5bcf9552d1

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院物理所公众号-pdf2txt/2023/中科院物理所_2023-06-22「转」_如何通俗地理解卡方检验?.txt

是否为广告: 否

处理费用: 0.0056 元