齐夫定律:语言的统计学

作者: Wim Hordijk

来源: 原理

发布日期: 2017-06-12

齐夫定律是语言学中的一个著名现象,描述了词频与其排名之间的幂定律关系。该定律不仅适用于语言,还广泛应用于音乐、计算机代码、城市规模、网络连接等领域。通过统计分析,可以揭示作者的个性和心理状态。

人类学习、使用和处理语言的能力将我们与其他动物区分开来。语言被用于有效沟通,也让我们可以通过文学、诗歌和歌曲等形式来表达我们的创造力。语言的使用也遵循严格的数学原理,其中最著名的就是齐夫定律(Zipf’s law)了。

如果将一篇长文中不同的词按照出现的频率由高至低排列,就会发现平均来说最常用的词出现的频率大约是第二常用词的两倍、是第三常用词的三倍。换句话说,一个词出现的频率 f(r) 与它在频率表里的排名 r 成反比:f(r) ∝ 1/r。哈佛大学语言学家乔治·齐夫(George Zipf)所描述的这一现象已经普及了70多年了。

齐夫定律不仅出现在与语言密切相关的如音乐、计算机代码等领域中,也能在完全不相关的如城市的大小、因特网和电网的网络连接的系统中出现。它甚至还出现在斯诺克的统计数据中。这些不同系统的主要区别在于,在对应的幂定律中参数 a 的值可能很不一样。

作为具备科学精神的你,或许也想通过分析一些自己喜欢文章对齐夫定律进行检验吧!我们可以使用像当代美国英语语料库(COCA)这样的网站来进行检测,网站中列举出了5000个最常用的英文单词及其实际使用频率。从这个列表中选出50个最常见的单词,在双对数坐标图中绘制他们的频率-排名关系。我们可以对频率和排名的对数数值进行线性回归分析,来检测它们的线性关系,同时估算出幂定律中参数 a 的值。

齐夫定律也存在于斯诺克统计中。如果将这些统计的数据绘制在双对数坐标图中,并进行幂定律拟合,就能得出如图三所示的结果。对最高和最低排名的数据来说,实际数据和拟合之间的差异更加明显,这是统计数据中通常会出现的情况。对应的幂定律的参数为 a = 0.594,这与单词频率的参数完全不同。

不同文本或不同作者之间的实际单词频率分布会有差异,这不禁让我们想到,是否可以通过特定的频率分布来了解其作者的一些信息呢?事实上,心理学家詹姆斯·彭尼贝克(James Pennebaker)认为,作者如何表达自己的想法从一定程度上揭示了他们自身的性格。尤其是一些功能词(如代词、冠词这些传达信息不大的词)的使用显然与作者的社会和心理状态直接相关。

UUID: 6e068a4c-eba3-4ded-87ef-9ae900d2c158

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/原理公众号-pdf2txt/2017年/2017-06-12_齐夫定律:语言的统计学.txt

是否为广告: 否

处理费用: 0.0041 元