齐夫定律：语言的统计学

人类学习、使用和处理语言的能力将我们与其他动物区分开来。语言被用于有效沟通，也让我们可以通过文学、诗歌和歌曲等形式来表达我们的创造力。语言的使用也遵循严格的数学原理，其中最著名的就是齐夫定律（Zipf’s law）了。

如果将一篇长文中不同的词按照出现的频率由高至低排列，就会发现平均来说最常用的词出现的频率大约是第二常用词的两倍、是第三常用词的三倍。换句话说，一个词出现的频率 f(r) 与它在频率表里的排名 r 成反比：f(r) ∝ 1/r。哈佛大学语言学家乔治·齐夫(George Zipf)所描述的这一现象已经普及了70多年了。

齐夫定律不仅出现在与语言密切相关的如音乐、计算机代码等领域中，也能在完全不相关的如城市的大小、因特网和电网的网络连接的系统中出现。它甚至还出现在斯诺克的统计数据中。这些不同系统的主要区别在于，在对应的幂定律中参数 a 的值可能很不一样。

作为具备科学精神的你，或许也想通过分析一些自己喜欢文章对齐夫定律进行检验吧！我们可以使用像当代美国英语语料库(COCA)这样的网站来进行检测，网站中列举出了5000个最常用的英文单词及其实际使用频率。从这个列表中选出50个最常见的单词，在双对数坐标图中绘制他们的频率-排名关系。我们可以对频率和排名的对数数值进行线性回归分析，来检测它们的线性关系，同时估算出幂定律中参数 a 的值。

齐夫定律也存在于斯诺克统计中。如果将这些统计的数据绘制在双对数坐标图中，并进行幂定律拟合，就能得出如图三所示的结果。对最高和最低排名的数据来说，实际数据和拟合之间的差异更加明显，这是统计数据中通常会出现的情况。对应的幂定律的参数为 a = 0.594，这与单词频率的参数完全不同。

不同文本或不同作者之间的实际单词频率分布会有差异，这不禁让我们想到，是否可以通过特定的频率分布来了解其作者的一些信息呢？事实上，心理学家詹姆斯·彭尼贝克(James Pennebaker)认为，作者如何表达自己的想法从一定程度上揭示了他们自身的性格。尤其是一些功能词(如代词、冠词这些传达信息不大的词)的使用显然与作者的社会和心理状态直接相关。