人类学习、使用和处理语言的能力将我们与其他动物区分开来。语言被用于有效沟通,也让我们可以通过文学、诗歌和歌曲等形式来表达我们的创造力。语言的使用也遵循严格的数学原理,其中最著名的就是齐夫定律(Zipf’s law)了。
如果将一篇长文中不同的词按照出现的频率由高至低排列,就会发现平均来说最常用的词出现的频率大约是第二常用词的两倍、是第三常用词的三倍。换句话说,一个词出现的频率 f(r) 与它在频率表里的排名 r 成反比:f(r) ∝ 1/r。哈佛大学语言学家乔治·齐夫(George Zipf)所描述的这一现象已经普及了70多年了。
齐夫定律不仅出现在与语言密切相关的如音乐、计算机代码等领域中,也能在完全不相关的如城市的大小、因特网和电网的网络连接的系统中出现。它甚至还出现在斯诺克的统计数据中。这些不同系统的主要区别在于,在对应的幂定律中参数 a 的值可能很不一样。
作为具备科学精神的你,或许也想通过分析一些自己喜欢文章对齐夫定律进行检验吧!我们可以使用像当代美国英语语料库(COCA)这样的网站来进行检测,网站中列举出了5000个最常用的英文单词及其实际使用频率。从这个列表中选出50个最常见的单词,在双对数坐标图中绘制他们的频率-排名关系。我们可以对频率和排名的对数数值进行线性回归分析,来检测它们的线性关系,同时估算出幂定律中参数 a 的值。
齐夫定律也存在于斯诺克统计中。如果将这些统计的数据绘制在双对数坐标图中,并进行幂定律拟合,就能得出如图三所示的结果。对最高和最低排名的数据来说,实际数据和拟合之间的差异更加明显,这是统计数据中通常会出现的情况。对应的幂定律的参数为 a = 0.594,这与单词频率的参数完全不同。
不同文本或不同作者之间的实际单词频率分布会有差异,这不禁让我们想到,是否可以通过特定的频率分布来了解其作者的一些信息呢?事实上,心理学家詹姆斯·彭尼贝克(James Pennebaker)认为,作者如何表达自己的想法从一定程度上揭示了他们自身的性格。尤其是一些功能词(如代词、冠词这些传达信息不大的词)的使用显然与作者的社会和心理状态直接相关。