文学背后的数学定律:就算莎士比亚也逃不过

作者: 丁家琦

来源: 巴塞罗那自治大学

发布日期: 2016-03-17

西班牙巴塞罗那自治大学数学研究中心的研究者使用古登堡计划的数据库,对齐普夫定律进行了严格的研究。结果表明,55%的文本在除去少数只出现一两次的词语后,完美符合齐普夫定律,而考虑所有词语的情况下,仍有40%的文本符合该定律。研究还发现,即使是莎士比亚和狄更斯这样的文学大师,其作品也遵循这一数学定律。

齐普夫定律是由美国语言学家乔治·齐普夫(George Zipf)发现的一条规律。它提出,一段文本中每个词语出现的频次与频率排名大致成反比,即假如最常出现的单词出现了100次,第二频繁出现的单词就约出现50次,第三频繁出现的单词就约出现33次,以此类推。类似的定律还可应用于除文学之外的诸多领域,也经过了海量数据的检验。

不过此前一直没有人使用最大程度的数学方法和最庞大的数据库来检验该定律在统计学上的正确性。

近期,西班牙巴塞罗那自治大学数学研究中心的研究者首次使用数学和统计学的专业知识,对齐普夫定律进行了严格的研究。他们使用了古登堡计划的数据库——古登堡计划是一项将版权过期的英文书籍电子化的互联网计划,包含3万多篇英文文本,可以免费获取。这么大规模的研究在该领域前所未见:此前的研究大多只采用几十篇文本的数据集。

分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完美地符合齐普夫定律,而如果考虑所有的词语,仍然有40%的文本完美符合齐普夫定律。

“这一研究最让人惊异的一点,就是这么多词语出现的频率居然能被一个单变量的公式所描述。要知道,在自然界出现得最普遍的高斯公式也需要两个变量(即均值和宽度)来适应真实数据,”该研究的领导者、数学研究中心的研究员阿尔瓦罗·科拉尔(Álvaro Corral)说,“如果进一步忽略只出现3~5次的词语,符合齐普夫定律的作品数还会更多。”

用数学术语表述这条定律,就是说如果把一段文字中的所有词语按出现频率从高到低排列起来,排第二的词语其出现频率就约为第一的一半,排第三的词语出现频率就约为第一的三分之一,以此类推,排第n的词语出现次数约为第一的1/n。其实该定律最一般的表述形式还包含一个指数a,即排第n的词语出现次数约为第一的1/n^a,这让公式变得稍稍复杂了一点。

不过代入实际数据拟合后,a的值其实非常接近1(就相当于没有这个指数了)。还有其他在数学上更为复杂的表述,但都只包含一个自由参数。

研究者使用古登堡数据库(包含31075本书)对齐普夫定律最常见的三种表述形式进行了验证,发现所有作品,有的只有100个字,有的则有100多万字,他们中的超过40%都符合三种表述中的一种,结论具有统计显著性(p>0.05)。“齐普夫定律引发了一些争议,但它总是能在具体的例子中找到依据,”科拉尔说,“如今,在大数据与高性能计算机的时代,我们需要对它进行大规模的分析,这项研究就是关键的一步。”

科拉尔也说,虽然文学被看做是创作自由度最高的表达方式之一,但无论是莎士比亚还是狄更斯这样的大师,都逃不过齐普夫定律的统治。科拉尔等人的研究发表在《公共科学图书馆·综合》(PLoS ONE)上,全文开放获取,点击查看全文。

UUID: a2492c8a-1bd5-4b38-98dd-99412faa8e31

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2016/2016-03-17_文学背后的数学定律:就算莎士比亚也逃不过.txt

是否为广告: 否

处理费用: 0.0032 元