一万年前,欧亚大陆见证了两大语系的诞生:西方诞生了印欧语系,东方诞生了汉藏语系,如今,世界上超过60%的人口所讲的语言均属于这两大语系。汉藏语系分布极广,从太平洋西岸至内陆的尼泊尔、巴基斯坦,都有汉藏语系的“主讲人”。然而,汉藏语系在何时何地诞生一直以来都饱受争议。
4月25日,《知识分子》介绍了复旦大学金力团队的研究:通过系统发生学(phylogenesis)方法,研究人员重构了汉藏语系下各个分支的亲缘关系,推算出汉藏语系起源于新石器时期的中国北部,大约5900年前的黄河上游,并且与马家窑文化和仰韶文化的出现有关。
短短11天之后,《美国国家科学院院刊》(PNAS)发表了一篇相似的研究(下简称List团队的研究)。法国东亚语言研究所、德国马克斯普朗克人类历史科学研究所、巴黎决策数学研究所组成的科学家团队同样采用了系统发生学的研究方法,得出了相似但不同的结论:汉藏语系起源于7200年前的中国北部,并与晚期磁山文化和早期仰韶文化相关。
两项研究的结论为何有差异?首先,两项研究所采用的数据库不同。在List团队的研究中,数据库由该研究的专家构建,包含50种汉藏语系的分支语言,每种语言约有180个左右的核心词汇,同时包含了一千多年前的古代语言,包括上古汉语、古缅语、古藏语以及通过田野调查收集的现代语言的一手语料。而金力团队采用的数据库由伯克利大学的专家构建,包括109种分支语言,每种语言大约100个词,但是不包含方言。
在研究方法上,List的团队构建并分析了更多种可能发生的谱系,在所有这些谱系中,仅有33%的谱系表明,汉语最先从整个语系中独立出来;但是在金力团队的研究中,汉语总是最先独立,自成一支。也就是说,List团队对于汉语是否最先独立并无较大把握,但是金力团队的研究对此更为确定。另一方面,金力团队的谱系分析结合了系统地理分析,从而探讨了语言演化的路径,而List等人考虑了更多与驯化物种相关的词语。
两项研究存在诸多差异,因此也得到了不同的结论,还需要进一步的研究才能确定究竟谁的时间判断更合理。“两个独立的研究团队,采用不同来源的语言材料,通过计算得到了相近的语言演化历史,这是非常不容易的,尤其是在语言学这个领域内。我们双方的结论是相互兼容的,也是可以相互验证的。”金力告诉《知识分子》。
通过系统地理学方法,估算汉藏语言原始家园的概率密度。图源:参考文献1新研究的结论如何得出的?
本研究的作者之一、马克斯普朗克人类历史科学研究所的游涵(Johann-Mattis List)博士告诉《知识分子》,在开展研究工作时,两个团队知道彼此的工作,但为了确保独立性,并没有查看彼此的研究结果。游涵(Johann-Mattis List),马克斯普朗克人类历史科学研究所高级研究员,曾在复旦大学交换学习。
在这项研究中,List团队研发了一套针对性的标注方法,它不仅可以标注出具有相同来源的词,而且可以标注哪些音是相互联系的。然后,通过运用系统发生学方法,推测出它们的历史关系,构建了它们的谱系。语言学界认为,语言演化与农业扩张息息相关。当人类进入新石器时代,种植业和畜牧业越发达的部落,其所讲语言的地位也会越高。因此,研究人员特别考察了诸多有关农耕家庭的词汇,以解释农业发展与语言演化的关系。
在他们所构建的谱系中,至少六项驯化物种可以找到相对应的古词,包括粟(小米)、猪、绵羊、水稻、牛和马,如下图。考古学上,这些物种也的确在当时被驯化。粟、猪、绵羊等词甚至在7200年前就已经出现在原始语系中,但最早讲汉藏语的祖先,并不知道“水稻”。这些词语来源于农耕民族,按时间和地点推算,他们属于晚期磁山文化和早期仰韶文化。
与北方起源假说一致,这一语言产生后,主要分化为两支,东支演化为汉语,而西支则演化出了包括藏语在内的多种语言。公元前1400年(当时中国为商朝),汉文字诞生,从此东支汉语的传播势不可挡,邻近地区的少数族语很快被同化。而西支则在多样性上发展壮大,部分原因在于文字产生的较晚,其分支下最早的藏文、西夏文形成于公元764年和1070年。
语言传播与对应的早期驯化物种。图源:参考文献2
语言学研究的新方法系统发生学(又简称谱系学)原本用来研究生物个体的演化历史,但现在越来越多的学科采用了这一方法。简单来讲,当两个等位基因出现变异,通过分析它们的特征,向上建立谱系,找到出现变异的根源,这样逐层建立,得到一个完整的发生谱系。因为语言演化中也存在谱系,因而越来越多语言学研究开始采用谱系学的方法。
“基于语言谱系,结合群体遗传学以及进化生物学的分析方法,我们可以更有效地估算这些语言的分化年代,并推测分化地点。这对了解语言的历史,尤其是史前历史是非常重要的。”金力告诉《知识分子》。他同时表示:“国际顶级刊物上连续发表两篇有关汉藏语系演化的重要文章,也可以反映出国际科学领域对中国语言学的历史研究也是非常的重视。这是一个非常不错的开端。
我们也希望有更多的不同学科的专家能够加入到汉藏语系研究的这个行列中。”
List也抱有相同的期望。“我希望科学界批判性地看待这些结果,并试图改进这项工作。”他在邮件中回复道:“我们的数据可以自由访问(https://dighl.github.io/sinotibetan/),任何人都可以阅读并改进我们对词语关系的详细判断。”
注:北方起源假说认为汉藏语系起源于大约4000-6000年前中国北方;与之相对应的西南起源假说认为,汉藏语系出现在9000年前的中国西南或印度东北部。
参考文献:
1. Zhang M, Yan S, Pan W, et al. Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic[J]. Nature, 2019: 1.
2. Sagart L, Jacques G, Lai Y, et al. Dated language phylogenies shed light on the ancestry of Sino-Tibetan[J]. Proceedings of the National Academy of Sciences, 2019: 201817972.
3. LaPolla R J. The origin and spread of the Sino-Tibetan language family[J]. 2019.
4. LaPolla, R.J. In Areal Diffusion and Genetic Inheritance: Problems in Comparative Linguistics (eds Aikhenvald, A. Y. & Dixon, R. M. W.) 225-254 (Oxford Univ. Press, 2001).
5. van Driem, G. in Trans-Himalayan Linguistics (eds Owen-Smith, T. & Hill, N. W.) 11-40 (de Gruyter, 2014).