在漫长的岁月里,人类与人类相遇、交流、分离,他们的语言也碰撞、融合、分化。最近,由语言学家、考古学家和遗传学家合作的一项研究,发现说日语、韩语、突厥语、蒙古语和通古斯语的人们有着共同的基因学和语言学上的祖先——他们曾于9000年前生活在今天中国东北部的西辽河流域。
语言学家将世界上的语言按演化关系分为不同的语系。其中一种分类叫“泛欧亚语系”,包括通古斯语族、蒙古语族、突厥语族、日本-琉球语(族)和朝韩语(族)。使用这些语言的居民分布在整个欧亚大陆,人口上亿。近日,一项历时六年、集结11个国家学者的三学科交叉研究发现,泛欧亚语系的人群有一个共同的祖先:他们曾经居住在距今约9000年前——也就是新石器时代的中国东北部。
2021年11月11日,《自然》杂志发表了这项研究。该研究认为,青铜时代之后东北亚各地区间频繁的语言交流,掩盖了这些语言在本质上同源的事实。而实际上,新石器时代早期,就有中国东北的农民穿越东北亚大陆,进入日本、韩国所在的地域。他们带去了自身的基因和文化,也带去了原始的语言。
“我们的研究显示,说日语、韩语、突厥语、蒙古语和通古斯语的人们有共同的基因和语言学上的祖先,他们生活在中国东北部的西辽河流域。”论文的通讯作者、德国马普人类历史科学研究所教授Martine Robbeets说。她和研究团队还通过语言学和考古学研究指出,农业在语言的扩散中发挥了重要作用。
北京大学考古文博学院副教授张海认为,这是一项真正意义上的文理交叉的研究。
“尤其是把语言学和考古学用量化的方法表述,采用跟古DNA一样的分析方法,贝叶斯系统发生学方法,将语言学、考古学与古DNA链接起来,讨论一个关键性的科学问题。”澳大利亚国立大学考古和人类学学院荣誉退休教授Peter Bellwood在随刊发布的论文述评中写道。长期以来,关于泛欧亚语系的源头争议颇多,他认为这项研究对厘清争议作出了“可喜的贡献”。
古DNA研究者们则对文章中提供的新基因证据感到兴奋。德国马普人类历史科学研究所博士后王轲通过邮件告诉《知识分子》,这些基因组的发表填补了目前朝鲜半岛琉球群岛等地古DNA数据库的空白。
Martine Robbeets是“泛欧亚语系”概念的提出者之一,这一概念指的是指东起太平洋,西至波罗的海、黑海和地中海的地理上相邻的一批语言。但并非所有语言学家都认同这一概念。
泛欧亚语系的概念衍生于早在18世纪就出现的“阿尔泰语系”(altaic languages)。阿尔泰语系将欧亚大陆的蒙古、突厥和通古斯等几个语族依照相近地理位置归类,认为它们来自同一个源头。后来的“泛欧亚语系”则在此基础上加入了日本-琉球语族和朝韩语族,认为这些语言的人群都有共同的祖先。
Robbeets认为,起源问题之所以难有定论,真正的问题是很难确定语言学者们提出的证据是否确凿。“问题并没有没有足够的证据,而是人们的设想,甚至是幻想太多,虚构多于事实。”
Martine Robbeets日常的工作就是伏在案头,从这些书籍记载的不同语言中抽取各种元素,分析、比对。她自己精通或掌握近10种语言,包括比利时当地的三种方言、英语、日语、韩语,一些简单的俄语、突厥语和蒙古语。这些语言大多是在她赴日、韩、俄等地学习和研究过程中习得的。
Robbeets说,语言中有一类词相对来说不具有文化含义,它们代表一些最简单的概念,比如house和food。她将之称为“基本词汇”。由于借用词汇很多时候与文化相关,研究基本词汇在不同语言中的分布能够很好地避开借用词汇的影响。语言学家们在长时间的摸索中已经列出了一张由100个词组成的“基本词汇”清单,方便在比较不同语言时使用。
在此次发表的论文中,Robbeets和同事们选取了泛欧亚语系的五个分支里的98种语言,在每种语言里寻找254个词源词。然后,他们用统计学方法(贝叶斯系统发生学方法,Bayesian Phylogenetic Analysis)来分析这些词的发展过程。
分析结果指出,泛欧亚语系的“原型语”(Proto-Transeurasian language)大约在距今9181年前开始分化,6811年前阿尔泰语系从中分出,5458年前日本语族和朝韩语族分出,4491年前蒙古语族和通古斯语族分出。
“人类的语言有10万年历史,而语言学能够研究的也只有1万年而已,”Robbeets说。在从新石器时代到现在的这一万年的时间里,不同语言的演化有快有慢,变化有大有小。传统语言学在假设变化匀速的基础上推算语言的分化,必然有种种不准确处。“这就是为什么遗传学方法非常有用,”Robbeets说。大约15年前,语言学家们开始将基因检测方法结合到语言学进化树的建立中,改进了预测。
在过去20年的研究经历中,Robbeets逐渐意识到,语言学分析虽然告诉了她泛欧亚人群的起源,但无法提供更多信息:他们曾经居住在何处?什么时候开始迁移?如何迁移?为什么分散到东北亚各地?引入考古学和遗传学能帮助解决这些问题。“语言学本身并不能最终解决人类历史科学中的重大问题,但结合遗传学和考古学,它可以增加某些情景的可信度和有效性。”她说。
同时使用语言学、考古学和遗传学方法做研究并非这篇论文首创,但如此大规模的并行研究确实少见。Robbeets表示,这次研究提出的跨学科合作模式仍然在探索阶段,她希望能延续这一模式,以考古学和遗传学方法扩展语言学研究的边界。
六年前,Robbeets向欧盟申请了一项200万欧元的跨学科研究基金,并用自己曾经在日本、韩国求学建立的人脉关系组建了一个庞大的团队。
2019年,她还到访中国,拜访了吉林大学生命科学学院的崔银秋教授。“非常有才华的学者”,她说,崔银秋建议合作,并让自己的学生宁超加入Robbeets的团队,赴德国开展研究。宁超目前已在北京大学考古文博学院任职。在德国马普人类历史科学研究所的日子里,他负责这项研究中大部分的古DNA数据收集工作。他收集了东北亚所有已经发表的古代基因组数据。
“跨国多学科的团队组建是非常不容易的,首先我们要了解不同学科,包括考古、语言和DNA,国际上都有哪些科学家在做与本课题相关的研究,其次是要确保哪些科学家对交叉学科研究话题感兴趣,而且还要尊重其它不同学科的研究成果。”在给《知识分子》的邮件回复中,宁超说。
在六年时间里,研究团队多次举办线上以及线下的交叉学科会议,分别呈现不同学科的最新进展和发现,然后再进行综合性探讨。
他们将这种研究方法称为“triangulation”(三角测量法)。Robbeets强调,虽然团队从三个学科方向开展研究,但研究过程相对独立,数据的收集、分析和结果都单独进行,因此避免了“内循环”,即互为逻辑结果的可能性。只有在研究的最后阶段,三个学科的推论才会通过不同变量相互映射,比较评估证据的融合程度,包括相关度、不一致性、不确定性和可能的偏见。
在比较三个学科结果后,文章得出结论,跨欧亚语言的起源可以追溯到新石器时代东北亚最早开始种植粟的人群。新石器时代早期到中期,种植粟的农民从西辽河扩散到邻近地区。而新石器时代晚期、青铜器和铁器时代,种植粟的农民逐渐与黄河、欧亚西部和绳纹人口混合,并在耕种中加入了水稻、欧亚西部农作物和畜牧业。
张海认为,研究中泛欧亚语系人群起源于中国东北西辽河流域的早期旱作农业人群,泛欧亚草原的游牧为特征的人群起源于定居农业的扩散的结论,“颠覆了过去的认识。”Peter Bellwood也在述评中表达了类似观点。研究古DNA的付巧妹认为,虽然从基因证据上得出了起源结论,但具体的迁移是如何发生的,农业可能只是其中一个因素,实际上的原因很可能更为复杂,尤其是越为晚近的年代,文化对迁移和语言的影响会越强。
Robbeets对此回应称,她认为农业是一个重要因素,但并未排除其他因素。例如,其中一个她认为需要更多研究的因素是气候变化。在过往研究中,气候变化的时间似乎和语言分化的时间有不错的相关性。
而对于泛欧亚语系人群和其他语系,如同样活动在亚洲大地上的汉藏语系人群,是什么样的关系,仍然是个未解之谜。“该文章提出的问题更重要,”张海说,“第一,仍然有一处关键时段古DNA样品的缺失,即距今8000年的西辽河流域的旱作农业人群。第二,泛欧亚语系与汉藏语系应该是两个不同的来源,如果泛欧亚语系与汉藏语系都是旱作农业基础,那么这两个语系有不同的起源吗?”
在问到有关泛欧亚语系和汉藏语系关系的问题时,Robbeets说,她认为,两个语系有不同的起源,一个发源于西辽河流域,一个发源于黄河流域,但在史前时期有语言借用的现象,而研究这种借用是她下一步要做的事之一。“我认为了解这两个农民社群如何互相影响,以及这在远古时期传递的信号是什么,是非常必要的,”她说。
她在一个月前刚刚招募了一位来自中国的博士生,在未来3-4年内将专门研究两个语系间语言借用的问题。
她希望在后续研究中继续交叉学科合作。在此次论文研究中,她说难度最大的就是将各种不同的证据整合在一起。“‘三角测量法’这种方式仍然不够完备,还在发展中,”她说,除了需要更多资金支持,她也计划举办更多的学术会议来探讨这一合作应该如何开展。“目前我们还只揭开了一点点面纱,未来仍然有许多要做的,”她说,“我也希望未来这个领域能扩展得很好。”