超过400种语言全都源自于中国北方?

作者: 张梦翰等人

来源: 《自然》杂志

发布日期: 2019-04-25

复旦大学的研究团队在《自然》杂志上发表的论文提供了汉藏语系起源于中国北方的新证据,通过分析同源词和多学科证据,确定了汉藏语系的起源地和分化时间,为语言学、考古学和历史学等领域的研究提供了新的视角。

无论是听上去还是看上去,汉语、藏语和缅甸语都像是完全不同的语言,但其实这些不同的语言全都源自于同一种祖语!普通话、粤语、苗语、藏语以及400多种语言,都属于同一语系——汉藏语系。汉藏语系大约有15亿使用者,按照使用的人数计算,它是仅次于印欧语系(英语、西班牙语等)的第二大语系。它的起源一直是学术界的一个争论不休的话题。

有一个思想流派认为,汉藏语系中的所有语言都是从一种祖语演化而来的,这种祖语叫作原始汉藏语。有人认为,这种祖语大约于4000-6000年前起源于中国北方;另一种观点则认为,这种祖语在9000年前起源于中国西南部或印度东北部。

最近,复旦大学的张梦翰等人在《自然》杂志上发表的一篇新的论文,为这一争论找到了新的证据。为了确定不同语言之间的关系,历史语言学家通常会寻找不同语言中的同源词,也就是那些含义相似,并且与某一种更早祖语中的某个词语具有相同起源的词语。接着,语言学家就会从多个角度找出为什么这些词语并不完全一样的原因:它们的发音发生了什么变化?词语中附加了些什么?是什么导致让它们在相近的语言中拥有不同的含义?

研究人员可以通过对同源词的研究,以及一些来自于其他领域的证据,推断出语言与人类迁徙和人类文化之间的关系,从而确定使用这些原始语言的人的家乡在哪儿。当这些人分散到不同的地方时,不同的语言分支便形成了。然而,历史上变幻莫测的交叉迁徙会进一步导致不同语言的出现,因而要准确地追寻某种语言的进化树是非常困难的。而且,对同一组数据的不同解释也可能会得出不同的语言进化树。

论文的作者们采用了一种能快速处理大量数据的软件,这是一种为生物科学研究而开发的概率测试模型。由于语言的进化和分化与生物物种的进化非常相似,因此这种软件也可以用于生成各种语言进化树,并确定其中哪一种是最有可能的。

他们收集了大量有关于同源词的数据,这为他们的研究提供了坚实的数据基础,也是他们的研究有别于一些早期研究的关键所在:早期研究虽然也使用过类似的计算技术,但用的都是来自词族的随机词语列表,并没有进行过同源性评估。他们比较了同源词在不同语言中的发音,并且从遗传学、计算生物学、语言学、考古学和人类学等学科收集了大量与汉藏语系有关的证据。

将语言的进化与如陶器、建筑风格等人类活动的传播线索结合起来,并用计算机程序进行了数百万次的迭代运算,最终得出结论:汉藏语系的祖先语言起源于今天的中国北方。

虽然还不清楚这种古老的语言是什么时候开始使用的,但它在大约5900年前被分为两大分支,一支向南传播,另一个向西藏和南亚传播。这个时间线与当时亚洲的农业发展也是一致的。当时,这一地区与仰韶文化和后来的马家窑文化有关,这些都是与陶器以及丝绸的生产有关的文化,他们的社区会饲养家畜,并有大型固定的定居点。这些结果表明,早在汉语族和藏缅语族进一步分化为更多语言分支之前,它们就已经存在较大的分裂。

虽然我们并不能因此说,这一发现平息了这场旷日持久的汉藏语系起源的“南北之争”,但它在很多方面都具有重要意义。人们研究汉藏语系的历史不如印欧语系的久远,因此相对而言,我们对这一领域的一些基本问题并不那么确定。而这一发现则为这些基本问题提供了更多的确定性,让研究人员能够在此基础之上更进一步地深入探索汉藏语系的历史。

除此之外,这项研究工作对将语言学、考古学和历史学等不同领域中所作出的发现联系在一起,也能起到非常积极的推动作用。

UUID: 5bcc73de-7ec5-48da-9c64-5d17a5ee20d8

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/原理公众号-pdf2txt/2019年/2019-04-25_超过400种语言全都源自于中国北方?.txt

是否为广告: 否

处理费用: 0.0037 元