无论是听上去还是看上去,汉语、藏语和缅甸语都像是完全不同的语言,但其实这些不同的语言全都源自于同一种祖语!普通话、粤语、苗语、藏语以及400多种语言,都属于同一语系——汉藏语系。汉藏语系大约有15亿使用者,按照使用的人数计算,它是仅次于印欧语系(英语、西班牙语等)的第二大语系。它的起源一直是学术界的一个争论不休的话题。
有一个思想流派认为,汉藏语系中的所有语言都是从一种祖语演化而来的,这种祖语叫作原始汉藏语。有人认为,这种祖语大约于4000-6000年前起源于中国北方;另一种观点则认为,这种祖语在9000年前起源于中国西南部或印度东北部。
最近,复旦大学的张梦翰等人在《自然》杂志上发表的一篇新的论文,为这一争论找到了新的证据。为了确定不同语言之间的关系,历史语言学家通常会寻找不同语言中的同源词,也就是那些含义相似,并且与某一种更早祖语中的某个词语具有相同起源的词语。接着,语言学家就会从多个角度找出为什么这些词语并不完全一样的原因:它们的发音发生了什么变化?词语中附加了些什么?是什么导致让它们在相近的语言中拥有不同的含义?
研究人员可以通过对同源词的研究,以及一些来自于其他领域的证据,推断出语言与人类迁徙和人类文化之间的关系,从而确定使用这些原始语言的人的家乡在哪儿。当这些人分散到不同的地方时,不同的语言分支便形成了。然而,历史上变幻莫测的交叉迁徙会进一步导致不同语言的出现,因而要准确地追寻某种语言的进化树是非常困难的。而且,对同一组数据的不同解释也可能会得出不同的语言进化树。
论文的作者们采用了一种能快速处理大量数据的软件,这是一种为生物科学研究而开发的概率测试模型。由于语言的进化和分化与生物物种的进化非常相似,因此这种软件也可以用于生成各种语言进化树,并确定其中哪一种是最有可能的。
他们收集了大量有关于同源词的数据,这为他们的研究提供了坚实的数据基础,也是他们的研究有别于一些早期研究的关键所在:早期研究虽然也使用过类似的计算技术,但用的都是来自词族的随机词语列表,并没有进行过同源性评估。他们比较了同源词在不同语言中的发音,并且从遗传学、计算生物学、语言学、考古学和人类学等学科收集了大量与汉藏语系有关的证据。
将语言的进化与如陶器、建筑风格等人类活动的传播线索结合起来,并用计算机程序进行了数百万次的迭代运算,最终得出结论:汉藏语系的祖先语言起源于今天的中国北方。
虽然还不清楚这种古老的语言是什么时候开始使用的,但它在大约5900年前被分为两大分支,一支向南传播,另一个向西藏和南亚传播。这个时间线与当时亚洲的农业发展也是一致的。当时,这一地区与仰韶文化和后来的马家窑文化有关,这些都是与陶器以及丝绸的生产有关的文化,他们的社区会饲养家畜,并有大型固定的定居点。这些结果表明,早在汉语族和藏缅语族进一步分化为更多语言分支之前,它们就已经存在较大的分裂。
虽然我们并不能因此说,这一发现平息了这场旷日持久的汉藏语系起源的“南北之争”,但它在很多方面都具有重要意义。人们研究汉藏语系的历史不如印欧语系的久远,因此相对而言,我们对这一领域的一些基本问题并不那么确定。而这一发现则为这些基本问题提供了更多的确定性,让研究人员能够在此基础之上更进一步地深入探索汉藏语系的历史。
除此之外,这项研究工作对将语言学、考古学和历史学等不同领域中所作出的发现联系在一起,也能起到非常积极的推动作用。