像分辨面貌一样分辨语言

我们可以不需要了解一个人就认出他的面貌，研究发现，人们对语言的分辨居然与此类似，不需要听懂语义就可以分辨语言。我们的大脑里有一个“声音空间”，帮助我们像分辨面貌一样分辨语言。

我们在听别人说话时，能听出讲话人是谁并区分不同的语音内容，这依赖的是语言能力。但我们只是更容易理解和记住亲近的人所说的话，对陌生人说的话就没有那么敏感。当我们在凭声音判断讲话人是谁的时候，同样很难通过听觉区分一个正在讲外语的人是谁。人们把这种现象称为“语言熟悉度效应”（LFE）。

但一个未解决的关键问题是，这种“语言熟悉度效应”所依赖的语言能力，究竟是基于人们对话语内容的理解呢，还是仅仅根据语言的声音系统做出的判断呢？

此前的一些研究发现，在语音处理能力受损的诵读障碍患者身上，体现不出人类普遍共有的“语言熟悉度效应”。说英语的诵读障碍患者不能把听到的英语声音记得比汉语声音更牢。而已经对母语的语音体系有了一定经验的7个月大的婴儿，却能将说母语的人与说外语的人分辨出来，即便他们听不懂人们说话的内容。而且，当说话人发生变化时，婴儿能发觉说母语的讲话者换人了，但不能察觉到说外语的人是不是换了。

这些现象可能表明，“语言熟悉度效应”是基于人类对语言声音系统的判断产生的，而语言内容并不重要。为了验证这一结论，英国格拉斯哥大学的心理学家David Fleming和他的三位国际合作者开展了一项研究，研究成果已于今年9月发表于《美国科学院院刊》（PNAS）上。

研究者们让20位母语为英语、20位母语为汉语普通话的成年女性，分别朗读10个句子，然后把共400个音频片段用软件倒转（time-reversed）过来播放，以使听者无法听懂语义。然后，研究者把这些倒过来的音频片断两两配对（总共可配出820个语音对），请受试者们评定听到的语音对之间的相异程度和是一个人所说的可能性。

结果显示，不论母语是哪种语言的人，都感觉含有两种语言的语音组合的内部差异性，高于仅用英语或汉语的语音配对的组合；更重要的是，她们也都能够觉察出，用母语朗读的不同句子间的差异性，而用外语朗读的不同句子的差异性，则比较不容易被觉察，也就是说，人们对母语声音的差别，更为敏感，而且这种敏感并非基于语义的判断。

同时，两组志愿者因为语言经历的不同，也表现出了差异。志愿者中母语为英语的不懂汉语，而母语为汉语的则平均有9个月的英国生活经历，且雅思考试成绩最低都在6.5分以上。这种不同也表现在了测试结果上，懂英语的说汉语者比起不懂汉语的说英语者而言，他们对母语和外语的语音相似度间的落差感要更小。这说明，“语言熟悉度效应”的强度可以随着对外语的掌握而减弱。

此外，与对成年人的研究结果不同，人们在7个月大的婴儿身上发现，婴儿只对正常语音的母语和外语的识别度有差异，而对倒转了的双语语音没有识别和认知差异。这可能是因为，仅7个月的听觉经验仅仅能使人区分正常语音间的差别，而不能处理陌生的语音环境（如倒转的语音）。事实上，别说是7个月大的婴儿，即便是学龄儿童也不能在怪异的语音环境下，像成年人那样有效地处理听到的声音信息。

这些试验都说明，能够识别语音的人类语言能力主要起源于人对语言内部的声音特点的掌握，而非对话语内容的理解。那些被倒转的语音尽管丧失了一些正常语言片断中的短时特点，如声音的发生和消退（onsets and decays），同时音调的走向也被逆转了，但一门语言中的声波振幅、基本频率、音长等特点都与正常语音一致。

而且许多音位（如摩擦音和长元音）的共振峰迁移（formant transition）结构与正常语音基本也是一种对称的镜像关系。这些音位信息就如同声音指纹，即便有限，也足以使人们识别出不同的语音和不同的说话人。

有意思的是，人类在语音识别上表现出的语言熟悉度效应，很类似于人脸识别上表现出的“异族效应”（Other-Race Effect），即人们辨认外族人的相貌要明显难于辨认本族人。

相信很多人都有这样的体会。一种主流观点认为，异族效应的产生主要源于人在辨识一个人的脸部特征时，大脑会架起一个由很多点构成的多维空间，而多维空间的点的分布形态是由人看到过的人脸的显著知觉特征塑造的。由于人们看过最多的脸就是本族人的脸，所以形塑本族脸的那些点的分布更分散。

而人有一种“知觉窄化”的认知倾向，所以当有不同统计分布特征的异族面孔出现在眼前的时候，人们仍会用从本族面孔形成的脸部特征的编码系统来识别新的面容，此时这套编码系统显然就不那么有效了。

同理，在识别语音时，人的大脑会根据母语的音位分布特征而编码建立起一个“声音空间”，构成母语声音的空间的点更为分散，从而比外语声音更易让人识别；而构成外语声音空间的点更紧凑，所以听起来差异度更低。研究人员认为，可能正是这套听觉识别机制缔造了人类各种族共有的“语言熟悉度效应”。