酷科技！美学者精准解析人类发音，使失语者恢复“原音”

语言是人类最基本的交流方式。遗憾的是，世界上有很多人并不能正常地进行语言表达，如神经功能失调患者最严重的后果之一就是语言能力丧失。据世界卫生组织统计，全球60岁及以上人群约有20%受精神神经失调的困扰。让语言功能丧失者发声是科学家一直追求的目标。借助特殊仪器设备可弥补一些人的语言能力缺失。最熟悉的例子就是霍金的轮椅。

霍金因患有肌肉萎缩性侧索硬化症而失去语言表达能力，只能通过选择轮椅显示器上的单词拼成句子，经由语音合成器发出声音来传达自己的观点。但这类设备最主要的问题就是过程繁琐，说话太慢，远不及正常人的交流速度。那么，能否将人的脑部活动直接转换为声音信息呢？答案是可以的。脑-机接口技术可获取人大脑的电波信号。

2014年，美国西北大学Marc W. Slutzky团队通过该技术同时记录人的发音信号和脑电波信号，将美式英语中的音素与脑电波做了一一对应。但言语表达不只是一个简单的声波传递过程，更需要人精确地控制气流以及多个发声器官的完美配合。

2018年，加州大学旧金山分校神经外科学系教授Edward F. Chang的研究团队记录了人说话时的脑部信号和声道不同部位的动作，并对二者进行了对应，获得了一系列发音运动轨迹数据。最近，Chang的研究团队开发了一套“两步法”人工语音合成系统，可将大脑神经活动解码合成为言语声音。相关研究于2019年4月25日发表于《自然》杂志。

所谓“两步法”，就是科研人员首先将受试者的脑部活动转录为发声动作信息，然后将发声动作信息解码为声音信息进行语言合成。研究发现，解码声音与原声音的声谱特征具有很高的相似性。科研人员还对合成语音的清晰度进行了检测。结果显示，听者在聆听101段合成语音后，能比较轻松准确的辨识其中的单词和句子。

同时，与将神经信号直接一步转码为语音相比，“两步法”解码系统对语音内容的保真度更高，这种优势随着转码语音时间的延长而更加明显。虽然默读的整体语音合成效果逊色于有声阅读，但论文作者认为“两步法”系统可以对无声言语的重要特征进行解码。换句话说，“两步法”解码系统可以识别发声者的唇语，做到“你张张嘴，我就知道你要说什么”。