语言是人类最基本的交流方式。遗憾的是,世界上有很多人并不能正常地进行语言表达,如神经功能失调患者最严重的后果之一就是语言能力丧失。据世界卫生组织统计,全球60岁及以上人群约有20%受精神神经失调的困扰。让语言功能丧失者发声是科学家一直追求的目标。借助特殊仪器设备可弥补一些人的语言能力缺失。最熟悉的例子就是霍金的轮椅。
霍金因患有肌肉萎缩性侧索硬化症而失去语言表达能力,只能通过选择轮椅显示器上的单词拼成句子,经由语音合成器发出声音来传达自己的观点。但这类设备最主要的问题就是过程繁琐,说话太慢,远不及正常人的交流速度。那么,能否将人的脑部活动直接转换为声音信息呢?答案是可以的。脑-机接口技术可获取人大脑的电波信号。
2014年,美国西北大学Marc W. Slutzky团队通过该技术同时记录人的发音信号和脑电波信号,将美式英语中的音素与脑电波做了一一对应。但言语表达不只是一个简单的声波传递过程,更需要人精确地控制气流以及多个发声器官的完美配合。
2018年,加州大学旧金山分校神经外科学系教授Edward F. Chang的研究团队记录了人说话时的脑部信号和声道不同部位的动作,并对二者进行了对应,获得了一系列发音运动轨迹数据。最近,Chang的研究团队开发了一套“两步法”人工语音合成系统,可将大脑神经活动解码合成为言语声音。相关研究于2019年4月25日发表于《自然》杂志。
所谓“两步法”,就是科研人员首先将受试者的脑部活动转录为发声动作信息,然后将发声动作信息解码为声音信息进行语言合成。研究发现,解码声音与原声音的声谱特征具有很高的相似性。科研人员还对合成语音的清晰度进行了检测。结果显示,听者在聆听101段合成语音后,能比较轻松准确的辨识其中的单词和句子。
同时,与将神经信号直接一步转码为语音相比,“两步法”解码系统对语音内容的保真度更高,这种优势随着转码语音时间的延长而更加明显。虽然默读的整体语音合成效果逊色于有声阅读,但论文作者认为“两步法”系统可以对无声言语的重要特征进行解码。换句话说,“两步法”解码系统可以识别发声者的唇语,做到“你张张嘴,我就知道你要说什么”。