加州大学旧金山分校的神经科学家创造了一种先进的脑机接口,该接口可以使用大脑活动控制虚拟声道来生成自然听觉的合成语音。这项研究在具有完整语音的研究参与者中进行,但该技术有一天可能会恢复因瘫痪和其他形式的神经损伤而失去语音能力的人的声音。中风、创伤性脑损伤和神经退行性疾病如帕金森病、多发性硬化症和肌萎缩侧索硬化症(ALS,或卢·格里格病)通常会导致不可逆的语音能力丧失。
一些有严重语音障碍的人学会使用辅助设备逐字母拼出他们的想法,这些设备跟踪非常小的眼部或面部肌肉运动。然而,使用这些设备生成文本或合成语音是费力、易错且极其缓慢的,通常每分钟最多只能生成10个单词,而自然语音的速度是每分钟100-150个单词。Edward Chang博士实验室开发的新系统在2019年4月24日的《自然》杂志上描述,证明了创建一个可以由个人大脑语音中心活动控制的合成语音版本是可能的。
在未来,这种方法不仅可以恢复严重语音障碍个体的流畅沟通,作者表示,还可以再现传达说话者情感和个性的人类语音的音乐性。该研究由Gopala Anumanchipalli博士和Josh Chartier领导,他们意识到先前直接从大脑活动中解码语音的尝试可能因这些大脑区域不直接代表语音声音的声学特性,而是代表在语音过程中协调口和喉部运动的指令而受到限制。
研究人员要求五名在UCSF癫痫中心接受治疗的志愿者在研究人员记录与语言生产相关的大脑区域活动时大声朗读数百个句子。基于参与者语音的音频记录,研究人员使用语言学原理反向工程了产生这些声音所需的声道运动。科学家们为每个参与者创建了一个可以由其大脑活动控制的现实虚拟声道。合成的语音由这些算法生成,显著优于直接从参与者大脑活动中解码的合成语音,而不包括说话者声道的模拟。
研究人员目前正在试验更高密度的电极阵列和更先进的机器学习算法,他们希望这将进一步提升合成语音。初步结果表明,研究人员基于解剖学的系统可以从参与者的大脑活动中解码和合成新句子,几乎与算法训练的句子一样好。研究人员还发现,语音运动的神经代码在参与者之间部分重叠,一个研究对象的声道模拟可以适应响应从另一个参与者大脑记录的神经指令。