只要⼀个⼈的⼤脑神经活动还在,科学家们就有可能帮助失语瘫痪患者(由于严重声带和肢体瘫痪⽽交流受限)恢复应该有的交流能⼒。脑机接⼝被寄予厚望,是近年来神经科学中最前沿的研究领域之⼀。在⼀项最新研究中,来⾃美国加州⼤学旧⾦⼭分校的科研团队设计了⼀个神经假体,这种神经假体可以将脑活动转译为单个字⺟,实时拼出完整句⼦,展示在⼀名失语瘫痪患者⾯前。
据介绍,由该神经假体能构成的拼写系统能够以每分钟29.4个字符的速度⽣成句⼦,平均字符错误率仅为6.13%,且可以推⼴到包含9000多个词的词汇表中。
相关研究论⽂以“Generalizable spelling using a speech neuroprosthesis in an individual with severe limb and vocal paralysis”为题,已于今⽇发表在科学期刊Nature Communications上。
神经外科医⽣、加州⼤学旧⾦⼭分校神经外科和⽣理学副教授Edward Chang为该论⽂的通讯作者。这⼀研究成果凸显了⽆声控制的语⾔神经假体通过基于拼读的⽅法⽣成句⼦的巨⼤潜⼒。
理论上,通过在⼈(或动物)与外部设备之间建⽴信息传输通路,并利⽤⼈⼯智能等技术构建映射关系,就可以将⼈(或动物)的意识显示在机器上。此前,来⾃斯坦福⼤学的科研团队就成功开发出⼀套脑机接⼝系统,该系统利⽤⼤脑运动⽪层的神经活动可解码“⼿写”笔迹,并使⽤循环神经⽹络(RNN)将笔迹实时翻译成⽂本,成功呈现在电脑屏幕上。
同样,早在去年7⽉,Chang团队就曾⾸次使⽤脑机接⼝帮助⼀位瘫痪超过15年的失语男⼦BRAVO1恢复了“说话”的能⼒。据了解,BRAVO1在20岁时因严重的脑⼲中⻛瘫痪并失语,只有头、脖⼦和四肢能进⾏极为有限的活动,但其⼤脑的认知功能完好⽆损。他们为BRAVO1开发了⼀个包含50个单词的系统,该系统每分钟可以解码15.2个单词,准确率中值为75%。
在独⽴单词任务中,BRAVO1先会看到50个常⽤单词中的⼀个。当屏幕上的单词变成绿⾊时,BRAVO1便开始⽤意念“说”出这个单词,进⽽让电极记录下他的神经活动。据论⽂描述,研究团队共计进⾏了9000次单词任务,有效数据时⻓为22个⼩时。然⽽,这⼀系统受限于特定词汇表,参与者必须尝试⼤声说出这些词,这对于失语瘫痪的患者来说,是⼀项⾮常困难的任务。
在此次⼯作中,研究团队通过设计其系统解码与⾳标字⺟相关的脑活动,将此前的⽅法拓展到了更⼤的词汇量,并提⾼了拼写速度和准确性。神经假体是⼀种可以替代缺失的神经系统功能的设备,有望为因失语瘫痪⽽⽆法说话或打字的患者恢复交流能⼒。然⽽,⼈们尚不清楚是否可以通过⽆声地尝试说话来控制交流神经假体。
在测试中,在参与者尝试⽆声地说出每个字⺟发⾳时,新系统能够解码参与者的脑活动,整个拼写过程如下图所示。在句⼦拼写试验开始时,参与者试图默念⼀个单词来主动激活拼写器,在整个任务过程中,新系统从电极记录的⽪层数据中实时提取神经特征(⾼伽⻢活动和低频信号),⻨克⻛信号表明在执⾏任务期间没有声⾳输出。
据论⽂描述,语⾳检测模型由RNN和阈值计算构成,通过处理神经特征来检测⽆声语⾳尝试,⼀旦检测到,拼写过程就会开始。在拼写过程中,参与者在每2.5秒发⽣⼀次的字⺟解码周期中拼写想要表达的信息,在每个周期内,都会看到⼀个倒计时,最后看到⼀个代表“开始”的提示,然后试图默念出代表所需字⺟的代码字;在整个拼写过程中计算所有电极通道的⾼伽⻢活动和低频信号,并将其分成2.5秒的⾮重叠时间窗⼝。
随后,基于RNN的字⺟分类模型会处理每⼀个神经时间窗,预测参与者试图默念26个可能的代码字或者试图执⾏⼀个⼿动命令的概率,如果预测⼿动命令的概率达到了80%以上,则拼写过程结束,否则预测的字⺟概率继续由波束搜索算法进⾏实时处理,并将最有可能的句⼦显示给参与者。
最后,当参与者拼出想要表达的信息后,可以通过握紧右⼿来结束拼写过程,最后完成整个句⼦,与⼿动指令相关的神经时间窗会被传递给分类模型,如果分类模型收到了参与者的⼿动命令,基于神经⽹络的语⾔模型(DistilGPT-2)就会对有效句⼦重新评分,评分后最有可能的句⼦被⽤作最终的预测。
测试结果显示,参与者从⼀个1152个单词的词汇表⾥,能够以每分钟29.4个字符的速度⽣成句⼦,平均字符错误率仅为6.13%。在进⼀步的实验中,研究团队发现,这⼀⽅法可以推⼴到包含9000多个单词的词汇表中,平均错误率也只有8.23%。以上研究结果表明,基于拼读⽅法利⽤语⾳编码词汇⽣成句⼦的⽆声控制语⾔神经假体具有相当⼤的应⽤潜⼒。
未来,研究团队还需要继续研究该⽅法是否能在更多患者中达到同样或者更好的效果。