AI怎么啥活都接,还帮忙开发“读心术”?

作者: 刘思琪

来源: 果壳

发布日期: 2023-10-25 20:03:16

脑机接⼝技术通过读取⼤脑电信号,帮助感官或肢体运动能⼒受损的病⼈恢复相关功能,并实现了“想象说话”向⽂字的转化。该技术分为⾮侵⼊式、半侵⼊式和完全侵⼊式三类,侵⼊越深,信号越准确。研究显示,通过脑机接⼝,瘫痪患者可以控制机械臂,盲⼈可以产⽣视觉。最新研究使⽤微电极阵列和ECoG,实现了每分钟62个词和78个词的转化速度,正确率分别达到76.2%和74.5%。

我喜欢骑⾏,骑⻋时经常会冒出⼀些灵感,或者忽然记起⼀件没做的事,或者想记录沿途⻛景所⻅所感,但腾不出⼿打字……我想过骑⾏之前打开录⾳机,有什么想法就对着⽿机说出来,然后再将录⾳转成⽂字,摘取有意思的部分整理到笔记本⾥。但是,抛开路上有噪⾳和⻛声不说,把所有想法都说出来真的很社死诶,如果说旁边⼈的坏话被听到怎么办!还有,录着⾳就没法听⾳乐了,那骑⻋还有什么乐趣!

(不是)那么,有没有⼀种可能性……可以在脑海⾥默默“说话”,电⼦设备直接识别,转为⽂字呢?还真的有。脑机接⼝,宛如“读⼼术”的科技要说最接近“读⼼术”的科技,可能就是脑机接⼝。脑机接⼝(brain-computer interface,BCI)是指,通过⼀些装置,在脑和外界设备之间建⽴联系,将脑的指令传到电脑并进⾏解读;或者将电脑中的信息变成可以解读的信号传给⼈脑。

这类系统可以帮助感官或肢体运动能⼒受损的病⼈恢复相关功能。例如将摄像机拍到的画⾯转为脑电信号,帮助盲⼈产⽣视觉,或者读取瘫痪病⼈的脑电波,控制机械臂进⾏操作等。瘫痪患者⽤脑机接⼝控制机械臂⼁Johns Hopkins Medicine我们做任何动作、发任何声⾳,都是由⼤脑控制的。⼤脑⽪层的不同区域会控制不同肌⾁的动作。想要⾏动时,⼤脑通过电压变化发出指令,这种电信号通过外周神经传到相应肌⾁。

电信号不同,肌⾁产⽣的变化便不相同。输出式脑机接⼝正是利⽤这些特征,读取⼤脑产⽣的种种电信号,对其进⾏解读,从⽽转化为语⾳、⽂字、机械臂动作等表现形式。⽽输⼊式脑机接⼝,则是对⼤脑特定部分进⾏电、磁等形式的刺激,例如将拍摄画⾯转化为电信号,刺激失明⼈⼠⼤脑相关区域,产⽣视觉。脑机接⼝分为⾮侵⼊式/⽆创、半侵⼊式/微创和完全侵⼊式/有创三类。侵⼊越深,测量的信号就越准确、噪声越⼩。

⾮侵⼊式/⽆创:基于脑波(EEG)、脑磁等信号的系统,由于传感器放在头⽪上便可以采集信号,所以属于⾮侵⼊式。半侵⼊式/微创:基于⽪层脑电(electrocorticography,ECoG)的接⼝需要将传感器插⼊头⽪,在⼤脑⽪层上采集信号,对使⽤者有轻微创伤。完全侵⼊式/有创:完全侵⼊式传感器在⼤脑⽪层内采集信号,因此需要植⼊⼤脑⽪层,创伤较⼤。

例⼦有基于局部场电位(local field potential,LFP)的脑机接⼝。图⼁Nature需要注意的是,脑机接⼝⽤于“读⼼”的前提是,⼤脑相关功能区域没有受到损伤。例如脊柱受伤导致瘫痪的病⼈,⼤脑可以正常⽣成使⼿臂运动的命令,但因为信号传播会在脊柱中断,所以⼿臂⽆法响应命令。

如果是⼤脑损伤导致的障碍,脑机接⼝就不适合⽤于“读⼼”,但可以⽤于康复,⽐如通过向⼤脑提供输⼊和反馈,刺激⼤脑恢复⼀些神经功能。想法转⽂字:如何更快更准更⾃然?通过脑机接⼝“读⼼”的研究始于上世纪80年代,主要是为了帮助因中⻛、渐冻症等疾病或意外,丧失说话及打字能⼒,但⼤脑相关功能区完好的⼈群。

1988年,伊利诺伊⼤学厄巴纳-⾹槟分校的Donchin教授团队发表⽂章,分享了⼀种基于字⺟打字的脑机输⼊系统。这个体系把26个英语字⺟和⼀些功能键(如空格、删除、输⼊完成、取消)排列成⼀个6×6的⽅阵。使⽤者将注意⼒放在想打出的字⺟上,电脑依次尝试某个⾏或列是否包含其想使⽤的字⺟。如果选择正确,使⽤者的头⽪上会产⽣⼀个特定的脑电波EEG特征。这样⼀个⼀个字⺟输⼊,全部输⼊完成后再合成语⾳。

排列⽅阵示意|Khanna et al. 2011但是这种情况下,仅仅打出五个字⺟的单词,想要达到80%准确率需要花20.7秒,达到95%准确率要花26.0秒。⽽正常英语对话每分钟⼤约说160词,相当于每秒说两个词以上。仅凭拼写合成对话,速度⾮常缓慢,实⽤性⾮常有限。另⼀种⽐较成熟的体系是通过想象⼿、⼿臂、脚等身体部位的动作,指引光标向上下左右移动,确认输⼊字⺟。

例如纽约州⽴⼤学的Wolpaw教授团队于2000年发表的⽂章,就分析了想象身体部位运动时的EEG,并指出这些特征可以⽤于脑机接⼝开发。2021年,斯坦福⼤学Francis Willett等研究员发⽂报告,让瘫痪患者试图动⼿写字,通过脑机接⼝读取这些动作指令的不同特征,对应不同的字⺟。

这个⽅法的转化速度能有每分钟90个字符,约合18个英语单词;准确率⾼达94.1%,如果加上⾃动纠错,甚⾄能达到99%。“想象⼿写转⽂字”示意图⼁Erika Woodrum/HHMI/Nature然⽽,⽆论通过意识选择字⺟,还是⽤动作想象输⼊,这些⽅式都在模仿打字⽽不是说话,处理速度太慢、思维⽅式太不⾃然。

AI赋能⼀切,包括想法转⽂字今年8⽉发表于《⾃然》杂志的两篇研究,则分别使⽤侵⼊式的微电极阵列(microelectrode array)和半侵⼊式的ECoG,实现了“想象说话”向⽂字的转化,且正确率达到四分之三左右。为了张⼝说出⼀个字,⼤脑要做出⼤量努⼒,发出⽆数指令,指挥嘴唇、⾆头、喉咙、下颌进⾏复杂的协同⼯作,才能发出正确的声⾳。

⼤脑就像交响乐队的指挥,指令畅通⽆阻,底下的乐队才能奏响动⼈的旋律。⽽许多疾病可能使⼈丧失清晰说话的能⼒。斯坦福⼤学同样以Willett为⾸的团队,在⼀位渐冻⼈症患者Pat Bennett脑部植⼊了微电极阵列。这些电极埋在⼤脑⽪层以下⼏毫⽶,能够精准测量脑电信号。接着,研究者让Bennett试着说各种字句,记录相应的脑电信号,然后⽤这些数据进⾏深度学习。

Pat Bennett在研究中|Steve Fisch项⽬分析了两个数据集:⼀个⼩数据集只有50个单词,程序只训练这50个单词,测试时也只让程序在这个范围内辨认。训练后的程序正确率达到了91.9%。⽽⼤数据集包括12.5万个单词。经过训练,正确率也有76.2%。处理速度⾼达每分钟62个词,虽然还只是正常说话速度的1/3左右,但已经远胜于之前的研究。另⼀篇⽂章由加州⼤学旧⾦⼭分校的团队发表。

他们的受试者Ann在18年前患脑⼲中⻛后失语。他们在Ann的⼤脑⽪层植⼊电极(ECoG),记录了她试着说249句话(共使⽤1024个词)时的⽪层脑电信号,⽤来训练机器学习模型。这个算法的原理就像ChatGPT,会⼀边识别她的神经信号对应着什么声⾳,⼀边尝试预测后⾯紧跟的⾳节和单词。结果是,正确率为74.5%,平均速度触及了每分钟78词。

Ann通过脑机接⼝“说话”,并⽤数字化身做出快乐、悲伤、惊讶等“表情”|NOAH BERGER虽然后者使⽤的单词库⼩,数据集⾥只有1024个单词,所以靠“盲猜”正确率也能更⾼⼀些,但是ECoG侵⼊性低于微电极植⼊,因此也有很⼤价值。

虽然两篇⽂章都只使⽤了⼀名受试,针对其脑电“定制”了机器学习模型,但它们证明了脑电转⽂字的概念是可⾏的,⽽且通过记录⼤脑表⾯⼀个⾮常⼩的区域的电活动,就⾜以解码语⾳信息。研究⼈员⽬前还在努⼒开发⽆线版本,如果能够不必被“电线”束缚,患者的⽣活质量必然还会有极⼤的提升。⽽能够造福障碍者的科技,往往也会慢慢向外“溢出”,顺便改善了健康者的⽣活。

也许在不远的将来,我们戴上⼀个头戴⽿机⼀样的设备,只需想象⾃⼰在说话,就可以输出⽂字了呢。

UUID: 670efbd0-67c1-40a8-9dd4-73fc4ab3423b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2023/果壳_2023-10-25_AI怎么啥活都接,还帮忙开发“读心术”?.txt

是否为广告: 否

处理费用: 0.0107 元