偷看小电影要当心了?AI读心术将重建你眼中景象

作者: 吴非

来源: 环球科学

发布日期: 2018-03-13

两组日本科学家的最新研究展示了通过读取功能性磁共振成像(fMRI)数据,人工智能系统能够猜出你在看什么,甚至直接复原你脑海中的画面。这些研究展示了AI在图像识别领域的进展,但也揭示了其局限性,如对相似元素的区分能力不足。此外,研究还探讨了AI系统在符号、英文字母识别中的表现,以及未来可能的人机交互和神经义肢应用。

你是否曾趁着没人注意,偷偷看一些公众场合不会浏览的页面呢?在你看来,只要眼前的页面没有被另一双眼睛捕捉到,就没有人知道你在看些什么——的确,目前你是安全的,但两组日本科学家的最新研究,可能让情况有所变化。通过读取功能性磁共振成像(fMRI)数据,人工智能系统能够猜出你在看什么,甚至直接复原你脑海中的画面。

第一项研究来自日本御茶水女子大学的研究团队。最近几年,随着深度学习技术走上主流舞台,人工智能在图像识别领域已经取得了引人瞩目的进展。在此之前,研究人员已经通过监测大脑活动,再现了电影片段、照片、梦境的图像。但这些研究能处理的图像类型较为单一,或是只能从已经学习的图像库中进行选择。

御茶水女子大学的研究人员介绍道,他们的AI系统需要解决两大难题:首先,系统看不见图片本身,它需要从受试者的大脑信号中读出其眼中的画面;随后,它需要将图中的元素组成合乎逻辑的语句。当受试者在观察某幅图片时,大脑中产生相应的神经活动,而脑部血液流动恰好能间接记录下这些神经活动。研究人员使用fMRI扫描受试者脑部,测量血液流动情况,从而实现对大脑活动的实时监控。

这套AI系统需要通过两个步骤对受试者眼中的图像进行复原:首先是找出画面中的所有元素,例如“一个男人”、“冲浪板”、“海洋”;随后,AI需将这些元素组成语句,以前半句的元素为例,构成“一个男人站在冲浪板上,在海里冲浪”这样的画面。这两个步骤的实现,都离不开AI算法的核心:深度神经网络。神经网络需要通过大量的训练,以提升图像识别能力。

例如,谷歌的图像识别技术之所以能迅速步入商业化阶段,一个重要原因就是它动用了3亿张图片进行学习。

但在本文的情境中,大量数据的训练难以实现:fMRI过于昂贵,这使得研究人员难以获得动辄数十万份的扫描数据。研究团队的对策是应用预先训练好的图像标注网络,对图像特征与脑部活动之间的关系进行训练。此外,由于人眼常常同时捕捉到画面中的不同元素,因此AI需要从完整的fMRI数据中分离出不同的元素,将特定的脑部活动与特定元素对应起来。相比之下,实现特征分离的难度较低,因此所需数据较少。

这套AI系统识别图片的能力究竟如何?研究者在论文中通过6组图片进行了测试。结果,AI判断正确的有三组,分别是:“一个男人在球场上用网球拍打网球”、“一群人站在一起”以及“一只斑点狗躺在地上”。

此外,AI在另外三组图片的判断上出现了一些偏差:对于“一个男人在河里划皮划艇”,AI猜成了“一个男人站在冲浪板上,在海中冲浪”,水上运动是猜出来了,但背景也完全被替换了;对于“一只钟的特写”,AI给出的答案是“一只剪刀坐在地上”,可能是因为时钟指针岔开的样子确实有点像是剪刀;而最后一组图片“一座在树旁的桥”,被AI识别成了“一列火车在树旁的铁轨上行驶”。

通过这些案例可以看出,研究团队开发的这套系统在图片识别上颇有建树,但显然,对于相似的元素,它常常难以区分。对于AI的图片识别最终能达到何等水平,伦敦大学学院的Geraint Rees表示:“显然,当人们看见图片时,大脑中形成的信息足以建立起他们眼中的景象。”然而,有些人担心的是,fMRI只能对大脑中的活动“截屏”,但无法将脑中所有的信息一条不漏地记下。

这意味着在用这套系统提取大脑信息时,信息的数量可能会受到限制。

而在另一项研究中,日本京都大学的Yukiyasu Kamitani带领团队研发的AI系统,希望通过另一种方式窃取你眼中的世界:同样是应用fMRI数据,这套AI系统甚至能直接再现你看见的图像。多数神经网络通过两个步骤来实现对人脑信号的图像识别:首先是将大脑扫描的信号转换成算法可以理解的数据,随后通过这些数据重建受试者眼前的图像,或是确定他在看什么。前文介绍的研究,正是通过这两个步骤来实现转换。

不过,这种方法存在一个问题:在有些情况下,图片特征没法和脑部活动直接对应起来。这项研究的第一作者,日本国际电气通信基础技术研究所的Guohua Shen介绍道,为了避免该问题,他们开发了一套一步到位的系统:fMRI测出大脑活动后,绕过中间的转换步骤,直接通过脑部活动重建受试者眼中的图像。通过这种算法,系统甚至可以重现那些没亲眼见过、想象出来的画面。

研究人员表示,他们用6000幅图片以及相对应的fMRI数据对该系统进行了训练,而谷歌的图像识别系统则是动用了多达3亿张图片。获取上亿条fMRI的数据将十分昂贵,但如能增加系统学习的图片数量,其图像识别效果将取得巨大提升。为了测试该系统的实际效果,研究团队选取了8张图片,既有金鱼、猫头鹰等常见的动物,也有飞机、邮筒等人造物体,甚至还包括教堂的彩色玻璃。

测试结果如下方图片及视频所示,AI重构的图形像素与实际图形的形状相近,但颜色及细节有较多丢失,使得呈现出的图像仍较为模糊。

此外,研究团队还分别测试了该系统在符号、英文字母识别中的表现。相比于较为复杂的实际图像,系统对符号、字母拥有较强的识别能力。研究人员认为,尽管他们目前能利用的fMRI数据十分有限,但这些结果证明,通过这项技术准确复原受试者脑中的图像完全有可能实现。

“这种解码手段有可能用于将来的人机交互,”普渡大学的Haiguang Wen对此十分期待,“仅仅通过分析大脑信号,就能知道他在想什么,或是梦见什么。”他所在的团队,正试图通过AI算法“读出”受试者所观看的电影。期待也好,担忧也罢,“通过fMRI读取他人眼中世界”这样的想法已经足够让人感到惊奇。但对于一些科学家来说,这绝不是他们的最终目标。

相比于笨重的fMRI设备,他们尝试通过在头皮植入微小的电极,测得脑电波,进而用大脑直接控制机器。Facebook、埃隆·马斯克的Neuralink就致力于此。荷兰拉德堡德大学的人工智能学家Umut Güçlü认为,这项技术还有着更广阔的应用前景:“一旦这些手段能够可靠地解码出我们所思考、想象的内容,而不仅仅是读出眼中的图像,它将可能为神经义肢的发展起到重要作用。”

UUID: f4a3a6f6-5523-453a-85b5-0d955cce2347

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2018/2018-03-13_偷看小电影要当心了?AI读心术将重建你眼中景象.txt

是否为广告: 否

处理费用: 0.0057 元