嘈杂的酒吧里,AI为什么听不懂指令?

作者: 孙雪聪(中科院噪声与振动重点实验室)

来源: 中国科普博览

发布日期: 2020-08-17 11:55:57

本文探讨了人类在嘈杂环境中的听觉选择能力,以及智能设备在这方面的不足。通过介绍中科院声学所的研究,展示了如何利用声学超材料和智能算法来提升设备的多声源定位与分离能力,从而改善语音交互设备的性能。

在嘈杂的酒吧里,AI为什么听不懂指令?不知道你是否有这样的经历,月底穷困潦倒的你中午走进人潮喧哗的食堂,正在心里疯狂比较哪个菜更便宜时,忽然听到五米开外某人的一声“咱们发工资了”,于是你理直气壮地对食堂大妈喊道:“加个鸡腿!”人的听觉为什么具有选择性?

说起人的听觉,有一个著名的效应——鸡尾酒会效应,它是指在喧闹的鸡尾酒会上,参会者大脑中的听觉系统可以将他的注意力集中约束在他感兴趣的谈话内容上,而自动忽略其他“无关”的噪声,即使周围环境非常嘈杂。然而,这种我们人类用两只耳朵就能搞定的小问题,对于智能音箱等语音交互设备来说,却并不是那么容易的。

人的耳膜并不是像麦克风一样是直接裸露在空气中的。

你的耳廓、头部、肩膀、躯干等身体部位对于声音来说像是一个“迷宫”,来自不同方位的声音需要从不同的入口进入,经历上述部位的一系列反射后最终到达“迷宫”的中心——耳膜,然后你的大脑就能感知到这个声音啦。由于声波所走过的路径不同,它们的频谱也会发生不同程度的修改。在这个“迷宫”的不同位置,仿佛潜伏着一群造型师(没错,就是让你又爱又恨的Tony老师),声波路过时总是难免被“改造”一番。

由于这些造型师们风格迥异、水平参差不齐,在大脑看来,这些声波就变得各有特色,所以很容易区分。

那么问题来了!能不能让机器像我们人一样,拥有能够分辨不同声音的能力呢?答案是肯定哒!前不久,中科院声学所的杨军研究员团队就提出了一种基于声学超材料的单通道多声源定位与分离系统,只使用一个带有超材料外壳的单通道传声器,即可实现三维空间中多个同时发声声源的实时定位与分离。研究成果发表在了综合类期刊Advanced Science上。

这种超材料结构+智能算法的组合,只用一个麦克风就能实现多声源的实时定位和分离。攻城狮们再也不用担心麦克风数量不够用啦!“蜂窝耳”的工作流程如下:来自不同方向的声波从外表面不同的位置进入“蜂窝耳”,经过不同的传播路径时被不同的造型师改造,被球心的麦克风接收;熟读《造型百科全书》的算法对接收信号进行处理,最终重建出它们的来波方向和声音的内容。

“蜂窝耳”(图片红框里)放在中间,周围均匀放置16个音响用于播放测试所用的声音。测试所用到的声音包括马路上的鸣笛声、动物的叫声、各种乐器声、人说话的声音等等。不过,这对训练有素的“蜂窝耳”来说就是小菜一碟啦。当空间中同时发声的声源不超过三个,定位与分离的准确率可以达到90%以上,耗时也不超过1s,是不是棒棒哒!

UUID: f8d24581-b697-4173-b27f-3a2ed1c9a676

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院物理所公众号-pdf2txt/2020/中科院物理所_2020-08-17_「转」嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?.txt

是否为广告: 否

处理费用: 0.0049 元