闹市中的科学问题

作者: 石晶

来源: 中国科学院自动化研究所

发布日期: 2018-04-03 07:30:00

本文介绍了鸡尾酒会问题及其在计算科学中的挑战,描述了人类在复杂听觉环境中的注意力选择能力,并探讨了科学家们为解决这一问题所提出的各种方法,特别是深度神经网络的应用。文章还提到了中科院自动化所听觉模型与认知计算团队的最新研究进展,展示了未来在复杂环境下处理语音问题的可能性。

在一个普普通通阳光明媚的下午,你独自走在街上,前面有两个人,他们正在讨论着附近新开的一家便利店。突然,身后传来了一阵急促的狗叫声,你赶紧回头看看是怎么回事。这时,街道的那头传来了警车的鸣笛声。过了一会儿,你晃过神来,发现狗的叫声似乎并没有停歇,而行人的讨论声依然还在耳旁,警车的鸣笛声渐行渐远。你也许还没有意识到,其实你刚刚遇到并轻松完成了一个困扰计算科学半个多世纪的难题——鸡尾酒会问题。

鸡尾酒会问题(cocktail party problem),是英国认知科学家 Edward ColinCherry 于1953年在研究注意力机制时提出的。它指的是人类在复杂听觉环境下的一种听力选择能力。在多种声音出现的情况下,人可以把注意力集中在某一个声音刺激上,而忽略其他的背景声音。也就是说,人类可以集中在某一个人的谈话之中,而忽略背景中其他的对话或噪音。

事实上,面对复杂环境的听觉注意力选择能力是人类听觉系统表现出来的一项惊人天赋。鸡尾酒会效应的产生机制虽然复杂,但对于我们人类来说,在多个声源之间转换注意力是一件非常轻松的事,以至于我们甚至感受不到这个过程的存在。然而,对于我们的计算机或者各种智能设备来说,如何在复杂的环境中选择想要听的声音,这就是一个很大的难题了。

针对这个问题,科学家们一直在进行分析和研究。在过去60年中,科学家们针对鸡尾酒会问题提出了很多的方法。大致可以形成这三种不同的流派:基于信号处理的方法、基于规则的方法,以及基于分解的方法。然而,这些方法却依然受限于其各自理想情况下的假设,或者较为稳定的数据条件。对于计算系统而言,真正较为复杂环境下的听觉选择仍然难以得到理想的效果。

幸运的是,随着技术的发展和数据的积累,深度神经网络的方法也开始在解决鸡尾酒会问题的领域大显身手。鸡尾酒会问题旨在从被干扰的语音信号中分离出有用的信号,这个过程能够很自然地表达成一个监督学习问题。深度神经网络作为当前监督学习最有力的一种方法,可以被用做学习一个从带噪原始数据信号到分离目标(例如理想掩蔽或者感兴趣语音的幅度谱)的映射函数。日前,中科院自动化所听觉模型与认知计算团队在这方面有了新的进展。

科研人员提出一种听觉注意性选择模型,将鸡尾酒会的问题聚焦在“注意力”这一关键和出发点上。科研人员让这个模型分别完成“主动倾听”和“被动刺激”两个任务。在执行任务的过程中,模型记录下好几个说话人的声纹特征,把这些声音都混合叠加到同一个频率通道上。然后让机器不断的去学习和提取这些特征,积累出丰富的知识经验,让机器根据这些信息去辨识和抽取出所自己所“感兴趣”的声音。

在中、英文两个公开语音数据集上的对比实验表明,这个听觉注意性选择模型在含噪音的多说话人听觉场景下具有更好的鲁棒性。这项研究为未来在复杂环境下处理各种语音的相关问题上提供了新一条新的通道。

想象一下,在不久的将来中,在嘈杂的地铁里,我们只要报上目的地就可以在售票机上准确快速完成购票;在响亮的电视机声音下,我们仍然轻松地指挥远处的智能机器人通过语音进行操作;在吵闹的人群中,我们依然毫无障碍地使用手机里的语音助手……这一切“声”机勃勃的精彩操作,都将可能不再成为我们的障碍。

UUID: 61438395-4eb7-4452-9d30-7f738add48c3

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2018/中科院之声_2018-04-03_闹市中的科学问题.txt

是否为广告: 否

处理费用: 0.0035 元