大数据时代的智能音频

语音技术好像无所不在，真正融入了普通老百姓的日常生活当中。大家好，我是来自中国科学院声学研究所的李军锋，主要从事智能语音研究。今天和大家分享的题目是《大数据时代的智能音频》，主要是我在智能语音技术领域的一些研究和想法。

语音技术研究其实已经有了几十年的历史，直到现在，大家才对这个领域和技术有了更深入的了解。2010年，苹果手机上推出了Siri系统，让大家能够对着手机说话，实现了语音输入的功能。这是一个很简单的功能，但正是因为这个简单的功能，让语音技术走入了我们的日常生活。

我们国内的各大厂也紧随其后，开始做中文的语音输入。如果原来我们要查个东西，需要在电脑上打字来搜索，现在都可以通过语音输入来搜索。Siri和其他各大厂的语音输入法的应用，把人和机器的交互变得更加智能、更加简单。

但是，我们人类对美好生活的向往和追求是无止境的。所以下一个问题就是，如果我不是一直拿着一个手持式设备，而让它离得远一点儿，能不能实现类似的功能呢？其实在Siri推出之后，很多厂商已经开展了进一步的研究，研发不需要手持的设备。到了2014年，亚马逊就推出了Echo音箱。我们国内大概是在2016年开始爆发，大家可以看到，几乎所有我们能想到的大厂都开始做智能音箱。

现在的智能音箱，不仅能听会说，还要会看，有了带屏幕的智能音箱。不需要手持，可以离说话人三五米远就实现语音智能交互功能。据我了解，我周围的很多朋友家里都有很多个智能音箱，而且这几年智能音箱的价格特别低，所以大家都可以拿来试一试。

更有意思的是，很多厂商把智能语音技术用到了传统的家电行业。比如说智能电视、智能冰箱、智能空调和智能洗衣机，甚至还有人把智能语音技术用到了抽油烟机上。我们团队在2014年的时候，就率先和海信合作，推出了智能语音电视，实现了用户离电视机三五米远，也可以用语音来操控电视的功能。

现在我们已经感觉到，语音技术好像无所不在，真正融入了普通老百姓的日常生活当中。智能语音技术的核心，包括下图中的若干个大类。麦克风采集到的信号不仅是目标的语音信号，还包括各种各样的噪声、混响等干扰。如何从这种信号里把目标语音信号提取出来，这就是智能感知技术。

提取出来目标语音信号之后，会送给后面的语音识别，实现从声音到文字的转化。转成文字之后，需要识别这些文字是什么意思，这就是紧接着的自然语言处理。经过处理之后，在很多的应用场景里，比如想要查天气、查机票和订机票，这些都还需要大数据分析。大数据分析的结果会反馈成文字，如果要形成对话，还需要把文字变成声音的语音合成。这就形成了一个完整的智能语音人机对话的链路，也是目前很火的智能语音技术包括的所有核心技术。

我们这个团队成立于2002年，是由颜永红老师一手办起来的。最开始颜老师是做语音识别，经过20年的发展，现在我们逐步发展到了包括语音感知、语音识别、自然语言处理、大数据分析和语音合成等智能语音交互链路的所有方向。逐步成为了国内乃至世界范围内，在这个领域具有影响力的一支团队。

接下来我和大家分享一些我个人的小案例。对于语音感知技术而言，我们一直要解决的一个问题就是鸡尾酒会效应问题。大家可以先听一下这个声音。在这样一个很嘈杂的环境当中，对于人类而言，我们还是比较容易关注到我们想听的某个人的说话话音。但是，如何能让机器自动地关注到某一个声音，或者把某一个感兴趣的声音提取出来？这是非常难的，即使到今天，这个问题都没有被很好地解决。

不过，这不是说这个问题不解决，我们就无能为力。其实在比前面听到的内容稍微容易点的情况下，语音感知技术还是可以使用的，这种情况更多些。我们再听一个在噪声环境中麦克风采集到的声音。我们可以听到有很多的噪音，问题就是如何把噪音去掉，而不影响这个目标的信号。经过人工智能处理之后，我们可以听到，利用现在的人工智能技术，我们已经基本上能够把很多的噪声处理掉了。

这个技术有许多应用的场景。一个是语音会议系统，大家知道疫情中很多会议都已经改成了线上的会议。在所有的会议系统里，这个技术都是刚需。另一个应用场景就是助听器具，主要有助听器和人工耳蜗这两大类。在这里，我和大家分享一个亲身经历过的故事。几年前，我们和一个助听器巨头公司合作，在助听器里放入了一套降噪算法。做了很多研发之后，最后一步需要做临床，我们是在北京的医院做的，招募了21个病人。

病人要来医院好几次，第一次要取他的耳模，取了耳模之后，就会给他定制助听器。我们把原来的算法放进定制的助听器里，并且发给他一个问卷调查，让他来进行评价效果怎么样。一段时间之后，他还要来医院，这次再把我们的算法放进去，在同样的场景里再进行评价。这个时间跨度非常大，很多时候都是学生在负责接待，具体做这个事情。我自己也去过几次。

在我去的有限的次数里，正好接待到了一位老大爷。他住在北京的西红门，当时70多岁，原来一直戴助听器。用了加入我们技术的助听器之后，他再去的时候非常激动。他告诉我，戴上我们的助听器后，他终于可以看新闻联播了。之前他虽然一直戴助听器，但听不了新闻联播说的话。他非常激动，我也非常感动和欣慰，我们做的东西终于能帮到他们了。

另一个比较有意思的事情是，前几年一个朋友找过我，说他们要做一件事情：做二次元。当时我感觉挺不好意思的，因为我都不知道什么叫二次元。他说：将来年轻人的社会就是二次元的，这个二次元要有形象。现在虚拟主播已经很火了，但当年还是没有的。我们需要给这个二次元的形象配上声音，配的声音其实不是录制的，而是计算机合成出来的。

目前用了人工智能技术之后，合成的声音能做到什么样子？我们先听听下面这个男声。下面这段声音中还是同样的话。大家可以猜猜，这两段声音哪一个是真正录的，哪一个是合成的声音？其实第一段是真人录音，下面这段是合成声音。大家会发现，现在计算机的AI技术做语音合成已经是惟妙惟肖。不管是男声、女声，合成的音频在音质、韵律等方面都非常逼近人声，这就是语音合成。

当然，语音合成太逼真会带来另一个问题。问题是什么呢？

我们来听听下面这一段声音。相信大家听到这段音频后，都会知道这是单田芳老师讲的《白眉大侠》。我是从小听着单田芳老师的评书长大的，只要听到他的一声咳嗽，就能知道是单田芳老师。现在的问题是，机器能不能从声音里判断出来呢？答案是：机器是可以判断出来的。因为在一个语音信号里，不仅有内容信息，也就是说话人说了什么，还能识别是谁说的。这项技术就叫做声纹识别，或者叫说话人识别。

语音合成做得越好，给声纹识别带来的挑战就越大。声纹识别有什么用呢？很重要的一个应用就是防范电信诈骗。现在大家都知道有很多电信诈骗，他们打电话说些假话来骗钱。我们就可以用声纹识别来抓这些坏人，这是声纹识别一个很有意思的应用。

去年疫情爆发之后，有一天我突然接到一个朋友的电话，他说：“你最近忙什么呢？哪一天见见？我这信号不好，你能听到吗？”我说：“还行还行，能听个七七八八。

”他说：“就是信号稍微不好一点儿吧？”其实他是和我开玩笑，是戴着口罩说的。于是他把口罩一摘，又问：“现在信号好了没有？”我说：“现在信号好了，听清了。”其实和信号无关，就是他戴了口罩和没戴口罩的区别，影响很大。当然，他找我就是想做一下戴口罩对语音信号的影响，我们当时做的还不太多。

这张图是美国的一个科研院所做的口罩对语音影响的研究结果。他们分析得非常详细，分析了很多不同种类的口罩对语音信号的影响。

从这张图上我们可以看到，戴上口罩对于语音信号的高频部分的衰减是比较严重的。从2000赫兹开始，衰减就比较严重了。我们平常打电话交流，语音都是在300-3400赫兹这个频段。如果2000赫兹以上衰减就比较严重，可以想象到你听到的声音质量肯定就不好了，就会听不太清、听不太懂了。这会对很多智能语音应用有很大的影响。比如家里买的智能音箱，不戴口罩好像都管用，一戴上口罩发现都不管用了，因为语音信号全变了。

另外，我小时候去医院的时候，医生都要求把衣服撩起来，用听诊器来听心脏的跳动。如果你咳嗽了，还要听听肺有没有问题。医生们都是凭着几十年的经验来判断的。我们要做的事情就是，能不能用人工智能的技术来智能地判断你是否有心脏病？是什么样的病？大家先听听正常的心脏跳动的声音是什么样的。我们再来听一听有问题的心脏跳动的声音。所以，从听心脏跳动的声音，能够判断我们的心脏是否出现了问题。

医生也是这样判断的，如果声音变了，心脏可能就有问题了。

于是，我们用AI技术对医生的经验进行量化，做了一套智能化的心脏诊断系统。最后和大家分享的是去年我自己没事的时候一直在琢磨的一件事情，与抑郁症相关。为什么呢？因为去年我的一位朋友突然抑郁了。本来我一直以为他就是不高兴、不开心，可能过几天就好了。结果过了一段时间，专业的大夫诊断他是重度抑郁，每个月都要去医院，拿很多的药回来。我发现自从他抑郁之后，真的很大程度上影响了工作、学习和生活。

我就一直在想，他这样的抑郁症该怎么治疗呢？在和他交流的过程当中，他还给我提供了一些信息。他说晚上有时候是睡不着觉的，就听一些有声小说之类的，有一些声音对他有缓解作用。我心想自己就是研究声音的，就马上联系了北京的一些大夫，还有相关的科研人员。我带着这位朋友跑了几个医院，还有专门做相关研究的地方，在其中一个医院专门有这样的诊室，里面有各种各样的乐器。

医护人员把所有的乐器都搬出来，让他试了一遍，看看哪一种声音对他有舒缓、疏解的作用。

当然，我相信在整个抑郁症的治疗康复过程当中，只有声音也许是不够的，还需要其他的手段。但声音在这个过程当中，也起到一个非常重要的作用。我希望解答的问题就是，能不能先用包括声音在内的多模态的信息对他这样的抑郁症患者进行初筛，然后再用AI技术做一个定制化的康复治疗方案，哪怕是声音的治疗方案也可以，来帮助他们尽快地回到正常的生活状态。我的分享就到这里，谢谢大家！