Google视角下的语音识别发展简史

作者: 林林

来源: 声学在线

发布日期: 2016-02-20

本文介绍了语音识别的发展历程,从1952年的贝尔实验室的第一个语音识别系统到现代的神经网络技术,探讨了语义理解和远场识别这两个主要挑战。

目前语音识别领域已经取得了重大进展,计算机可以将语音转换为文字,准确率已经超过95%。语音视频领域发展得如火如荼,越来越引起大家的关注。最近,不少读者朋友们提出,希望介绍一下语音设别的发展历程,所以笔者今天分享一段视频,让我们看一看Google眼中的语音识别发展简史,从中来窥见一斑。语音识别简史,视频版权属于Google。

以上,我们可以看出,从1952年的贝尔实验室研制的世界上第一个能识别10个英文数字发音的语音识别系统,到今天百家争鸣的语音识别系统;从隐马尔科夫模型到神经元网络,语音识别的发展可谓是日新月异。但是要想让计算机做到真正的与人自由交流,还有许多问题亟待解决。其中,两个难题首当其冲。首先是语义理解。计算机虽然能将语音转换为文字,但计算机并不能准确理解这段文字的真正含义。

因为文字的内容更加丰富,即使是同一句话,不同的上下文,不同的语气,不同的场景,不同的音调都会产生不同的含义。目前的语义理解主要还是基于大数据,例如微软的小冰、苹果的Siri、都是因为有着庞大的数据支撑。当他们遇到问题时,通过搜索的方式来获得最佳答案。换句话说,它们只能回答数据库里已经存在的问题,因此无法根据上下文给出最佳答案。例如:你对它说“小明的家在北京”,接下来你再问它“小明的家在哪?

”这样简单的问题,它们也是无法回答的。其次就是远场识别问题。目前,计算机将语音转换为文字,仅能支持近距离讲话的情况。一旦人与麦克风相距较远,有混响或噪声存在的情况下,语音识别率急剧降低。特别是,有混响的情况更对语音识别提出挑战。在这一点上,计算机与人有着极大的不同。在有适当混响的情况下,人反而感觉声音饱满,听得更加清楚。

目前,通用做法是利用麦克风阵列来解决这一问题,利用多个麦克风可以形成空间滤波器,这样就可以将人与噪声分离,同时还可以去掉房间的反射声,减弱混响的影响。但是,笔者个人认为这并不能从根本上解决问题。从理论上说,两个麦克风很难将两个及两个以上的声源分开,人虽只有两个耳朵,但以我们的个人经验,当周围有多个声源时,我们并不是把多个声源分开再进行语音识别的,而是将所有的声音一起送入大脑进行处理的。

因此,想要从根本上解决这个问题,需要让计算机有自学习能力,能够让计算机根据小样本数据调整深度神经元网络的节点个数及权值等,经过不断的学习与调整,使计算机能够真正像人一样理解语言。

UUID: 5681cc77-ef33-49b9-b463-667786c6bf89

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/赛先生公众号-pdf2txt/2016/赛先生_2016-02-20_视频 | Google视角下的语音识别发展简史.txt

是否为广告: 否

处理费用: 0.0027 元