当不了钢铁侠,但我们可以拥有贾维斯

来源: 科大讯飞

发布日期: 2014-10-10 14:21:50

本文介绍了电影《钢铁侠》中的人工智能管家贾维斯在现实中的技术实现,包括语音唤醒和语音识别技术,并提到了科大讯飞在语音技术方面的贡献。

中科院之声

2014-10-10 14:21:50

TA操控着钢铁盔甲上天入地;TA会泡咖啡也能做重型武器;TA知天文懂地理偶尔也吐槽;TA就是托尼史塔克……的人工智能(AI)管家贾维斯(JARVIS)!《钢铁侠》系列风靡全球,主角托尼的人工智能管家贾维斯(老贾)也成为了最受欢迎的AI。它能听会说,能理解会思考,完美地执行着托尼各类语音指令。

现实虽然不如电影中那么科幻,但有一个听懂人话的“老贾”,也并非一个遥不可及的梦想。现在就让我们一起来看看“老贾”具备的那些逆天功能,哪些已经变成现实,又是如何实现的吧~

【语音唤醒】

电影里,只要托尼一声呼唤,老贾的程序便被激活。现实中,这项技术被我们称为“语音唤醒”。语音唤醒,是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。通过该技术,任何人在任何环境、任何时间,无论是近场(0.5米以内)还是远场(2~5米),面向产品直接说出预定义的唤醒词,就能让产品的识别引擎处于激活状态,从而真正实现全程无触控的全语音交互流程。

目前这项技术已经成功实现并应用。比如,你可以在手机屏幕关闭的情况下,对着语音助手说关键词,就能唤醒灵犀,随后可以进行进行拨号、短信、查询、打开应用等多种手机操作。

除了单独说唤醒词来唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果,我们称之为One-shot方案。该方案可以进一步简化人机交互的流程。比如直接通过语音“美的空调十八度”就可以将空调唤醒并同时实现“将空调温度调整至十八度”的语音操作,通过“打电话给张三”就可以唤醒设备并同时自动完成人名识别功能啦~

【语音识别】

把老贾唤醒之后,就可以跟它对话了。在电影里,托尼说的每一句话,无论语速快慢,声音大小,四周环境多么嘈杂,老贾都能“秒懂”。在现实中,让系统“秒懂”人话的技术也早已实现,并且把它广泛应用到手机、电视、车载等众多领域。机器都能作出识别,准确率能够达到95%以上。

那么这些神奇的功能是怎么实现的呢?好学的童鞋可以跟我们一起来了解下这项技术的原理~正所谓“识别一秒钟,线下十年功”。事实上,在极短的时间内,机器内的语音识别系统已经经历了一个极为复杂的分析过程。而为了使语音识别系统有能力、更精确的进行这个分析过程,同样也需要花大力气提前准备好模型等相关资源。

主流的语音识别系统框架图

在你发出语音指令后,目标语音首先被数字化并送入系统的前端模块。前端模块主要包含语音信号处理和语音特征处理两部分。其中信号处理部分是为了改善识别效果受环境噪声、信道畸变等因素的影响,而特征处理则是将输入语音进行某种符合语音识别需求的“转换”(可以理解为在托尼和老贾之间建立一套双方都懂的”编码“)。

总之,一个好的前端模块是提升语音识别系统鲁棒性(Robust音译,稳健的意思)的重要因素。

在确定了上述的语音特征处理等规则之后,我们还需要花很大的力气来教会老贾听懂托尼到底说的是什么内容(没人教的话,机器人可是笨笨的哦~),这个过程就是语音识别系统的模型训练阶段了。

在语音识别系统中,模型训练一般又分为声学模型训练和语言模型训练。其中声学模型训练是教会老贾学会“哪个字词发什么音、该怎么连在一起读”,有点像我们小学时候跟着老师读拼音的赶脚。而语言模型训练是教会老贾“什么样的命令或文字组合是合理的、更常见的”,我们通过将包罗万象的百科全书输入到老贾的“记忆”中并通过合适的方式引导它“阅读”,使得它成为一个“出口成章”的渊博机器人管家。

在完成后台的模型训练和输入语音的前端处理以后,我们就可以将他们一起送入语音识别系统的解码引擎了。解码引擎的工作是在一个巨大的网络里边进行搜索,这个网络由数亿节点及弧组成,并且里边已经糅合了前边所描述的声学模型以及语言模型信息,搜索出来的最优路径上所携带的信息就是对应的语音识别结果了。

解码引擎的运算效率至关重要,直接影响到用户体验。

没想到吧,让机器识别人话,背后竟蕴含着如此复杂的技术。而我们相信,随着科技的不断发展,拥有一个“老贾”指日可待~

来源:科大讯飞

科大讯飞起源于中国科技大学。在国家863计划的大力支持下,中国科技大学以语音合成为主的语音技术达到了国际领先水平,并在此基础上于1999年组建成立安徽中科大讯飞信息科技有限公司。并与中国科技大学、中科院声学所、社科院语言所成立联合试验室,将各领域的局部优势整合为民族语音产业的整体优势,极大地推动了语音技术的发展。

UUID: ddb05186-3eeb-4014-ba64-bd6087db73ed

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2014/中科院之声_2014-10-10_新知丨当不了钢铁侠,但我们可以拥有贾维斯 ​.txt

是否为广告: 否

处理费用: 0.0049 元