前一阵某品牌手机发布会上展示的语音输入功能“bigbang”在网络上爆红,而其背后提供技术支持的厂商“科大讯飞”正是一家从中国科技大学走出的高科技企业。讯飞为什么能“超乎想象”?其实,那是在“语音识别”的技术力量储备和开发,才能让大家都啧啧称奇。不仅语音输入,智能穿戴设备、汽车上的语音助手、普通话水平测试、还有智能机器人与人类的交流互动,那可都离不开语音识别这个大功臣。
就让钢铁侠和他的人工智能管家贾维斯来“现身说法”,讯飞的语音识别究竟做到了哪一步?
众所周知,钢铁侠托尼和他的(前任)好基友Javis之间的关系那叫一个瓷实。每当妮妮遇到危险,第一个挺身而出的不是美队,不是寡姐,而是既逗比又可靠的人工智能管家Javis。老贾究竟是怎么拯救托尼于水火之中的呢?我们来举个例子。首先,托尼要用语音来“唤醒”老贾。
科学地说,语音唤醒就是通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。比如,当小白变成一只机器狗……我们设定“小白”为关键词,沉睡的小白就这样被唤醒了。更厉害一点的,比如讯飞推出的One-shot方案,即在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果。这项技术已经在讯飞的智能家居、车载语音助手等产品中得到应用。
搭载语音助手的车载能够瞬间被唤醒。懂了咩?
我们再来说语音识别。“叫醒”老贾后,他不理解你说的是啥,现场照样game over。作为一个(虚拟)机器人,Javis需要对托尼下达的每一个指令作出识别从而才能进一步地判断和执行。短短一瞬间,Javis的脑子里是这样的,so cool so复杂……简单地说,语音识别就是机器通过对语音数据和文本数据进行分析,从而建立模型,对一些标准性语音形成理解。
之后,在听到语音指令的一刹那,通过前端模块运作(语音信号处理、语音特征处理),再通过解码,机器就可以完美地听懂你说的是啥啦。
【飞飞:要是我说的不是普通话呢?】年轻人,你这个想法很有意思。不过,我们有意思的讯飞,也已经完美地解决了你这个问题。在语音识别的技术层面,讯飞还实现了个性化识别和方言识别。个性化识别,指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。
举个例子,当萌萌的大白遇上新词“小宏”:当用户再次使用,它就可以准确地识别出“小宏”。方言识别就更好理解了,还是请出萌萌的大白:恩,除此之外,这些识别功能在离线的状况下,都是可以用的。离线也可以用!
集成了这些功能,我们再来模拟一下妮妮和前任Javis的场景——【你看,想当钢铁侠是不是很容易?】对学术理论感兴趣的,可以点击“阅读原文”查看论文。来源:科大讯飞。科大讯飞起源于中国科技大学。
在国家863计划的大力支持下,中国科技大学以语音合成为主的语音技术达到了国际领先水平,并在此基础上于1999年组建成立安徽中科大讯飞信息科技有限公司。并与中国科技大学、中科院声学所、社科院语言所成立联合试验室,将各领域的局部优势整合为民族语音产业的整体优势,极大地推动了语音技术的发展。