语言智能:从能听会说到能理解会思考

作者: 胡国平

来源: 科学大院

发布日期: 2022-12-25

本篇文章介绍了语言智能的进展,特别是语音合成、语音识别、机器翻译和常识推理等领域的技术突破。胡国平教授分享了科大讯飞在这些领域的研究成果和未来趋势,强调了语言智能在人工智能发展中的重要性,并探讨了智慧的本质及其对未来发展的影响。

前沿扫描

科学大院

2022-12-25 07:00:49

本篇推文根据中国科学院学部开展的“科学与技术前沿论坛”第100次会议内容整理编辑,报告人:胡国平,科大讯飞研究院院长,报告日期:2019年11月15日。

专家介绍:胡国平,中国科学技术大学工学博士,现任科大讯飞有限公司高级副总裁,科大讯飞研究院院长。担任中国人工智能学会常务理事、认知智能国家重点实验室主任、新一代人工智能产业技术创新战略联盟副理事长。曾获国家信息产业重大技术发明奖、国家科学技术进步奖各两次。其牵头研发的多项技术处于国际领先水平并形成了巨大的经济价值,为我国智能语音和人工智能技术及产业的开创和发展做出了贡献。

报告视频:非常荣幸有机会,来分享我们在语言智能或者说语音语言这方面的相关的成果,也非常感谢李院士的邀请和安排。我主要讲两个方面:一个是我们现在的语音和语言技术到底取得了哪些进展,从科大讯飞的角度来说;第二个,专门写了一些关于对认知智能技术的思考和对趋势的判断。

如果从人工智能和语言智能的角度来说,总体而言,所有的人的智能的模拟,学习都算人工智能的领域。语言智能特指跟语言相关的,包括语音、语义、语法等相关的一些技术,应该说语言智能是人工智能中的一部分,但也是非常难、非常关键的部分。

科大讯飞从2014年提出“讯飞超脑计划”,一直在做一件事情,就是怎么样让计算机从原来的“能听会说”进一步进展到“能理解会思考”。现在的“能听会说”,我们先说“说”的部分。

其实中国的语音合成技术,应该是处于国际领先的水平,在标准的合成的数据集合上,我们的语音合成的效果已经能在包括在Blizzard Challenge这个国际权威的比赛里面连续14年获得第一名的成绩。

我可以给大家听一下,现在语音合成的最新的比赛的结果:“这个周五上新,给大家推荐的是‘得到APP’的最新精品课——怎样成为压力管理的高手,做这门课的目的是两个:既要把心理压力形成的学历过程讲透,换一个角度来认识自己,同时也要给出一套经过科学验证的系统化的解决方案。”这个是非常有名的老罗的声音,叫罗永浩。

它是一个全自动构建出来的合成系统,应该说,现在这种偏叙述、偏讲故事的风格下的语音合成都已经达到非常好用的水平。我们的自然度达到4.5分。一般来说,标准普通话的播音员是5分,一般的大学毕业的人大概是4分,4.5分就超过了一般人说话的这个水平。

第二个是语音识别,语音识别在最近这5~7年技术的进步是非常之显著,这里举科大讯飞的这个例子,我们的语音识别听写错误率,连续7年每年相对下降30%左右,从原来的14.3%,已经下降到现在大概1.6%的水平了。换言之,识别率在大数据和深度学习的支撑下,识别率每年提升30%,现在从85%一路飙升到98%,这是面向听写。

面向转写,人与人这种自由交流的语音,从2015年左右,基本上我们的相关技术已经达到可用的水平。包括很多会议都有像“讯飞听见”的这些产品,能够实时把相关的语音变成文字,就像我现在说话的语速和内容现在的识别率至少到95%以上。这是语音识别上取得了非常大的进展,包括像讯飞输入法每天的使用次数都是接近10亿次的规模。

同时语音识别还在往更高难度的应用场景去迈进,虽然刚才说到正确率已经到了98%,但是在去年,很多机构都参加了叫“CHIME-5”的比赛,里面就特别定义了一个更难的任务,就是面向包括厨房、起居室这种非常自由的,甚至是交叠的场景里去完成识别的任务,科大讯飞整个系统虽然在四个项目都是第一,但是最好的识别率也只有54%。

所以语音识别并不是一个完完全全解决了的问题,它也是在特定的场景下能够比较好用,但是在更广泛的场景下还需要持续的研究。

机器翻译,也就是说把一个语言翻译成另外一个语言。这个就像刚才周明老师所说的,现在机器翻译确实超过大部分人翻译的水平,我们专门做了一个对比实验,拿我们的机器翻译去翻译四六级的翻译题,满分15分,考生的平均分大概6.5分,而机器翻译能得到12.8分,应该说超过了99%的考生。

在一个特定的翻译任务上,确实可以达到这种水平。像讯飞的翻译机,以我现在的英文水平,很多时候都会用到机器翻译来帮助我跟外国人交流,毕竟它会翻译得更native,现在的机器翻译已经达到这种效果。在去年的11月,我们做了一个科学的实验,让我们的机器去参加了全国的翻译专业资格测试,在相同的考试的时间,在一个特殊的考场,去参加考试。

我们的机器是自动先识别英文,识别完之后再把它翻译成中文,然后再用中文的语音合成出来,从评委的感受来说,我们的机器翻译的口译已经达到了英语二级的水平。这也是我们机器翻译在语音翻译上很重要的进步。

继续往前走的话,技术上其实分成很多类。比如常识推理,简单来说就是涉及到常识。我这边举个例子:“爸爸没法举起他的儿子,因为他很重”,请问谁重?“爸爸没法举他的儿子了,因为他很虚弱”,请问是谁虚弱?

其实6岁的小孩基本都能够回答出来这些问题。但是计算机怎么去回答这些问题?这涉及到常识,怎么样获取常识、怎么样利用常识去推理,这方面从计算机的角度来说难度还是非常大的,我们在2016年是拿了58.3%世界最好成绩,在2018年左右大概做到70%,但和人类6岁小孩,就能到几乎百分之百的这种水平相比,常识推理对机器来说,还是一个非常巨大的挑战。

继续往前走就是阅读理解,10万篇英文文章人读完之后写出一些问题,机器读完之后就回答这些问题,看看机器能不能跟人媲美。这个也算是一个突破,2019年的3月份我们提出来的“Bert+Daf+AoA”的模型,取得当时最好的成绩,而且是首次在两个关键的指标,EM指标和FE指标上都超过人类的平均水平,被评为是一个里程碑事件。机器在篇章的阅读理解上,已经达到和人类相媲美的水平。

我们拿阅读理解技术去做了一件事情,在2017年让机器用我们的阅读理解技术去读了53本医学的专业的书籍、几千万的电子的病例和相关的一些医学的论文,去参加了国家医师资格考试,最后考出来456分,满分是600分,分数线是360。最后在8000多安徽考生里面排名前100名,所以也是里程碑的一个事件。如果说按科学的角度来说,这个算是机器首次通过人类的行业准入考试。

考试能通过,一个方面确实是因为深度学习、大数据等方面有很大的技术进展和突破;另外一个具体的原因,也是因为这个600分是600个选择题,所以机器一定程度上占有优势。但换而言之,在医疗领域,其实很多问题其实就是选择问题,看到一个症状之后要去判断这是个什么病,应该要吃什么药,其实也是个选择性的问题。

我们这个“智医助理”的成果在2018年和2019年,也做了很多的实际落地的工作,帮助基层的医生,去判断基层的诊断过程到底有没有问题,要不要进一步去做复诊。技术落地的进展也是非常明显的,2018年10月份以来,我们已经提供了180万次AI辅助复诊的意见,有效的病例完成是非常的高。

更关键的是使得基层医生看病的准确率、合理判诊断的合理率从75%已经提升到了88%,所以也得到了很多主管单位、基层医生的认可。去年只是在安徽省的四县一区在试点应用,今年已经明确全省全部会上线这个系统,整个人工智能的自然语言理解相关的技术,实实在在地在相关的医疗领域发挥了重要价值和作用。

我把前面已经有的进展很简单地说了一下,但我更想说的是后面的趋势的预判。我作为讯飞研究院院长来说,其实我做的事情是“讯飞研究员的经纪人”。然后我就老去想他们做的这种产品、做的这种技术到底什么地方会有价值。所以我大概去做了几个预判。我后面一个个讲。

第一个,各个行业的认知智能其实还是独立研发的。讯飞承建了一个认知智能国家重点实验室,也就是智能语音、语言方面的国家重点实验室。在我们内部的分工上,其实就有一个叫人机交互的技术研究室,然后教育评测、教育智能、司法智能、医疗智能,他们几个组是独立工作的。他们会有少量的包括深度学习、知识自动构建方面一些共享。但是每个组是独立地去攻关相关行业领域的认知智能工作。

第二个是基于深度学习的语言智能还可以持续挖潜,虽然很多人都说深度学习有很多问题,但我个人认为,基于深度学习的语言智能还是有持续很长时间继续挖潜的机会。这是我在研究院里说过的,深度学习是支撑起第三次人工智能浪潮的本质的算法突破。虽然深度学习不能说百年一遇,但至少二十年一遇,换而言之我们可能不能奢望在二十年之内,会很快有一个像深度学习这样爆炸性的绝对起支撑作用的新算法突破。

所以相应的,我们认为深度学习的持续挖潜是个非常重要的工作。从持续挖潜来说,包括如何改进和定制模型的结构、如何使用更多的训练数据、如何进行多任务之间协调的训练。其实简单的说,多语种机器翻译就是典型的多任务的协调训练的一种有效的方式。以及如何能够扩展输入信息的维度,这些都是能够持续提升深度学习在相关的语言智能任务上的有效方式。

第三个就是人类已有知识的有效利用一定是研究的热点。

我举个例子,2018年两会期间习近平总书记访问了澳大利亚。语法上就都是对的,但是所有人稍微想一想就知道这句话肯定是不合理的,是一个假新闻。那这时候人是怎么知道的,因为人知道两会是什么意思,人知道习近平总书记是谁,人知道澳大利亚在哪,所有这些东西都会知道。或者我再举个更简单例子,给你一个苹果,你把它吃了,你把它削/扔/卖/烤了,你还剩几个苹果?

最简单的一个推理问题对于机器来说其实是很难,但是人已经整理了很多很多的知识。包括正义词反义词、WordNet、HowNet这些东西,怎么能够融入以深度学习为主框架的这套模型里面,这个是现在研究很重要的一个热点,包括讯飞也在做很多这方面的探索性的工作。

另外,其实从人已有的知识,或者从继续实际解决问题的角度,比较有效的一种方式我们叫“专家给出结果的框架”,变解答题为填空题或者选择题。

比如我们在做司法领域的这种认知,争议焦点的预测。什么叫争议焦点,就是辩方和控方,他们对于某一件事情的这种争议的焦点到底在哪,从两方相互的陈述中要去找到这个焦点,一定程度上是一个非常难的自然语言理解问题。但现在我们从技术的角度出发,处理的策略就是,请专家事先处理出来不同的案件类型中可能的争议焦点是什么。比如说离婚案争议的焦点很可能就是小孩的抚养问题。

那么就用这种方式就把它变成了一个填空题和选择题的问题,这样使得最后的效果会更好。当然还需要一些方法来修正,避免离谱错误。

第四个是“半”可解释性语言认知智能将热起。有老师提了一个叫可解释性语言认知的问题,确实深度学习不可解释。但是我把它加上一点,我叫“半”可解释性,什么意思呢?就是“从端到端”这种可解释性差,在实际落地的时候,很多专家、用户还是不能够接受机器识别的这一结果。

于是乎我们现在司法领域就做一件事,机器不仅给最后的结果,还把给出最后结果的一些过程也用机器深度学习的方式展现出来。比如说类似于右边的例子,这个案情的描述之后给这个结果,同时我们会说这是什么样的过程,涉案金额是多少,所有东西全部用不同的颜色把它区分开。专家对这个系统的可接受程度就会高很多,他也认为你有一定的可解释性。

第五个从相关关系到因果关系。

现在从深度学习、从我们现在所有统计模型来说,都是只有贡献相关,不知道因果,有的时候会乱推理。我这边也举了个例子,比如天气热和开窗户,很多时候经常一起出现,所以天气热会开窗户,天气热也可能也会吃冰棍。于是,如果从简单的贡献的角度来说,可能就会推理出来,开了窗户就应该吃冰棍,但实际上这是两件事情,因为没有任何的因果关系。

其实现在研究上有个热点方法就叫事理图谱,就是用一个事理逻辑上给出相关的知识库,去描述事件之间相互演化的规律和模式来表示事件逻辑关系,包括因果、顺程、条件、上下位等逻辑关系。下面举了看电影这个例子,看电影的流程网上订票,在线选座,买饮料、排队入场、观影点评,实际上是有个序列的,如何把这些事理图谱提前总结出来,并且应用在相关的一些逻辑推理的任务中,这方面其实还是有很多机会的,这个也是一个研究的热点。

第六个就是人机耦合(人机协同),是语言智能现阶段落地的重要的这个路径。我左边举的是我们作文评分的一个例子,现在真正的高考中其实已经用到科大讯飞的相关的智能系统,对高考的阅卷进行质检。它是怎么做的?一般考试,我们现在做法是机器先从海量的数据里面,找出最适合定标的集合,哪些学生的作文最有代表性,选出来,然后人工专家定标。定标完之后,机器再根据定标结果去完成全量的批卷。

同时全量批卷以现在的讯飞技术会挑出来大概10%左右的试卷,机器是拒绝评卷的,然后用人工来评,所以机器—人—机器—人耦合在一起的流程,使得最终作文自动评阅这件技术最终还是成功的落地应用了。

对于“高利害”的考试,甚至我们还要采取一机一评的方式。人机评卷分差大的,专家再进行仲裁,可以大幅提升阅卷的一致性。右边可以看到,因为有了机器的辅助、参与,使得人机的一致性,相比人与人的一致性,如果是2分这种分差能够从63%提升到92%,应该说是非常显著的,保证了考试的公平性和一致性。

我前面讲得非常快,是因为我还有一个非常希望分享的观察,或者说认识,就是关于智慧的本质的思考。

这是几个具体的汉语的例句:“这个人脾气像石头一样”“命如游丝”“哗啦啦下雨了”“父爱如山”,但是我们所有的人在看到这些句子的时候,其实脑袋里面一定不只是这些文字,在脑袋里面其实已经有浮想联翩,甚至有声音方面的印象和反应。“这个人的脾气像石头一样”,你肯定知道这个人的脾气不是像石头一样重而是跟石头一样硬。“急得像热锅上的蚂蚁”,为什么你就知道他是急的概念?

所以其实语言有个叫Grounding的问题,那时候“平头哥”刚出来时候,我对“平头哥”是啥不知道,于是我就搜了一下,先搜出来是左边的文字:又称蜜罐,是鼬科蜜罐下属的一种动物,平均体长98厘米。还是没概念,但当我去看了右边那张图的时候,我就大概知道“平头哥”是什么了,以及再去看了“平头哥”跟蛇去搏斗的那个视频的时候,对于“平头哥”有了更加深刻准确的理解和认识。

换而言之,我认为人类的智慧是基于多模态的,不是纯粹语言符号能够闭环自洽的。语言只是人类智慧的载体和表层,我们很多很多的语言,其实只是一个符号、一个记号代号,其实后面是我们对整个世界的认识和理解。

或者我们再说乌鸦。城市中生活的乌鸦非常之聪明,经过跟环境的搏斗或者适应,它能够做以下这样一些事情:它想吃坚果,坚果咬不碎,它会知道从高空把它扔下来会砸碎,但有的坚果太硬还是砸不碎,但它发现车轮可以碾压过去。但是如果是放在一般的马路上,车碾过,它去取的时候会非常的危险,于是它会把坚果扔在人行横道上,车在压过之后,等红灯的时候再去取。

从我们的人角度说,乌鸦就像是机器,乌鸦已经看懂了所有的东西,它知道同一个坚果扔下来,砸碎的还是那个坚果,它知道红灯,知道车的这种概念,似乎乌鸦能懂这些东西。但有时候想想,我觉得乌鸦不懂,乌鸦根本不会去做这么复杂的理解和认识。而且如果从进化角来说,城市中生活的乌鸦也就100年,也不会从基因层面有太多的这种进化。

于是我认为其实乌鸦掌握了一件事情,我定义为序列的预测,就是它通过整个东西的相关性,知道所有的东西出来之后,下一个东西会是什么。所以我认为智慧的本质之下可能会存在智慧的通式猜想,就是乌鸦具备这三种能力:第一,它有物体的感知,包括分割、对应的能力,刚才说被车压过的坚果还是那个坚果,它有物体的这种感知和分割。第二它有连续的、三维的空间的感知能力。

第三还有时间上的感知力,是单向的、连续的、匀速的,它知道这个红绿灯有多少秒,现在开始红了之后要多少秒才会变绿。大概那个时间段之后坚果会碎。

其实这三个能力是动物天生所具备的能力,也已经具有了相应的智慧。所以智慧通式可能是对于物体在三维空间加一维时间坐标体系下的序列感知、记忆和预测的能力。如果大家不认可这个通式,可以简单做个实验,大家可以想想我如果点一根火柴,拿这根火柴去烧你的头发,你自然而然知道头发会怎么样,去烧一个木头的话,木头会烧成什么样,点一根烟,烟会怎么样。所有东西,其实在你脑袋已经有序列预测和记忆的能力。

或者相反来说,对于无源之水,小孩子第一次看到一定会觉得很奇怪,序列的记忆和预测会提醒他,出现了异常的情况,然后他就会问,原来在中间水的里面有根水管,这样下一回看到就不会再惊讶。我们就时时刻刻在做序列的记忆、预测、修正,然后持续。包括从脑科学,学习和记忆,本身是大脑认知功能的基础。

所以最复杂的人类大脑的本身的智慧,也许存在大道至简的通式,就是多模态的序列预测的能力。简单来说,现在以人的能力可以知道,从这地方走出去,预计会经过楼梯什么的,其实你的大脑里面一直在工作,所以这就是我认为的智能的本质。其实这可能是很重要的值得研究的一个点。

我们现在已经经历了人工智能第三次的浪潮,我们认为第3.5次浪潮一定是语言智能。甚至我很多时候都在说这个观点,第三次浪潮能不能继续往前走的核心在于语言智能能不能真正有效地去实现更好的突破、更大的进步。如果说真正的再往前走,第n次浪潮就是智慧的本质的这个问题。

所以我个人认为的未来10年,得语言质量者得天下,我汇报的就这些,谢谢大家!

UUID: 86c52285-195d-40da-b9d7-eb32b1ed9263

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/科学大院公众号-pdf2txt/2022年/科学大院_2022-12-25_语言智能:从能听会说到能理解会思考前沿扫描.txt

是否为广告: 否

处理费用: 0.0322 元