这几天北京阴雨连绵,我骑着自行车赶路,车轮打滑,还好我反应快,一把把把把住了。咦?这道中文8级题目,翻译成英文是怎样的?嗯,这个机器翻译的还可以。那么下面这句呢?小龙女对杨过说:我想过过过过过过的生活。即便机器翻译已取得了巨大的进步,但在丰富的人类语言面前,难免词不达意。那么,全自动、高质量的机器翻译离我们还有多远?未来的突破口在哪里?
9月6日,第六期AI Time邀请了中科院自动化所研究员、国科大岗位教授宗成庆,北京外国语大学高级翻译学院教授、副院长李长栓,苏州大学特聘教授、计算机学院副院长张民,小牛翻译创始人、东北大学教授朱靖波,清华大学计算机系长聘副教授刘洋五位重量级嘉宾,一同论道机器翻译的突破点及未来。AI Time是一群关注人工智能发展,并有思想情怀的青年人创办的圈子。
AI Time旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造成为北京乃至全国人工智能知识分享的策源地和聚集地。机器翻译是自然语言处理非常重要的应用,它的出现早了人工智能十几年。1949年左右,美国提出用刚刚造出来的计算机将俄文翻译成英文,机器翻译就此诞生。机器翻译的任务是实现自然语言全自动、高质量的翻译,它的历史大体可以划分为两大阶段。
规则驱动机器翻译阶段60-90年代中期,这一阶段主要是由人类专家观察语言规律,把它描述成规则,让机器照着规则进行翻译。数据驱动机器翻译阶段90年代以后,互联网出现以后,数据驱动方法蓬勃发展,这一阶段又分为两个时期。统计学习驱动机器翻译,现有统计方法中比较经典的模型,叫做隐变量对数线性模型,它的特点是要设计特征:中间X代表输入,Y代表输出,Z就代表中间的语言结构。
但语言实在太复杂了,穷尽人类的智慧也难把这个特征设计的非常全。其中一个难点被称之为“调序”。中文经常有大范围的“调序”,比如“美国总统布什昨天在白宫与以色列总理沙龙就中东局势举行了一个小时的会谈”。这是一个典型的介词短语和动词短语的组合,在中文中先说介词短语,再说动词短语,但在英文中都是反过来,所以传统的方法很难处理好长句之间的依赖关系。
表示学习驱动机器翻译,深度学习出现的主要意义在于它可以从数据中自动提取表示,我们不需要像以前一样设计规则、特征来描述规律,只需要设计一个网络,让机器自动地从数据中寻找表述。深度学习的出现,使机器翻译的效果有了质的提升。它的应用范围越来越广,并逐渐渗透到我们的生活当中。那么,机器翻译是否会取代人类?其长短板分别是什么?宗成庆教授认为:机器翻译替代人,至少在可预见的未来,可能性不大。
尤其是一些专业领域内,其现有品质想超过高水平的翻译人员,几乎是不可能的。张民教授对宗教授的观点进行了补充,他指出:机器翻译在大规模快速、不需要特别高质量的场景下,可以代替人做一部分工作。但要求高质量、全自动的‘信达雅’翻译结果,除非是特别窄的领域,否则短期内依靠目前的技术是不可能实现的。“从学术角度讲,机器翻译里的词汇语义、句法、篇章、指代、背景知识层面都存在问题。
机器翻译取得了巨大的进步,但离解决问题还很远。”高翻院的李长栓教授赞同以上观点,同时补充道:“机器翻译虽然准确率只有50%,那也是提高了50%的生产力。”朱靖波教授提出了不同的意见:机器翻译弥补了人工翻译无法胜任的应用场景,有些时候机器翻译是唯一的选择。他举例道:通常假设翻译人员的结果完全正确,而技术想要超过100%去达到101%的正确率,这在真理上是无法超越的。
但是机器翻译在大数据之后蓬勃发展,并非要取代人类,比如国家知识产权里几百万个专利文档,只能利用机器翻译,非人工所为;再比如身在国外,人工翻译不可能随时在身边,只能利用机器翻译,这都不能算是代替人工翻译,而是去弥补人工翻译干不了的应用场景。亟待解决的技术痛点,“手眼通天”的机器翻译也有捉襟见肘之处。在微信、词典等翻译服务的使用过程中,时有“故障”发生。比如,下面这个句子。
“You share rose get fun=鱼香肉丝盖饭”???既然机器翻译的表现有待提升,那么哪些问题是最为主要的?哪些技术痛点是亟待解决的?各位嘉宾专家发表了自己的看法。背景信息的理解,李长栓教授根据自己的专业经验,归纳了机器翻译中遇到的主要问题。机器翻译以句子为基础,缺乏宏观思维,无法考虑上下文逻辑。此外,机器翻译只进行语言形式的转换,不关注意思的传递,除非原文形式和意义统一。
专业翻译会补充隐含的背景信息、识别冗余信息、纠正原文瑕疵,这是机器翻译没有办法做到的。朱靖波教授纠正道:“机器翻译有能力解决一词多义和结构歧义的问题,这是我们技术研究的关键点,现在做的不好,不代表之后解决不了。”模型不够智能,宗成庆教授指出:现在的模型还不够智能,即使给足了样本也学不出来。“目前机器翻译最基本的假设,是收集足够的样本,机器翻译用到的知识能够从这个样本里学出来。
基于这个前提,我要收集大量的双语对照,去跑模型,调试参数,达到最好的状态。“但这个假设本身有问题。第一,即使有足够多的样本,模型也未必能学出来;第二,人在日常翻译,不依赖于有限的样本。例如transformer,你给小孩玩具的时候是变形金刚,在电力系统是变压器,在改革开放中是改革者,人可以基于无限的样本进行翻译,机器却无法区分领域。
”超脱领域、收放自如的人类翻译,缺乏大规模的语料数据,人在做翻译时,绝大部分时间都花在了背景理解上。目前很多语种之间缺乏数据资料,翻译公司也不愿意将积累的数据分享出来。机器缺乏大规模的知识驱动,很难形成高品质的翻译系统。张民教授指出:“目前所有机器翻译建模的方法都是句子对句子,而且把它看作是纯数学的影射。
本来翻译句子要根据上下文理解,而且逻辑分析清楚了才行,但有些情况下,机器为什么也可以翻译出复杂的文本?“因为原有的例子里已经有这个结构了,所以它影射了出来。如果原来没有,就影射不出来。这种影射在训练语料中又不那么充分,所以从机器翻译的角度来讲,这是一个亟需解决的问题。”未来的突破口在哪里,范式与思维方法上,要产生突破,必须有范式上的更新。
刘洋教授认为现在的“标注数据+统计模型+机器”的范式下,数据是永远不够的。突破口是找到非常好的策略和方法,充分利用海量的未标注数据,从数据中挖掘知识,努力实现从数据驱动到知识驱动的范式跃迁。以多种形式,灵活表达句意,技术应用与产业发展上,从技术应用和产业发展来讲,要面向特定的任务、特定的用户、定制特定的系统,根据目标用户的需求和领域,进行有针对性的定向开发。
这是推动整个技术真正走向实用的比较可行的路线。学术君觉得,机器翻译的前景十分光明,也大有可作为之处。在应用性比较强的领域,我们期待机器翻译一展身手;在娱乐性、互动性强的领域,学术君更希望看到人类翻译的出色表现。你觉得呢?AI Time长期招募志愿者,欢迎志同道合的小伙伴们与AI Time共同成长,志愿者报名请联系:何老师13910985933下期AI Time即将开启,敬请关注AI Time论道。
往期AI Time精彩回顾,第5期:论道无人驾驶:近在咫尺还是遥遥无期,第4期:论道数据共享开放与隐私保护,第3期:论道知识图谱:知识赋能智能与智能产生知识,第2期:论道自动机器学习和可解释机器学习,第1期:论道AI安全与伦理