如何解决神经机器翻译三大关键性问题？清华团队发表NMT最新技术综述

如今，计算机技术渗透人们生活的方方面面，而要说对我们工作学习帮助极大的，机器翻译（machine translation）必须榜上有名。近年来随着计算机技术的不断提高、AI系统的日益精进，机器翻译一直为人们所质疑的质量问题，也有了非常显著的改善。其中，神经机器翻译（neural machine translation）技术所作的贡献与创新也是一大研究热点。

近日，清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文，文章对神经机器翻译方法进行回顾，并重点介绍与体系结构、解码和数据增强有关的方法，总结了对研究人员有用的资源和工具。最后，还讨论了该领域未来可能的研究方向。

清华大学计算机系教授、欧洲科学院外籍院士孙茂松与清华智能产业研究院副院长、国家杰青刘洋是该论文的两位教师作者。该论文以“Neural machine translation: A review of methods, resources, and tools”为题发表在专注AI开放获取的新期刊AI OPEN上。

神经机器翻译技术的发展在70年的发展历程里，机器翻译经历了从兴起到高峰，从低迷到打开新研究思路的种种变化。早在1949年，美国科学家Warren Weaver就首次提出“使用计算机进行翻译”的思想，他也被公认为是机器翻译的先驱者之一。1952年，以色列著名哲学家、语言学家和数学家Yehoshua Bar-Hillel组织召开了第一次机器翻译大会。

此后，由于机器翻译质量难以达到要求，其发展在长达30年间始终缓慢，直到1990年之后，大量的双语、多语语料库给机器翻译注入新鲜血液，统计机器翻译（SMT）应运而生。这期间IBM研究人员也发表论文，详细论述了基于词典和转换规则的机器翻译方法和基于平行语料库的实例机器翻译方法。近些年，基于深度学习的神经机器翻译技术（neural machine translation，简称NMT）发展迅猛。

深度学习由图灵奖得主Geoffrey Hinton等人在2006年提出，是一种深层的非线性数据处理技术，与传统的浅层次线性处理相比，它在处理模型分析和分类问题上更准确，性能更高。NMT与以前的机器翻译方法完全不同，一方面，NMT在SMT中采用连续表示而不是离散符号表示；另一方面，NMT使用单个大型神经网络对整个翻译过程进行建模，从而无需进行过多的特征工程。

而且，NMT的训练是端到端的（end-to-end），不像SMT中需要单独调整组件。除了简单之外，NMT可适应多种语言之间的翻译，实现最先进的性能。综述中，论文作者首先阐释了NMT系统的三个关键性问题：建模（modeling），即如何设计神经网络来对条件分布建模？推理（inference），即给定源输入，如何从NMT模型生成翻译句子？

学习（learning），即如何有效地从数据中学习NMT所需的参数？关于建模，NMT通常采用编码器-解码器框架，由嵌入层embedding，分类层classifier，编码器网络encoder和解码器网络decoder组成。构建强大的编码器和解码器对NMT性能来说至关重要，其方法大致可分为三类：基于递归神经网络（RNN），基于卷积神经网络（CNN）和基于自注意力网络（SAN）的方法。

文章不仅详细阐释了三种方法的机制，还对比了其优点与缺陷，并提出相应的解决办法。例如RNN容易出现梯度消失/爆炸问题，CNN接收领域有限较难扩张，SAN则容易忽略序列中单词的顺序。关于推理，NMT通常使用本地搜索算法（例如贪婪搜索或集束搜索）来找到最佳翻译结果。此外，NMT通常使用最大对数似然（MLE）作为训练目标函数，这是一种估算概率分布参数的常用方法。

除了NMT的计算机原理与构建机制，文中还综述了不同的NMT研究方法与应用，例如有关使用单语言数据和无监督NMT的研究，以及有关提升NMT可解释性和鲁棒性的研究。最后，文中还总结了当前流行的开源NMT工具，均可在GitHub直接获取。尽管NMT取得了巨大的成功，但仍有许多问题有待探索，因此，文章列出了NMT的一些重要且具有挑战性的问题。第一，加深对NMT的了解。

尽管如今已经有很多尝试，试图分析和解释NMT，但显然，NMT领域还有许多未“解锁”之处。未来，要想窥破NMT技术的瓶颈和弱点，弄清NMT究竟如何产生其翻译结果显得格外重要。第二，设计更好的NMT模型。目前常见的是Transformer体系结构，设计一种比它更加优越、能够平衡翻译性能和计算复杂性的新体系结构，对于NMT研究和生产意义重大。第三，充分利用单语言数据。

尽管如今单语言数据取得了显著进步，但NMT在利用丰富的单语言数据方面，仍有巨大的上升空间。第四，对先前的知识进行整合。除了自然语言，将人类其他知识纳入NMT也是一个重要的问题。如何实现离散表示和连续表示之间的互相转换一直是NMT面临的问题，仍需进一步探讨。AI OPEN于2020年3月创刊，专注于分享有关人工智能（AI）理论及其应用的可行知识和前瞻性观点。

期刊主编为智源研究院学术副院长、清华大学计算机系唐杰教授。AI OPEN免费开放所有文献资源，欢迎有关人工智能及其应用各个方面的研究文章，评论文章，观点，简短交流和技术说明。

涵盖的主题包括但不限于：AI研究：深度学习和表示学习，图论与图挖掘，约束，可满足性和搜索，知识表示，推理和逻辑，机器学习和数据挖掘，知识图谱及应用，基于代理和多代理的系统，网络和基于知识的信息系统，自然语言处理（NLP），图像处理与分析，基于脑的学习，内隐认知与学习。

人脑研究：人脑相关健康/疾病/社会行为的热门话题，脑连通性和网络建模，脑智能范例，神经信息学，神经影像学，学习与记忆，认知与行为，健康数据分析和统计，神经免疫学，睡眠行为，脑深部刺激。