不久前,一个实时翻译视频风靡网络,视频中两名分别说着英语和西班牙语的人借助Skype软件的实时翻译功能竟然实现了无障碍交流。这种之前只在科幻片中存在的场景如今已成现实,而这一切都得益于机器翻译技术。
机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程。
随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,那么不同国家之间如何实现低成本的有效交流呢?人工翻译所耗费的成本巨大,也许最好的解决方法就是:充分利用机器翻译技术提供智能自动翻译服务。机器不会累、学习快,一个系统同时掌握十几种语言互译也不是问题,也许永远不会像人一样出现翻译盲点。
目前机器翻译的主流方式叫“统计翻译”。统计机器翻译的基本原理是:从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。比如,为了让机器顺利实现中英文之间的翻译,首先需要收集大量中英文双语句对,然后使用计算机从这些双语句对中统计并学习翻译知识。
机器翻译的研究历史最早可以追溯到二十世纪三四十年代。二十世纪三十年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1946年,世界上第一台现代电子计算机ENIAC诞生。随后不久,信息论的先驱、美国科学家Warren Weaver于1947年提出了利用计算机进行语言自动翻译的想法。1949年,Warren Weaver发表《翻译备忘录》,正式提出机器翻译的思想。
1954年,美国乔治敦大学在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。随后十年左右的时间内,机器翻译研究热度不断上升。美国、前苏联及一些欧洲国家均对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。
1993年IBM的Brown和Della Pietra等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。2003年爱丁堡大学的Koehn提出短语翻译模型,使机器翻译效果显著提升,借助同时期Franz Och提出的对数线性模型及其权重训练方法,短语翻译模型在工业界开始广泛采用。
随着全球互联互通日益频繁,几乎人人都渴望着实时翻译这一“逆天”技术能早日变成现实,伴随这一代代科学家们不懈的努力,科幻正一步步照进现实。为了实现机器翻译的梦想,以IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队,专门从事智能翻译研究,矢志打破语言障碍。我们科大讯飞也在做这方面的研究。