机器翻译:生于冷战,却为人类重建巴别塔

作者: 陈宗周

来源: 环球科学

发布日期: 2017-06-17

本文回顾了机器翻译半个多世纪的发展史,从早期的冷战背景下的研究到现代的统计和神经网络技术的应用,展示了机器翻译如何从低潮走向飞跃,并可能在不久的将来打破不同民族间的语言壁垒。

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第七回。在这一回中,陈宗周先生将带领我们回顾机器翻译半个多世纪的发展史。这个在诞生后不久一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒?

2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公司的产品。

2016年11月的一天,东京大学教授、人机交互专家历本純一(Jun Rekimoto),在社交网络上发现一个消息:谷歌翻译有了巨大提升。他亲自访问了谷歌翻译的页面开始体验,他被震惊了。他对比了两位日本翻译家所翻译的《了不起的盖茨比》中的几句话与谷歌翻译出的结果。他认为,谷歌的日语翻译非常流畅,比起翻译家的作品,对他而言,更加易懂。

他随后又在谷歌翻译上输入美国作家海明威作品的日文版,翻译为英文,结果发现机器翻译与海明威英文原著有着惊人的相似度。

机器翻译(Mchine Translation,MT),又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译是AI中的明星技术。因为它是实现不同民族不同语言人群无障碍交流的最有力助手。圆满解决机器翻译难题,重建巴别塔的梦想也就实现了。

机器翻译的想法提出后立即受到重视,美苏两国当时正值冷战期间,俄文情报资料的翻译,需求量很大。1954年,美国乔治城大学和IBM共建的实验室研制出第一台机器翻译演示系统。这个现在看来比玩具好不了多少的系统,可以将俄语翻成英文。系统容纳250个单词,遵循六条语法规则,只可以翻译49个仔细挑选的句子。但是,这仍然是个了不起的成就,已经足以点燃人们的热情。

机器翻译研究进展缓慢,开始受到广泛质疑。

1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC),进行为期两年的调研和测试。

1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,认为十年研究未能完成预期目标,并在近期或可以预见的未来,也没有开发出实用的机器翻译系统的希望,建议停止经费支持。报告给了正在蓬勃发展的机器翻译当头一棒,它很快转入低潮。

统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),然后根据匹配概率,来评判和选择翻译结果。统计翻译的另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。

2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,在NIST(美国国家标准与技术研究院)组织的机器翻译竞赛中大获全胜,比赛提供100 篇新闻文稿,将阿拉伯语或汉语译成英语,谷歌公司的系统在所有类别上全胜,击败包括IBM在内的全部对手。奥克赛后披露,他们为自己的系统提供了相当于100万部图书的文本语料进行学习,这成为了提高翻译质量的关键。

2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran只好转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。

2016年9月28日,谷歌发布新的神经机器翻译系统GNMT,同时发布了PC和移动版。这套系统克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。据说,在新技术使用后,翻译错误可减少60%及以上。

2016年11月,李彦宏在乌镇召开的第三届世界互联网大会讲演时乐观预言:未来的若干年,我们很容易想像语言的障碍会完全被打破,现在做同声翻译的这些人,可能将来就没有工作了。无独有偶,奇点论鼓吹者、美国未来学家雷·库兹韦尔(Ray Kurzweil)在接受《赫芬顿邮报》采访时也预言:到2029年,机译的译文质量将达到人工翻译的水准。

UUID: a9112863-010a-40a0-b596-4746139bf454

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2017/2017-06-17_机器翻译:生于冷战,却为人类重建巴别塔总编专栏.txt

是否为广告: 否

处理费用: 0.0069 元