机器翻译的困惑与挑战

作者: 栗子,Owl

来源: 果壳

发布日期: 2021-01-19

本文探讨了机器翻译的困惑与挑战,包括翻译不顺滑的原因、神经机器翻译的进步、分词难题、翻译腔问题以及译后编辑的重要性。

这是我非常困惑的事情,本不愿意在大家面前多说,但是事已至此被坑了一遍又一遍,想了很久,本不想占用果壳头条的我不得不说——为什么用机器翻译出来的内容,总是让人看不懂啊!网友试图将郑爽的微博翻译成英文,竟莫名通顺了起来。吃瓜群众不免猜测,郑爽的微博之所以看不懂,或许是机器翻译的结果。

机器翻译已经很努力了!古早的机器翻译,通常是直接把句子拆成几块,然后一块一块去翻译。但人类翻译并不是这样。我们通常会通读整个句子,来理解其中的含义,再用另外一种语言来表达相近的意思。传统机翻与人类的阅读方式不同,是翻译不顺滑的一个主要原因。后来,科学家们找到了一种名叫“神经机器翻译”(Neural Machine Translation,NMT)的新方法,尽量贴近人类的翻译方式。

这类算法在看到一个句子之后,会用编码器把整句话转换成一个向量,也就是用一串数代表这句话的含义。然后,再用一个解码器,把这串数字转换成目标语言。这样的AI,能够更好地捕捉字与字之间的相互依赖关系,哪怕两个字之间的距离比较远,中间隔了一些字,也可能考虑到句子结构等等因素。

即使不断学习,机器翻译还是会有许多看不懂的结果。不过,一只AI就算学得再多,也只是给出统计学意义上的答案,并不能真正理解语言当中的逻辑关系。比如,谷歌翻译曾经有过一个经典错误。输入“北大不如清华”,得到“Beijing University is better than Qinghua”。而人类翻译不太可能出现这样的错误。

除此之外,AI要把中文翻译成另外一种语言,还会遇到另外一个难点——如何分词。汉语里的词汇常常由两个字或者更多个字组成,但词与词之间却没有间隔。熟悉这种语言的人类不易出错,AI却要先了解哪些字会组成词语或固定搭配,才能实现更准确的翻译。

近年有不少出色的分词工具陆续诞生,比如百度工程师Sun Junyi开发的结巴分词、清华出品的THULAC、北大出品的pkuseg等等。它们不负责翻译,但也是用大量文本训练而成的AI。当然,再机智的分词AI也未必能拯救“帝国主义把我们的地瓜分掉”“我们中出了叛徒”这些刁钻句子的机翻。

另外,机器翻译还逃不开一个熟悉的问题:每个词都认识,整个句子也知道什么意思,但总觉得不像人话。

嘿,我的老伙计,这不是翻译腔吗?带有翻译腔的文字往往是在形式上过于忠于原文,忽视了翻译出来的语言本身的表达习惯。在不合适的情境下,翻译腔会让人觉得不自然、费解甚至可笑。这种现象在人工翻译中已经越来越少见,但机器翻译往往对长句子、上下文语境难以判断,容易出现“翻译腔”的结果,有时候还不如直接读原文理解得更好。

看不懂?译后编辑很重要!机器翻译大大提高了信息传递的效率,如果只需要提供大概的意思,直接使用机器翻译的输出译文,通常不会有什么大问题。但在正式的文本,甚至文学著作里,如果有人敢直接使用机翻结果,那真可谓勇士了。对翻译效率要求较高的文字内容,“机器翻译+人工编辑”是翻译得又快又准确的方法之一。这一需求催生了一个新的职业——译后编辑(Postediting)。

译后编辑的工作看起来就像是让机器翻译“说人话”,不过这个过程并不容易:一方面要快速识别机翻译文中的特征错误,另一方面要根据译文的用途,确定和修饰翻译的结果。你可能会问:这和翻译审校的工作不是差不多吗?实际上,差别挺大的。除了对翻译前后的语言有基础的理解,译后编辑还需要掌握机翻的原理知识和基本的编程技能,从而为机器翻译编制相关的词典。

作为信息交流的工具,机器翻译会越来越聪明,输出的句子也会越来越清晰。不过,语言本身不只是工具,译后编辑的工作正是将机器翻译的高效与人工翻译的准确结合在一起,让人能够快速获得看得懂,甚至是有风格、有情绪的信息。毕竟,如果有了译后编辑,应该就不会这种翻译了吧。

UUID: f29a596a-49b2-48b4-a90e-7e0d5660ec2b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2021/2021-01-19_你的文字,看不懂!是机器翻译出来的吗?.txt

是否为广告: 否

处理费用: 0.0043 元