机器能否扛起翻译大旗

作者: 张双虎, 赵广立

来源: 中国科学报

发布日期: 2021-03-25

机器翻译在不断进步的同时,也暴露出在专业领域如医药方面的翻译不准确问题。尽管机器翻译在日常交流中表现良好,但在专业领域,尤其是需要高精度翻译的场合,机器翻译仍无法完全替代人工翻译。

药品说明冒出“反坦克导弹”!机器翻译差在哪儿

因为机器翻译和软件应用翻译越来越准确,将英语逐出中学必修课的话题余音未了,谷歌翻译就“翻车”了。近日,谷歌翻译将一份英文药物说明译出“您可以根据疼痛程度使用尽可能多的反坦克导弹”的句子。有研究者发布了谷歌翻译在急诊指导中应用效果的评估报告。结果显示,对于不同语言,谷歌翻译的准确率存在差距,最高可达到94%,而最低只有55%。

“对机器翻译来说,即使不是医药等专业领域,也有可能出现类似的错误,这是机器翻译的本质决定的。”中科院自动化研究所模式识别国家重点实验室研究员张家俊对《中国科学报》说。时至今日,机器翻译已历经基于手工书写翻译规则的翻译技术(RBMT)、通过统计机器翻译技术(SMT)以及基于神经网络的机器翻译技术(NMT)三代。

“这本质上是基于概率统计的映射,翻译模型并没有真正理解语言,无法感知生成译文的质量,因此会产生一些对人类来说非常低级的错误而不自知。”张家俊说,“由于模型是数据驱动的,所以数据的规模、领域和质量直接决定了最终翻译的效果。”

谷歌翻译的模型是基于新闻为主的全领域数据训练而成,没有针对医药领域进行专门处理,所以翻译系统对新闻和日常用语等总体翻译得比较好,而在一些专业领域表现就不够理想。

“相对于新闻等通用领域,医药、学术领域中人类翻译的数据没那么多。更重要的是,大部分人类翻译的数据要么没有电子版,要么没有共享。”张家俊说,“数据量少导致机器无法很好地学习到两种语言序列间的映射关系。另外一个难点在于专业领域里术语特别多,而术语通常采用约定俗成的固定翻译,这对于目前基于概率统计的模型来说是个非常棘手的问题。目前学术界正在关注这个问题,但有效的解决办法不多。”

在刚刚闭幕的两会上,全国政协委员许进提出的“改革义务教育阶段英语必修课地位”曾引起热议。其理由是英语占课时多,成果应用率低,在人工智能时代,机器翻译能解决日常应用中的问题。在日常交流时,机器翻译的表现的确可圈可点。尽管如此,受访专家也表示机器翻译依然任重道远。

中科院自动化研究所研究员宗成庆认为,翻译中口语、书面语和专业领域各有特点,口语有语气、表情、重音、语速、口音(方言)、噪声等机器翻译的难点;书面语有词汇、成语、人名、句子结构复杂等不确定因素。因此,进行专业领域的翻译更要“有目标地根据用户需求进行个性化定制”。

“机器翻译不可能完全替代人,尤其在需要中高级翻译的情况下。”宗成庆告诉《中国科学报》,“机器翻译的工具属性更强。人机应该是互助关系,在一些简单场景、不太重要的场合,机器翻译可以快速处理,帮助人们提高效率。而对翻译质量要求高的地方,如文学作品、重要国际会议等场合,还需要人工翻译。”宗成庆认为,中国在机器翻译应用系统开发方面,能够跟跑甚至在某些语言方面领跑国际,“但原创性的理论方法尚待拓展”。

UUID: c4a71ac7-e0b8-4157-9e61-54d2072ea531

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2021-2022/中国科学报_2021-03-25_药品说明冒出“反坦克导弹”!机器翻译差在哪儿.txt

是否为广告: 否

处理费用: 0.0041 元