最近,由东京大学Mantra团队、雅虎(日本)等机构联合发布的《Towards Fully Automated Manga Translation 实现漫画全自动翻译》论文,引发了学界和二次元界的关注。该论文目前已被AAAI 2021收录,Mantra项目旨在为日本漫画提供自动化的机器翻译工具。
Mantra团队成功地实现了将漫画中的对话、气氛词、标签等文字自动识别,并做到了区分角色、联系上下文,最后将翻译文字准确替换、嵌入气泡区域。有了这个翻译神器,估计翻译组、追漫的小伙伴们都该偷着乐了。
在科研方面,目前该篇论文已经被AAAI 2021接收,研究团队还开源了一个包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,所组成的翻译评估数据集。在产品化方面,Mantra计划上线封装好的自动翻译引擎,不仅面向出版社提供漫画的自动化翻译与发行服务,也会发布面向个人用户的服务。
具体的实现步骤,Mantra研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。第一步是定位文字,由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。
第二步是内容识别,在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。这就要求自动化机器翻译需要准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。第三步是自动嵌字,Mantra这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。
在论文中的实验部分,Mantra团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了OpenMantra(已开源)和PubManga数据集,其中OpenMantra用于评估机器翻译,包含1593个句子、848个场景画面和214页漫画,Mantra团队已经请专业翻译人员将数据集翻译成英文和中文。
目前该篇论文已经被AAAI 2021收录,产品化的工作也在稳步推进中,从Mantra团队的推特中,我们看到已经有不少漫画成功使用了Mantra进行自动化机器翻译。这样的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介和CTO日南凉太同在东京大学博士毕业,在2020年创立了Mantra团队。