常规的神经机器翻译(NMT)需要大量平行语料,这对于很多语种来说真是太难了。所幸的是,原始的非平行语料极易获得。但即便如此,现有基于非平行语料的方法仍旧未将非平行语料在训练和解码中发挥得淋漓尽致。为此,本文提出一种镜像生成式机器翻译模型:MGNMT(mirror-generative NMT)。
MGNMT是一个统一的框架,该框架同时集成了source-target和target-source的翻译模型及其各自语种的语言模型。MGNMT中的翻译模型和语言模型共享隐语义空间,所以能够从非平行语料中更有效地学习两个方向上的翻译。此外,翻译模型和语言模型还能够联合协作解码,提升翻译质量。
实验表明本文方法确实有效,MGNMT在各种场景和语言(包括resource rich和low-resource语言)中始终优于现有方法。
当下神经机器翻译大行其道,但严重依赖于大量的平行语料。然而,在大多数机器翻译场景中,获取大量平行语料并非易事。此外,由于领域之间平行语料差异太大,特定领域内有限的并行语料(例如,医疗领域),NMT通常很难将其应用于其他领域。因此,当平行语料不足时,充分利用非平行双语数据(通常获取成本很低)对于获得令人满意的翻译性能就至关重要了。
MGNMT的整体框架如Figure 3所示:其中(x,y)表示source-target语言对,θ表示模型参数,D_xy表示平行语料,D_x和D_y分别表示各自的非平行单语语料。MGNMT对双语句对进行联合建模,具体是利用联合概率的镜像性质:其中隐变量z(本文选用标准高斯分布)表示x和y之间的语义共享。隐变量桥接了两个方向的翻译模型和语言模型。下面分别介绍平行语料和非平行语料的训练及其解码。
实验数据集:WMT16 En-Ro,IWSLT16 EN-DE, WMT14 EN-DE和NIST EN-ZH。对所有的语言,使用的非平行语料如下Table 1所示:Table 1:每个翻译任务数据集的统计结果。下面两个Table是模型在各个数据集上的实验结果。可以看出,MGNMT+非平行语料在所有实验上取得最好结果。
本文提出了一个镜像生成式的机器翻译模型MGNMT以更高效地利用非平行语料。该模型通过一个共享双语隐语义空间对双向翻译模型和各自的语言模型进行联合学习。在MGNMT中两个翻译方向都可同时受益于非平行语料。此外,MGNMT在解码时天然利用学习到的target语言模型,这能直接提升翻译质量。实验证明本文MGNMT在各个语种翻译对中都优于其他方法。