在科幻小说《银河系漫游指南》中,作家道格拉斯·亚当斯描绘了一种神奇的宇宙生物——巴别鱼,它以脑电波能量为生,能够使人们在将其塞进耳朵后,即刻理解任何语言的内容,轻松与外星人交流。同名电影也已于2005年上映。自从小说问世以来,“巴别鱼”便成为了即时语音翻译的象征。然而,当时人类的翻译技术距离这一设想仍有很大的差距,始终未出现统一的语音到语音翻译模型。
如今,科幻电影中的“巴别鱼”,Meta用AI真的实现了——推出大规模多语言和多模态机器翻译模型——SeamlessM4T。
据介绍,SeamlessM4T可以在语音和文本之间实现即时翻译和转录,支持近100种语言的自动语音识别;近100种输入和输出语言的语音到文本翻译;语音到语音翻译,支持近100种输入语言和35种(加上英语)输出语言;近100种语言的文本到文本翻译;文本到语音翻译,支持近100种输入语言和35种(加上英语)输出语言。
为了构建这一模型,Meta重新设计了Fairseq序列建模工具包,从而创建更轻量级的模型,处理更多信息。在模型方面,Meta采用了多任务UnitY模型架构,这一架构能够直接生成翻译文本和语音。这个新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译,这些功能已经成为基本UnitY模型的一部分。
多任务UnitY模型由三个主要的顺序组件组成,其中文本和语音编码器负责识别近100种语言的语音输入。随后,文本解码器将这一意义转化为近100种语言的文本,然后是文本到单元模型,用于将其解码为36种语音语言的离散声学单元。为了提高模型质量和训练稳定性,自监督编码器、语音到文本、文本到文本翻译组件以及文本到单元模型都经过预训练。最终,解码得到的离散单元通过多语言HiFi-GAN单元声码器转化为语音。
利用自监督语音编码器w2v-BERT 2.0,研究人员分析了数百万小时的多语种语音来学习在语音中找到结构和含义。该编码器可以接收音频信号,将其分解为较小的部分,并构建所述内容的内部表示。由于口语词汇由许多声音和字符组成,研究人员使用长度适配器将它们大致映射到实际单词中。同样,Meta利用一个基于NLLB模型的文本编码器,将其训练成能够理解近100种语言的文本,并生成对于翻译有用的表示。
经过训练的文本解码器能够接收编码的语音表示或文本表示。这可应用于同一语言的任务,如自动语音识别和多语种翻译任务。例如,有人可以说法语中的“bonjour”,然后期望斯瓦希里语中的翻译文本是“habari”。通过多任务训练,Meta利用NLLB模型来通过token级别的知识蒸馏,来引导他们的语音到文本翻译模型。另外,Meta使用声学单元来表示目标语音。
UnitY模型中的文本到单元(T2U)组件根据文本输出生成这些离散的语音单元,并在UnitY微调之前在ASR数据上进行了预训练。然后,使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。在上述功能的加持下,SeamlessM4T可以识别说话者何时进行代码切换,或者何时在一句话中在两种或更多语言之间切换。
此外,Meta还构建了一个可涵盖200种语言的多语言多模态文本嵌入空间——SONAR。然后,利用师生方法将其扩展到语音领域,涵盖36种语言。通过在网络数据和语音数据中进行挖掘,他们自动对齐了超过443000小时的语音和文本,并创造了29000小时的语音对齐数据。这个名为SeamlessAlign的语料库是迄今最大的开放式语音、语音和语音以及文本平行语料库。
测评结果显示,SeamlessM4T在近100种语言中实现了最先进的结果,并跨自动语音识别、语音到文本、语音到语音、文本到语音以及文本到文本翻译的多任务支持,全部由单一模型完成。此外,Meta还显著提升了对低资源和中资源语言的性能,同时在高资源语言上保持了强大的表现。
为了更准确地评估系统,不仅依赖于基于文本的度量标准,Meta将无文本度量标准扩展到了BLASER 2.0,这使得在语音和文本单元之间进行评估时,与其前身相比能够获得类似的准确性。在鲁棒性测试中,与当前最先进的模型相比,该系统在语音到文本任务中对抗背景噪音和说话者变化的性能表现更好(分别平均提升了37%和48%)。
确保翻译系统准确性至关重要,Meta采用负责任的AI框架,通过研究毒性和偏见等敏感问题,来提升模型表现。他们也在语音中扩展了多语言毒性分类器,过滤了不平衡的毒性训练数据。此外,他们还在性别偏见方面进行评估,并努力改进模型以减少毒性。未来,他们将持续致力于安全性和可靠性方面的工作。SeamlessM4T就像一个AI版“巴别鱼”,但它不需要进入我们的耳朵中。