挑战实时语音翻译：你讲英语，我听中文

今天，具备实时语音翻译技术的Skype 翻译器（Skype Translator）中文预览版正式在中国市场推出。这一凝聚微软在语音识别、自动翻译和机器学习等多领域成果的产品，将使英文和中文普通话之间的实时语音对话成为现实。

这个实时语音翻译功能的实现，有赖于强大的机器学习平台。机器学习是指软件学习训练数据的能力。语音识别和机器翻译的训练数据包括翻译的网页、配有字幕的视频，以及预先翻译且转录成文字的一对一谈话。Skype Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。

和滚瓜烂熟的朗诵不同，口语交流中常常会出现不流利的情况。人们在说话时会停顿、重复，并伴有“嗯”“呃”“啊”之类的语气词。我们的机器学习模型针对以上问题会相应处理这些停顿。在预览版中，用户可以看到咦部分语气词停顿被移除，而没有被移除的部分则可能通过用户反馈进行再优化。

Skype翻译器开创性地结合了句法和统计模型，并更有针对性地训练对话性语言的输出。图片来源：skype.com

通过去除造成不流利的字词、将文本分解成句子、添加标点符号和大小写识别，软件可以实现更好的识别和翻译。而利用在预览版阶段获取的训练数据，软件能针对真实使用者的不同话题、口音与语言转换进行学习。

在准备好的数据被录入机器学习系统后，机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时，软件会在该统计模型中寻找相似的内容，之后应用到预先“学到”的转化程序中，使得音频转换为文本，再从文本转换成另一种语言。

另外，研究团队也创造了一个定制化的机器人程式来协调整个产品体验。它负责建立电话连接、发送音频流至语音引擎获取翻译文本，并分别在双方结束说话时翻译其所说的内容。

经过多年的专注投入，微软在北京和美国雷蒙德的团队合作完成了普通话的语言模型，而得益于深层神经网络与统计机器翻译技术的结合，语音识别能力被进一步提高，翻译结果不断准确化，让一对一的语音交谈成为现实。在中文预览版中，用户可以体验到令人讶异的新功能：

语音读取文字信息：用户可以通过语音收听到对话方发送给自己的即时消息，语音的语言可以自选。

持续性识别：在对方发送语音信息期间可持续性的进行文字翻译。

自动声量控制：对话方可以在实时语音翻译期间不间断地说话，同时用户可收听到较高音量的语音翻译，而对话方本身的语音信息呈现出较低音量

语言翻译静音功能：用户可以任意开启或关闭语音翻译的声音，并直接读取文字翻译。

此前数十年，语音识别的发展一直受到错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院率先将深层神经网络（DNNs）技术引入语音识别，极大程度地降低了错误率，提高了可靠性，最终使这项语音翻译技术得以更广泛地应用。

从现在开始，中英实时语音翻译的大幕已经拉开，世界上使用人数最多的语言和世界上使用最广泛的第二语言将能直接展开对话。相信随着产品的不断优化，跨语言无障碍交流的时代终将来临。