在《名侦探柯南》中,最让人欣羡的黑科技就是阿笠博士制造的蝴蝶结变声器了,柯南为了隐藏自己的身份,会通过变声器来模仿毛利小五郎等人的声音来隐匿自己的身份。有了这个变声器,就可以把声音变成任何人的声音。
想要实现变声器的变声功能,可以通过语音转换技术。语音转换,从广义上说,它是指对语音的个性特征进行修改,目的在保留语音中语言内容信息的同时修改语音信号的一个或多个方面的特征;从狭义上说,它是指将源说话人的语音转换为具有目标说话人发音特征的语音。
语音转换系统的基本框架图
语音转换研究算法主要包括训练模块和转换模块。训练模块包括特征分析、特征对齐、模型训练以及转换函数。
特征对齐模块用于建立两说话人语音特征之间的映射规则。有些语音转换要求源语音和目标语音的语音文本内容相同。在建立训练语音转换模型之前,由于说话人发音速度存在差异,需要对提取的说话人语音特征在时间尺度上进行对齐,常用的方法有动态时间规整和基于隐马尔可夫模型的强制对齐算法,而有些语音转换系统不需要平行的语料,这种情况还需要其他特殊处理。
语音转换模型是能够建立源语音和目标语音声学特征之间的映射关系,其方法是估计一个或一组映射函数使得转换后的特征与目标特征之间的误差最小。常用的语音转换模型包括码本映射、高斯混合模型、隐马尔可夫模型和人工神经网络等。
一个完整的语音转换系统应该解决以下三个问题:什么语音特征能够代表语音信号中说话人的信息以及如何估计这些语音特征?如何建立源和目标说话人语音特征间的对应规则?如何由转换后的语音特征合成得到转换后的语音信号?
第一个问题是指,语音转换要区分的语音中语音内容、说话人个性特征和语音背景信息等三方面内容。而说话人个性特征才是语音转换的关注对象。
第二个问题是指如果在语音信息的三个方面中,针对关注对象说话人个性特征建立源和目标之间的对应关系,而排除另两个方面的干扰。一般来说假设语音背景信息相同或一致,所以主要的干扰信息来自于语音内容信息。这正是数据对齐的作用。它是语音转换中非常重要的模块,会直接影响语音转换的结果。
第三个问题可以由模型训练模块和转换模块来解决,也是现今语音转换中比较成熟的技术。
语音转化技术的应用十分广泛,例如:个性化语音合成系统、语音翻译系统、说话人语音认证系统、转换说话人身份、说话和助听设备等。通过这些应用,语音转换技术不仅能够改善语音的音质,还能提高语音的可理解性,特别是在嘈杂的环境中,应用于提高未来助听器的性能,从而得到辨识度更高的语音,这将为这些患者们提供极大的便利,改善他们的生活。