语音合成(Text to speech,TTS)是一种将文字自动转换为语音信号的技术,涉及声学、语言学、自然语言理解、信号处理、模式识别等多个学科,是信息处理领域的一门前沿技术。在早期,“语音合成”是指用机器产生人工言语的技术。它可以通过力学的(机械的)、光学的、或电子的手段产生类似人说话的声音。最早的语音机器是由Von Kempelen于1780年制造的。
它完全是机械式的,通过风箱向簧片送气来模拟声带的振动。声道是用一段软的橡胶管模拟的谐振器,其形状由操作员的手来控制。操作者通过控制操作杆和开口,可以发出/a/、/o/、/u/、/p/、/l/、/m/、/r/、/n/,等元音和辅音。
20世纪30年代,Paget的合成器已能说出像“Hello London,are you there?”之类的简单的话。
但是,所有这些机械式合成器合成的语音都和人说的自然语音相差甚远。随着电子技术的发展,人们开始使用计算机、数字滤波器及各种电于设备进行语音合成的研究。G.Fant在1960年所著Acoustic Theory of Speech Production一书中,系统地阐述了言语产生的声学理论,从而使语音合成技术的发展迈出了关键的一大步,随之而来的是大批的基于该理论之上的串联或并联共振峰合成器的诞生。
从八十年代末,语音合成技术又有了很大的发展,特别是基音同步叠加方法(Moulines and Charpentier, 1990)的提出,使基于时域波形拼接方法合成的语音自然度大大提高。
20世纪末,统计参数语音合成系统已经成为了新的主流算法,尤其以基于隐马尔可夫的语音合成最为成功。
其可以在不需人工干预的情况下,高效自动的搭建合成系统,由于统计的缘故,对发音人和发音风格的依赖较小,合成语音的语音风格和音色容易人为控制,并且合成系统的规模没有波形拼接的那么大。近年来,一些学者致力于端到端的语音合成模型的建模,并取得了性能上的巨大提升。2016年,谷歌Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。
该模型可以直接对原始语音数据进行建模,避免了声码器对语音进行参数化时导致的音质损失,在语音合成和语音生成任务中效果非常好。基于此,端到端语音合成模型不断迅速发展,在某些数据集上达到了媲美人类说话的水平。
随着计算机硬件水平的不断提高和机器学习技术的蓬勃发展,语音合成技术逐渐从最初的基于语音学规则的参数合成,发展成基于大语料库的拼接合成和基于统计参数的语音合成,合成语音的可懂度和自然度也取得了明显提升,在很多场景都取得了成功的应用,例如语音播报系统、有声读物、地图导航、信息查询系统等。可以说语音合成技术正在悄然改变我们的生活,甚至将来会成为人们生活中不可或缺的一部分。