志玲的声音是怎么“造”出来的?

来源: 科大讯飞

发布日期: 2014-09-09 13:42:23

本文介绍了如何利用先进的语音合成技术合成林志玲的声音,并探讨了该技术在未来的广泛应用前景。

在使用某品牌导航的时候,你能听到甜美的志玲在为我们播报实时路况。那么这些是怎么实现的呢?难道是预先一句一句地全部录好的吗(那得多大工作量啊)?林志玲的声音是采用目前世界最先进语音合成技术合成出来的!在导航应用中,对如“向左转弯”、“前方摄像头”等固定的语句可以采用原声,而对于地名、距离、速度等文字就不可能让志玲姐姐逐一录制了。于是在开始合成之前,请志玲录了一些音频。之后的事情就交给我们研究员啦。

这些音频可不是随意说说就可以的,而是研究团队为了志玲特别设计的。除了设计均衡的发音组合、长短语句外,还专门为体现志玲的“娃娃音”增添了语气词,并结合导航应用做了偏向设计。所以能用最短的语料做出最好的效果。就这样,没多久,“志玲”的声音就成功合成啦。如果你以为我们只能合成志玲的声音,那可大错特错了。未来,不仅仅是明星,身边的一切声音几乎皆可合成。这也就是学界所说的“个性化合成”技术。

没有录音棚录制的音频材料怎么办?没关系,我们可以利用来自互联网的海量音频数据。网络音频往往音质差、信道不统一、多个人声融合在一起。研究团队提出海量数据无监督音库制作方案(下图),综合运用语音技术力量,通过整合信号处理、说话人识别、语言模型、语音识别、自然语言处理等各方向成熟技术,以全自动无监督方法快速得到单个目标发音人的纯净音库。

2012年,研究小组从新闻联播数据里提取出康辉和李瑞英的有效音频,并以此成功搭建两位主播的语音合成系统。在当年3月的讯飞语音云发布会上,此方法模拟制作的新闻联播合成音视频震撼了很多观众。未来这一技术具有很多的应用前景,例如可以使用评书名家的声音给老人们读书讲报。用评书、武侠、言情等多样化风格为用户们读小说。

甚至可以通过语音交互的积累,自动定制你个人音色的语音合成系统;再比如自动处理家庭DV录像,将孩子们的童声童语制作成父母专属的合成系统等等……相信随着技术的发展,所有的未来一定会变得更加生动、有趣!

UUID: b4feaf8f-c97d-4c31-8f9b-b0b1117e1603

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2014/中科院之声_2014-09-09_新知丨 志玲的声音是怎么“造”出来的?.txt

是否为广告: 否

处理费用: 0.0026 元