志玲的声音是怎么“造”出来的？

在使用某品牌导航的时候，你能听到甜美的志玲在为我们播报实时路况。那么这些是怎么实现的呢？难道是预先一句一句地全部录好的吗（那得多大工作量啊）？林志玲的声音是采用目前世界最先进语音合成技术合成出来的！在导航应用中，对如“向左转弯”、“前方摄像头”等固定的语句可以采用原声，而对于地名、距离、速度等文字就不可能让志玲姐姐逐一录制了。于是在开始合成之前，请志玲录了一些音频。之后的事情就交给我们研究员啦。

这些音频可不是随意说说就可以的，而是研究团队为了志玲特别设计的。除了设计均衡的发音组合、长短语句外，还专门为体现志玲的“娃娃音”增添了语气词，并结合导航应用做了偏向设计。所以能用最短的语料做出最好的效果。就这样，没多久，“志玲”的声音就成功合成啦。如果你以为我们只能合成志玲的声音，那可大错特错了。未来，不仅仅是明星，身边的一切声音几乎皆可合成。这也就是学界所说的“个性化合成”技术。

没有录音棚录制的音频材料怎么办？没关系，我们可以利用来自互联网的海量音频数据。网络音频往往音质差、信道不统一、多个人声融合在一起。研究团队提出海量数据无监督音库制作方案（下图），综合运用语音技术力量，通过整合信号处理、说话人识别、语言模型、语音识别、自然语言处理等各方向成熟技术，以全自动无监督方法快速得到单个目标发音人的纯净音库。

2012年，研究小组从新闻联播数据里提取出康辉和李瑞英的有效音频，并以此成功搭建两位主播的语音合成系统。在当年3月的讯飞语音云发布会上，此方法模拟制作的新闻联播合成音视频震撼了很多观众。未来这一技术具有很多的应用前景，例如可以使用评书名家的声音给老人们读书讲报。用评书、武侠、言情等多样化风格为用户们读小说。

甚至可以通过语音交互的积累，自动定制你个人音色的语音合成系统；再比如自动处理家庭DV录像，将孩子们的童声童语制作成父母专属的合成系统等等……相信随着技术的发展，所有的未来一定会变得更加生动、有趣！