为了让电脑说⼈话，⼈们在电脑⾥装了⼀个假喉咙

当你呼唤某度、某爱同学、某艺和某 Siri 时候，这些语⾳助⼿往往会⽤优雅的声⾳回复你“嗯？发⽣什么事了？”当你打开短视频⽹站，听到⼀些千篇⼀律的 AI 配⾳。有不同⾓⾊的，不同⼜⾳的……“家⼈们！谁懂啊！”你可能也接到过 AI 打的电话，有些电话甚⾄难以分辨。⽬前语⾳合成的技术已经甚⾄还能让我们听到以假乱真的各类 AI 歌⼿。不过，你知道电脑是如何发出“⼈类”的声⾳的吗？

回到 100 年甚⾄更早前，当时的⼈们为了让机器能说出话，制造了许多奇奇怪怪的东西。1764 年，⼀位发明家展⽰了⼀只机器鸭。这只鸭⼦会嘎嘎乱叫，还能喝⽔（不是真的喝，指把⽔溅到地上）和夺取⾷物。据说，这只鸭⼦体内有⼀个机械版的“消化道”，甚⾄可以消化⾷物，排出粪便。鸭⼦说话只能“嘎嘎嘎”，但⼈说话就难多了。想要让机器说⼈话，就意味着要让它发出不同词语的发⾳，再⽤正确的⾳调组合成句⼦。

这听起来就⼗分复杂，在 18 世纪，⼈们想出的办法，其实和复刻⼀只机器鸭⼦⼀样：⽤发条和齿轮模仿⼈类的⾝体构造，做出⼀套机械版的喉咙和⼜腔。最原始的说话“机器”其实并不能真的说话，毕竟当时的⼈们也并不清楚我们的说话声是如何发出来的。靠着⼀些仅有的知识，⼈们为这种机器安上了假的声带和⾆头，当空⽓流过时，假声带就会震动，假⾆头也会移动。通过控制机械移动的⽅式，以及⽓流的开始和停⽌，就会形成不同的元⾳。

1779 年，发明家 Christian Kratzenstein 发明了⼀套“⼈类声道模型”，这五种模型分别能发出 aeiou 五种元⾳。后来⼈又有⼈发明了⼀种假的共鸣腔。当他挤压风箱，让空⽓流⼊共鸣腔后，他会直接⽤双⼿改变共鸣腔的形状，以此来改变发出的辅⾳。再后来，⼀些发明家（⽐如发明电话的贝尔）也做出了相似类型的说话机器。不过，这种机械式的设备并没有取得什么显著的成功。

1937 年，⼀种新的设备出现了，它不是靠机械驱动，⽽是靠电来发声，加上娴熟的演奏技巧，⼈们获得了⼀种真的能说话的电设备：Voder。它能说出完整的⼀句话，虽然和我们如今的语⾳助⼿还相差甚远，但仍然可以听清，甚⾄还能变换不同的⾳⾊。

Voder 发出的声⾳来源于振荡器电路发出的嗡嗡声，因为有了滤波器，所以能让特定的频率凸显出来，它有着像钢琴⼀样的共 10 个按键，如果你能巧妙地操作它，就可以发出可以识别的语⾔。这个机器的操作⾮常复杂，据说在当时，有⼀些操作员需要练习⼀年才能真的⽤它输出内容。

⽽在⼗年后，另⼀种说话机器也被发明了出来，这种机器使⽤的“模式回放”技术，在当时是通过将声⾳的频谱图，转换为⼀种光谱图，然后再通过光伏电池将其转化为声⾳。⽽不管是 Voder，还是这项“模式回放”的技术，都为后来的现代语⾳合成技术打下了基础。从此之后，说话机器说出来的语⾔越来越逼真，不仅能说话，还能唱歌，它们被⽤在游戏、艺术作品，也⼤量⾛⼊我们的⽣活。

不仅是我们⽇常使⽤的语⾳助⼿，还可以辅助盲⼈的阅读和交流、帮助先天性听⼒障碍的语⾔技能、阅读障碍孩⼦的语⾔指导。各种警报系统也能及时提醒我们需要的消息。如今通过 AI 技术，机器甚⾄能够精细地重现我们说话的⼜⾳、情感等。