今日凌晨,OpenAI在官网分享了他们在AI语音合成方面的一些进展——公布了一个名为“语音引擎”(Voice Engine)的模型的小规模预览的初步见解和结果。据介绍,该模型使用文本输入和单个15秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是,一个只有15秒样本的小型模型就能生成富有感情和逼真的声音。
早在2022年底,OpenAI便开发了Voice Engine并将其用于支持文本到语音API中的预设语音以及ChatGPT语音和朗读。今天,通过一些实际案例,OpenAI分享了一些Voice Engine的早期应用。例如,使用Voice Engine帮助恢复一名因血管性脑肿瘤而失去流利语言能力的年轻患者的声音。
此外,Voice Engine还可以被用来提供阅读帮助、翻译内容、为不会说话的人群提供支持等。通过声音自然、富有感情的声音为非阅读者和儿童提供阅读帮助,这些声音代表了更广泛的说话者,而不是预设的声音。Age of Learning是一家教育技术公司,该公司一直在使用Voice Engine生成预设的画外音(voice-over)内容。
他们还利用Voice Engine和GPT-4创建实时、个性化的回应,与学生互动。
Voice Engine可以让创作者和企业可以用自己的声音流利地向世界各地更多的人传播。据OpenAI介绍,HeyGen是这方面的早期应用者之一。HeyGen是一个人工智能视觉故事平台,通过使用Voice Engine进行视频翻译,将演讲者的声音翻译成多种语言,并覆盖全球受众。
用于翻译时,Voice Engine会保留原说话者的母语口音:例如,用法语说话者的音频样本生成英语,就会产生带有法语口音的语音。
Voice Engine可以为患有影响语言的疾病的人群提供治疗应用,为有学习需求的人群提供教育增强功能等。Livox是一款人工智能替代性交流应用程序,为辅助性和替代性交流(AAC)设备提供支持,使残疾患者能够进行交流。Voice Engine能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音,对于多语种用户,每种口语都能保持一致的语音。
此外,Voice Engine还通过改善偏远地区的基本服务提供深入全球社区。例如,Dimagi正在为社区卫生工作者开发工具,从而提供各种基本服务,如“为母乳喂养的母亲提供咨询”。为了帮助这些工作人员提高技能,Dimagi使用Voice Engine和GPT-4以每位工作人员的主要语言(包括斯瓦希里语或更加非正式的语言)提供互动反馈。
OpenAI表示,由于合成语音有可能被滥用,他们对更广泛的发布采取了谨慎和知情的态度,选择在此时预览但不广泛发布这项技术。他们在与这些合作伙伴签订的条款中,要求获得原发言人的明确和知情同意,且不允许开发人员为个人用户创建自己的声音。这些合作伙伴还必须向受众明确披露,其听到的声音是人工智能生成的。
此外,OpenAI还实施了一系列安全措施,包括水印以追踪Voice Engine生成的任何音频的来源,以及主动监控其使用情况。OpenAI表示,他们鼓励在未来加快开发和采用追踪视听内容来源的技术,让人们始终清楚自己是在与真人互动还是在与人工智能互动,并帮助公众了解人工智能技术的能力和局限性,包括人工智能欺骗性内容的可能性等。