多才多艺的“虚拟主播”，你了解多少？丨智言智语

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。

随着近年来音视频生成技术的不断发展，“虚拟主播”逐渐走入人们视野。虚拟主播使用视频生成技术和虚拟现实技术，实现2D/3D虚拟形象代替真人主播，并因其在虚拟客服、远程会议、电影剪辑等现实应用场景中的重要作用而获得了社会各界的广泛关注。

目前，虚拟主播背后的音视频生成技术能够将文稿或者音频自动转化为播音视频，实现了虚拟形象的多语种自动播报，并可以通过虚拟现实等技术展现出来，其中最广为人所知的形象莫过于虚拟Youtuber。据不完全统计, 2018年末在YouTube网站上有超过8000名虚拟主播开展线上活动。

虚拟主播技术的关键在于如何控制虚拟形象的面部表情、嘴唇运动与播报声音一致，且动作姿态符合场景，过程高效。

从观众的直观感受而言，一个好的虚拟主播，需要口型符合发音习惯，动作姿态符合场景，情绪表达符合说话语境。如果视频或虚拟现实呈现的人表情僵硬、口型也无法与音频对应，那么观众就很难获得舒适的观看体验。而从技术攻关角度而言，研究人员在直观感受之外更加关注整体视频或虚拟现实影像的清晰度以及衔接的连贯程度。这一直以来都是视频生成以及虚拟现实任务中的挑战和难点，亟需科研人员不断探索更好的解决方案。

我国在相关技术上的研究和应用进程启动较早，2017年8月国内市场即出现了首批虚拟主播的身影，近两年也呈现了较好的发展态势。如今，在国内部分网站上活跃的虚拟主播粉丝数量已经达到几十万甚至百万数量级。

2018年11月, 搜狗与新华社联合发布了以新华社新闻主播邱浩为原型的全球首个“AI合成主播”；2019年与2020年，升级的站立式虚拟主播“新小萌”、“新小薇”，连续在2019年和2020年全国两会上岗担播。

虚拟主播的实现流程一般包括：视频采集，数据处理，模型训练，形象输出，集成使用等。

其具体环节涉及人脸关键点检测、人脸特征提取、人脸重建、深度学习、音视频协同等技术，从而生成如同真实的播音员主持人一样的虚拟形象。在该技术的萌芽阶段，整个流程非常耗时耗力，并且只适用于特定单一任务，无法实现任意形象的调换。比如，如果希望得到一个奥巴马形象的虚拟主播，那么首先是需要采集大量奥巴马演讲数据，之后再进行数据清洗、数据处理、网络训练、性能调优等一系列流程，十分耗时耗力。

近期，为了满足更加广泛和通用的需求，科研人员将虚拟主播技术更进一步地推向任意人物协同生成技术。这项技术旨在利用一段音频与任意人物的形象生成该人物的说话视频。该过程需要考虑从语音到嘴部运动的一到多映射问题，即同样的说话内容对不同的人物会有不尽相同的嘴部运动，这取决于不同人的口腔结构差异、说话的习惯等。另外，低维度音频与高维度视频之间的数据差异也是该技术无法回避的难点之一。

虚拟形象的优势在于它比自然人状态更加稳定，且无需休息，不会出现口误。因此，虚拟主播可以把真人主播从较为简单（如固定文字的语音播报等）主持活动中解脱出来，使其能够更加专注于对临场应对能力要求较高或需要真人情感的复杂主持任务。由于目前虚拟主播技术缺乏语音情感化、内容理解语义化和个性化，其发展依然受到一定程度限制。

相信随着神经科学、心理学、计算机科学和人工智能技术的发展和融合，未来虚拟主播一定可以为广播电视事业和播音主持行业的发展注入新的活力，带来新的变革。