阿根廷再次举起了大力神杯,宣告着这届几乎每场比赛都挑动观众心脏的世界杯落下帷幕。从11月21日至12月18日,不到30天的时间里,全球数十亿人在屏幕前,共同欢呼,相继落泪。自上世纪50年代,世界杯首次使用电视转播以来,越来越多的人能够享受这一盛宴。
咪咕是国内获得世界杯转播权的平台之一,看咪咕的小伙伴不知道注意到没有,视频左下角可以打开一位身着红衣的数字人女孩,她可以用自然而连贯的手语动作,传递着赛场上的“声音”,帮助听障人士“看”懂比赛。这是数字人技术在世界杯上的一个“温暖”应用。今天,让我们一起聊聊这个技术背后的原理。
目前,大多数虚拟数字人上视频节目一般采用非实时,大量工作需要通过后期制作完成,这样肯定无法满足手语播报的实时性要求,当然也有通过由运动跟踪设备实时驱动的,但要求每期节目制作都必须有真人进行表演以驱动虚拟人,因而需要投入大量的人力、物力。
这次咪咕展示的手语数字人“华同学”实现了手语实时播报,技术上采用全自动的文本实时驱动,降本增效,该技术集成了数字人建模、语义蒸馏、机器翻译、跨模态拟人生成、实时动作-表情-手势驱动等多项AI技术。
华同学以超大规模预训练模型为基础,应用跨模态拟人生成算法、超高精度写实数智人技术等实现AI手语实时播报。首先用中文语义蒸馏模型算法提取出有效的关键语义信息,然后用AI手语分词快编算法把语义信息转换成符合手语表达的词汇序列,最后驱动生成数智人手语视频流。
简单来说,数字人是由算法驱动的,输入“语音流”,通过算法自动转换成了手势、嘴形、脸、身体姿势等。而它的算法原理主要包括:语义蒸馏、AI手语分词快编算法、跨模态拟人生成算法、音字人实时同步对齐技术等。
语义蒸馏由于手播速度远不及口播速度,字幕和手语词序列的长度存在时间不对等问题,如何在不影响原意的基础上,保证手语表达内容与播报画面容同步是一项重要技术。该技术正是语义蒸馏,即通过修改输入文本的语法和结构使其更容易阅读和理解,同时保留其基本思想并接近其原始含义。
AI手语分词快编算法针对中文文本语序与手语语序差异大以及手语语序规则不统一的问题,研究基于AI手语分词快编算法。AI手语分词快编实则属于低资源的机器翻译任务,即将语义蒸馏后的文本序列作为输入,通过分词快编,形成对应的手语动作序列。
跨模态拟人生成算法针对不同模态信息源标准不统一以及高逼真拟人生成难问题,研究跨模态拟人生成算法。将手语词ID序列作为输入,生成对应的拟人的动作-表情-手势,并对手机词序列到手势序列的映射关系进行建模,不仅能够保证生成结果的语义完整性,同时相邻手势动作之间也达到了自然平滑的过渡,从而生成高自然度的手语手势。
音字人实时同步对齐技术为了保证良好的用户体验,还需要对解说、手语、字幕进行时间对齐输出。采用全局时间轴对齐技术,在字幕到手语转换的同时,将对应字幕的时间戳写入手语流扩展信息中,为手语流增加全局统一时间依据,根据字幕、手语、视频流显示时间戳(PTS)信息,实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。近年来,随着数字人技术在各场景开始应用,技术得以迅速发展。
然而如果想实现全面落地,依然道阻且长。首先,在技术上有三大难点。第一,由于手语数据稀缺,句法复杂,且手语属于一种视觉语言,表达更为丰富形象,手语翻译的精准度存在着巨大挑战。其次是驱动问题。评价数字人包含多个维度,其中表情、唇形、手势、肢体等多个维度自由组合,会表达出不同的意思。如何同一时间对齐多个维度且准确表达含义也是难题之一。第三是视频流的对齐问题。
在直播中,输入的文本流是以句传递的,因此会有不能完全同步对齐的问题。未来对自然语言同声传译的研究或许是新的解决方案。
其次是产品和市场层面的应用受限。目前手语数字人技术的应用场景更多集中在电视娱乐、策展设计以及网络直播等领域。作为一种新型的产品,手语数字人也需要走出现有的场景,实现更多的内容价值。然而,由于较高的技术门槛以及制作成本,市场层面的反馈相对较慢。医疗、教育、养老等公共服务领域的应用也相对薄弱。这既是挑战,也是机遇。
最后是伦理层面。数字人技术逐渐显现其商业价值,但其形象IP、品牌IP、以及故事IP尚处于空白阶段,存在着版权纠纷等风险。此外,它的快速发展也对伦理秩序提出了更高的挑战。这都是当前大家需要探讨的部分。
由于与产业的不断结合,手语数字人变得越来越“有帮助”。华同学的研发团队智谱AI同时也研发了一系列智慧手语系列产品,涵盖手语播报、手语翻译以及手语词典三种应用,满足手语信息播报、实时翻译交流、手语学习等多个场景的需求。
AI手语播报:华同学可以为新闻媒体提供全流程、智能化的数字人手语播报视频生成服务,能够实现在电视台和网络平台上的数字人新闻手语播报,可应用在新闻播报、赛事解说、天气预报等场景。
AI手语翻译:华同学能够提供云服务和私有化部署两种方式,可实现输入文本或语音,实时输出手语视频。服务场景可以拓展至机场、火车站、银行、医院、政务大厅等各类公共服务场景,科技馆、展览馆等手语智能问答场景,以及大型会展活动现场。
而未来,手语数字人也将在更多地场景帮助有需要的人,包括在线教育、医疗健康、技术咨询等。这是技术的发展,也是技术的温度。只需要一个桥梁,技术红利便将源源不断地走向那些需要它们的人群。希望手语数字人可以实现更纯熟的技术、更广泛的应用以及多层次的开放,为残障人士平等参与社会生活创造无障碍环境,切实提高大家的社会参与感和生活幸福指数。