进入哈利波特的世界,会说话的蒙娜丽莎什么样?

作者: 药明康德AI

来源: 药明康德AI

发布日期: 2019-12-23

本文介绍了2019年Altmetric百篇论文榜单中备受关注的AI视频合成系统,该系统能够通过少样本对抗学习,从静态图像生成动态视频,无需大量数据集训练。文章详细描述了该技术的实现过程,包括元学习和对抗学习的使用,以及其在社会层面的影响和潜在问题。

年尾将至,从各类盘点榜单看来,2019也是收获颇丰的一年,人工智能、疫苗、气候危机等是今年几大热词。“Altmetric百篇论文榜单”日前发布,该榜单包含了今年热议度高、讨论范围广的100篇研究,本文旨在介绍榜单中最受关注的一种AI视频合成系统,同时也是榜单中的Top 1,从发布指数来看其Altmetric指数达13557。

蒙娜丽莎,或许只在人头攒动的卢浮宫曾与她远远对望,相视一笑,抑或是在网上看一睹其“神秘”笑容,转发了几个恶搞表情包。可曾想过,神秘的蒙娜丽莎从传世名作中“复活”,并动起来了?这样的场景只在电影中见过,《哈利·波特》中格兰芬多休息室的胖夫人画像照进了现实。这项引起广泛关注的研究便要从“会动”的蒙娜丽莎说起。

这是真实头部说话神经模型的少样本对抗学习,没有3D建模,仅以一张静态图画就能训练制作出视频的技术,令人称奇。

今年5月,三星(Samsung)AI实验室以及俄罗斯斯科尔科沃创新中心(Skolkovo Innovation Center)的研究人员发篇题为“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”的论文,概述了这种技术。

该技术基于卷积神经网络(CNN),模型通过获得一个输入图像,从而可以模拟输出视频中目标对象的运动状态,也就是我们在上图所看到的。该研究5月预印发表,6月正式被计算机视觉领域顶级会议CVPR 2019收录。

其实此类想法和技术在此之前也不少见,已经有不少研究人员从事该类研究。

2018年,华盛顿大学研究人员分享了他们创建的“真假奥巴马”——ObamaNet,该技术利用神经网络分析了数百万帧的视频,来确定奥巴马的面部表情如何变化。以及加州大学伯克利分校(University of California, Berkeley)研究团队使用YouTube视频训练AI,进而生成可以做后空翻等杂技动作的模型。大大小小研究不在少数,可为何独独这篇论文能吸引外界关注呢?

该研究的特殊之处便在于,其AI系统不需要经过大量数据集的训练过程,它只需看一次需要输出目标对象动作的静态图片就可以运行。研究人员将这种学习方式称为few-shot learning。在few-shot learning的基础上,研究人员采用元学习对VoxCeleb2(包含许多名人头像的数据库)数据集进行元训练(meta learning)。

通过元训练,AI则学习到了怎样快速生成图像的能力,而不是具体生成某一特定类别图像的能力。

接着,研究人员运用对抗学习(adversarial learning),创建了对抗神经网络,可以像“复制粘贴”的过程那样,将静态图中的面部信息“复制”到动图或视频中。

它们分别是:(1)嵌入式网络:可以将输入的静态图像中人像的眼耳口鼻等轮廓信息,转换为相关向量进而传给生成神经网络;(2)生成神经网络:通过复制人像的面部标志(landmark),最终合成人在动态视频中的面部表情;(3)鉴别神经网络:分别收集生成神经网络合成的面部图像、landmark和真实的动态视频的面部表情信息,通过对抗的方式提升生成神经网络的生成能力以及自身的辨别能力。

形象来说,生成神经网络是“造假方”,鉴别神经网络则是“打假方”,而嵌入式网络则像“帮凶”。一旦前两者能力达到平衡,基于对抗学习的AI模型的能力也就过关了。通过上述对抗学习的过程,加之元学习的方法,最终的AI模型能够在视频数据集上通过学习小量的样本,达到较强的学习能力,并可以运用此学习能力快速找到解决其他同类问题的方法。

因此,最终的AI模型可以灵活的根据静态图片生成各式各样灵动的图像,并将这些图片装帧进而生成动态图像。

除了蒙娜丽莎之外,这项研究中,还有不少名人的静态头像也被研究人员用来进行相关研究。有穿越时空,与你进行科学对话的爱因斯坦。还有风情万千的玛丽莲·梦露重现魅力与光彩。从研究和技术层面来看,这是AI视频合成系统的一次突破发展。

从社会性角度来看,同样引发不少热议,有人担心若是基于可观的转换率,视频通话是否因此会被造假?以假乱真会不会达到新高度?还有人表示未来流量演员会否因此仅靠一张张美图便闯荡影视圈?也有人在担心人脸支付的安全性。更有脑洞大开着希望凭借此技术,与曾经的中外智者进行平行时空的对话……

技术的更新迭代旨在便利造福人类,若是技术反而成为部分人的负担,并影响了社会秩序,那么技术合规必须被重视。Deepfake技术引发了广泛议论,让人“又爱又恨”,或许最近国家网信办出台的新规定,对AI技术换脸进行了明确约束,诸如这样的举措或许可以减少部分人的忧虑吧。

UUID: 8a6b1be7-a298-4c60-a9b4-41873b7ec5b1

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2019/2019-12-23_进入哈利波特的世界,会说话的蒙娜丽莎什么样?.txt

是否为广告: 否

处理费用: 0.0050 元