“表情移植神器”上线，我家爱豆的面瘫演技是不是有救了！

作为一个有底线的颜控，追剧总是很烦恼：那些好看的小鲜肉小鲜花，演技大多不咋样。有些粉丝甚至会想：可不可以把戏骨的演技嫁接到全程“瘫痪”的爱豆身上？这听上去太难了吧。不过最近，发明GPU的公司核弹厂英伟达（NVIDIA）发布了两项重磅技术，让这个有望实现了。一个技术是上个星期发表的与MIT联合研究的“视频-视频合成”技术（video-to-video synthesis，下文简称vid2vid）。

另一个是礼拜一德国发布会上黄仁勋（Jensen Huang）重磅推出的新一代“图灵框架”卡皇 RTX，实现了实时光线追踪（Real-time ray tracking）技术。被黑科技闪瞎双眼的吃瓜群众们瞬间脑洞大开：这两个堪称“表情移植神器”和“实时渲染怪力圣器”的家伙，是不是可以让影视特效技术大飞跃、能让流量明星从此年产无数部高质量抠图剧呢？

现有的抠图 | 《孤芳不自赏》vid2vid：由视频合成视频NVIDIA与MIT的联合研究团队发表的这篇文章名为《视频-视频合成》（Video-to-Video Synthesis），顾名思义，就是从一个原始输入视频，经过合成处理，输出一个新的视频。

输入的内容主要有两个：一个是主体视频，叫做“语义图”（semantic maps），我们可以把它看作是视频动作的“骨架”；另一个是“现有图像”（past images），我们可以把它看作是视频内容的“皮肉”。

语义图和现有图像作为原材料，喂进了一个叫做“顺序生成器”（sequential generator）的模型当中，输出两样东西：“中间帧”（intermediate frame）和 “流谱”（flow map ）。“流谱”被用来使“现有图像”产生变化，变化后的图像与“中间帧”结合生成“输出图像”（也可以叫做“输出帧”，毕竟，常识告诉我们，视频是一帧一帧的画面连接起来的）。

这个“输出图像”，被迭代进模型，作为下一次运算输入的“现有图像”。此外，还有两个“鉴别器”——“图像鉴别器”（image discriminator）和“视频鉴别器”（video discriminator）。它们被用来评估每一帧画面中的各个特点，以及时间上的连续，来确保输出视频的清晰度、逼真程度、以及时间一致性。

研究团队在视频讲解中说，这样“把一个人的舞蹈动作转移给了另一个人”（transform dancing motion from one person to another person）。研究团队给的demo，不知大家有没有认出来是新垣结衣在《逃避虽可耻但有用》里的那一段！

RTX：加速图形运算NVIDIA老板黄仁勋手上拿的企图亮瞎所有观众的这款“神器煤气灶”RTX，号称世界上第一款光线追踪GPU，据说最大的特点是能达到“10 giga rays/sec ray tracing”,意思就是说每秒100亿的光线追踪。RTX的厉害之处，我们可以通过一个侧面来了解，就是在场景中“模拟光线照射物体”。物体反射的光线越多，效果越真实。

现在最牛的计算机，能够达到的是几十万级别的光线追踪，而RTX达到了100亿，中间差了多少个零大家慢慢数哈。脑洞时间：这些能干嘛？看完了技术，我们来开一下脑洞：这些技术能用来干嘛？RTX的本质是大大提升了图形运算的效率，会使我们在现有技术上更快更好地得到相应的视觉产品。而vid2vid的脑洞空间则大得多！

比如，年纪大的演员不得不从少年时期开始塑造角色时，可以用自己的表情生成“骨架”输入视频，用自己年轻时的照片P上相应的妆容作为“皮肉”的“现有图像”输入，就可以避免很多尴尬了。再比如，等到技术成熟了，也许影视公司可以每个角色请不同的演员拍一组定妆照，然后该角色只要捕捉记录一个演技超棒的戏骨的表演（神情、动作等）。这样就可以根据不同演员提供的“皮肉”图像输入数据，生成不同演员版本的影视作品。

这避免了各家粉丝对选角不满互喷的状况，各买各家爱豆专辑版，从此天下太平。其实，目前能合成最长30秒的vid2vid技术，画质细节也有很大提升空间。但这是一类新技术的重大飞跃，会给我们带来无数新的可能。《三体》中三体人在距现在100年后拍出了的足以以假乱真的地球人电影，而vid2vid技术可能在不远的将来就能实现科幻小说中强大外星文明的手段，我们拭目以待。