作为一个有底线的颜控,追剧总是很烦恼:那些好看的小鲜肉小鲜花,演技大多不咋样。有些粉丝甚至会想:可不可以把戏骨的演技嫁接到全程“瘫痪”的爱豆身上?这听上去太难了吧。不过最近,发明GPU的公司核弹厂英伟达(NVIDIA)发布了两项重磅技术,让这个有望实现了。一个技术是上个星期发表的与MIT联合研究的“视频-视频合成”技术(video-to-video synthesis,下文简称vid2vid)。
另一个是礼拜一德国发布会上黄仁勋(Jensen Huang)重磅推出的新一代“图灵框架”卡皇 RTX,实现了实时光线追踪(Real-time ray tracking)技术。被黑科技闪瞎双眼的吃瓜群众们瞬间脑洞大开:这两个堪称“表情移植神器”和“实时渲染怪力圣器”的家伙,是不是可以让影视特效技术大飞跃、能让流量明星从此年产无数部高质量抠图剧呢?
现有的抠图 | 《孤芳不自赏》vid2vid:由视频合成视频NVIDIA与MIT的联合研究团队发表的这篇文章名为《视频-视频合成》(Video-to-Video Synthesis),顾名思义,就是从一个原始输入视频,经过合成处理,输出一个新的视频。
输入的内容主要有两个:一个是主体视频,叫做“语义图”(semantic maps),我们可以把它看作是视频动作的“骨架”;另一个是“现有图像”(past images),我们可以把它看作是视频内容的“皮肉”。
语义图和现有图像作为原材料,喂进了一个叫做“顺序生成器”(sequential generator)的模型当中,输出两样东西:“中间帧”(intermediate frame)和 “流谱”(flow map )。“流谱”被用来使“现有图像”产生变化,变化后的图像与“中间帧”结合生成“输出图像”(也可以叫做“输出帧”,毕竟,常识告诉我们,视频是一帧一帧的画面连接起来的)。
这个“输出图像”,被迭代进模型,作为下一次运算输入的“现有图像”。此外,还有两个“鉴别器”——“图像鉴别器”(image discriminator)和“视频鉴别器”(video discriminator)。它们被用来评估每一帧画面中的各个特点,以及时间上的连续,来确保输出视频的清晰度、逼真程度、以及时间一致性。
研究团队在视频讲解中说,这样“把一个人的舞蹈动作转移给了另一个人”(transform dancing motion from one person to another person)。研究团队给的demo,不知大家有没有认出来是新垣结衣在《逃避虽可耻但有用》里的那一段!
RTX:加速图形运算NVIDIA老板黄仁勋手上拿的企图亮瞎所有观众的这款“神器煤气灶”RTX,号称世界上第一款光线追踪GPU,据说最大的特点是能达到“10 giga rays/sec ray tracing”,意思就是说每秒100亿的光线追踪。RTX的厉害之处,我们可以通过一个侧面来了解,就是在场景中“模拟光线照射物体”。物体反射的光线越多,效果越真实。
现在最牛的计算机,能够达到的是几十万级别的光线追踪,而RTX达到了100亿,中间差了多少个零大家慢慢数哈。脑洞时间:这些能干嘛?看完了技术,我们来开一下脑洞:这些技术能用来干嘛?RTX的本质是大大提升了图形运算的效率,会使我们在现有技术上更快更好地得到相应的视觉产品。而vid2vid的脑洞空间则大得多!
比如,年纪大的演员不得不从少年时期开始塑造角色时,可以用自己的表情生成“骨架”输入视频,用自己年轻时的照片P上相应的妆容作为“皮肉”的“现有图像”输入,就可以避免很多尴尬了。再比如,等到技术成熟了,也许影视公司可以每个角色请不同的演员拍一组定妆照,然后该角色只要捕捉记录一个演技超棒的戏骨的表演(神情、动作等)。这样就可以根据不同演员提供的“皮肉”图像输入数据,生成不同演员版本的影视作品。
这避免了各家粉丝对选角不满互喷的状况,各买各家爱豆专辑版,从此天下太平。其实,目前能合成最长30秒的vid2vid技术,画质细节也有很大提升空间。但这是一类新技术的重大飞跃,会给我们带来无数新的可能。《三体》中三体人在距现在100年后拍出了的足以以假乱真的地球人电影,而vid2vid技术可能在不远的将来就能实现科幻小说中强大外星文明的手段,我们拭目以待。