电话推销员、打字员、翻译等重复劳动型职业在未来很可能被AI取代,这早不再是什么难以置信之事了。不过人们普遍还怀有幻想:需要创意和审美的工作,仍将处于保饭碗的安全区……但就是有那么多科学家,一点也不忧虑“就业问题”,坚持拓展人工智能的极限,挑战人文艺术领域。
所以他们让AI办画展做设计甚至写小说,忙得不亦乐乎,最近几位来自北航、清华的科学家又向电影领域进军,研发出了能够剪辑视频的AI,Write-A-Video。研究者声称,有了它之后,写段文字直接拍成电影,不再是梦。
这愿景实在太吸引我了,忍不住就想一探究竟,这到底是个什么玩意儿,又到底是怎么工作的。先来看一个视频。怎么样,效果还是很不错的吧,文字与视频完全同步。
你能直接感觉到它成功抓取了语句中的关键词。事实上,Write-A-Video能剪辑的短片的种类相当丰富,输入的文字可以是网络文本、人物介绍、旁白以及童谣。然后,它会根据这段文本来挑选句子的关键词,这是进行视频剪辑的第一步。接下来,根据关键词,Write-A-Video将从素材库中挑选出合适的视频片段,这一过程主要分成两个步骤:关键词匹配和视觉语义嵌入。
为了方便关键词匹配,素材库中的每个视频都被分割为快照。研究团队采用了直方图的分割算法来使镜头切分更加精确:如果帧与帧之间在HSV色域的直方图相差大于80%,并且追踪的SURF关键点80%以上不匹配,那么算法就会以这两帧为界,切分镜头。HSV即色相(Hue)+饱和度(Saturation)+明度(Value),HSV色域是一种将RGB色彩空间中的点在倒圆锥体中的表示方法。
完成了关键词匹配之后,视觉语义嵌入技术会为匹配成功的镜头打分,排名最高的将成为候选镜头。这是通过一种VSE++方法来完成的:将跨模型内容编码到联合特征空间中,从而把文本和镜头联系起来,算法会从每十帧镜头中抽取一帧,计算它和文本之间的余弦相似度,最后取平均值,这样得到了镜头匹配程度的最终得分。选好了视频,下一步就是将镜头组合起来。
这一步,从本质上来说是Write-A-Video对视频的混合优化,而它也有自己的审美标准。首先,画面要明亮并生动。其次,镜头不能晃动得太厉害。最后,要避免不连贯的跳接(jump cut)和相反的相机运动。
Write-A-Video的工作效率是惊人的,它能将剪辑师的工作时间缩短数十倍。即便是新手,通过这款工具,能在13分钟内完成专业剪辑师7个小时的工作,并且质量不相上下。
可以想象它可以拯救不少剪辑师的头发。网剧隔天就要上线,其中的一个演员刚在网络上爆出丑闻,怎么办怎么办,放心这回你不用熬夜了,交给Write-A-Video去搞定吧。此外它还提供了友好的编辑页面。用户可以通过修改文字内容,比如添加、删除、移动文本,直接看到界面上候选的视频的变化。文字可以直接被转成配音旁白,烘托视频气氛。
看到这里,艺术爱好者估计已经忍不住了,他们会跳起来说剪辑可不是随随便便攒几个视频就可以,艺术是创作你懂吗。别急,我们也没认为Write-A-Video目前已经达到电影艺术家的水准了,从眼下看来,它能替代的,应该是视频剪辑员。就成片效果而言,Write-A-Video做出来的视频与文案呼应,镜头转接十分自然,实是新闻摄影、纪录片的绝佳助手,距离艺术电影还有点远。
在现实世界中,人工智能技术早就已经成熟运用于视频后期制作,极大地提高了生产效率。我们熟悉的视频网站,如爱奇艺、腾讯、优酷,在视频剪辑、视频添加等方面都有成熟的AI应用。比如,利用AI选出最优的关键帧或关键片段作为视频封面,自动生成赛事集锦、影视剧片花等。而像是抖音、快手等短视频平台,在视频美化等方面也有很多成熟技术。
不过话说回来,尽管有人一千个不愿意,还是有AI导演要出道的。
2018年,一个名叫Benjamin的AI,仅仅花费2天时间,就自导自演完成了一部名为《Zone Out》的科幻短片。他的素材来源于所有公有领域的电影,以及提前在绿幕前录制的演员表情。
Zone Out片段有趣的是,虽然Benjamin成功完成了此次科幻电影的制作,但换脸技术还是出现了一些瑕疵,比如女主角居然长了小胡子……外加剧组没有时间制作真人配音,所以,这部片子并没有突出重围获个奖啊啥的也并不意外。
真正值得一提的是,Benjamin已经连续三年参加伦敦科幻电影节(Sci-Fi London)的48小时电影挑战了。此前的两届,它只负责写剧本,会给出少许的舞台指示。
演员们根据对剧本中的台词,自行演绎。而它参与的两部短片《Sunspring》和《It’s no Game》均获得了评委的青睐,进入了比赛的前十。Sunspring片段Benjamin是由导演Oscar Sharp和AI研究员Ross Goodwin共同创作的电影AI。多年来,导演Sharp一直想制作一部由随机片段组成的电影,甚至通过投骰子来选择文本,并写出了一个剧本。
Goodwin则在为企业客户代写书信时,磨练了机器辅助创作的技能,他一直在用马尔科夫链写诗。
简单解释一下这个神秘的高大上名词:马尔科夫链。如果在给定现在状态及所有过去状态情况下,一个随机过程的未来状态的条件概率分布仅依赖于当前状态,那么这个随机过程即具有马尔科夫性质。马尔科夫链指的是一组具有马尔科夫性质的离散随机变量的集合,常见例子就是简化的股票涨跌模型,它现在被较多地用于机器学习算法之中。
Benjamin则是基于LSTM(长短期记忆,Long short-term memory)递归神经网络来进行文本识别。LSTM的长处是利用马尔科夫链截取更长的字母串,因此,能够更好的预测长句子,甚至段落。它还擅长产生原创的句子,而不是从素材库中东拼西凑。
Benjamin的真身(2016)也许有人会问Benjamin到底是作者还是个工具?Benjamin原本被命名为Jetson。
但在2016年的首次登场就受到热切关注,点击量过百万后,它在颁奖现场接受了采访。有趣的是,当人们询问Jetson下一步将做什么的时候,它说了貌似蕴含深奥哲理的的几句话,并没忘在最后道明自己真正的大名。
这部分内容如下:What's next for you,Jetson? Herewe go. The staff is divided by the train of the burning machine building withsweat. No one will see your face. The children reach into the furnace, but thelight is still slipping to the floor. The world is still embarrassed. The party is with your staff. My name is Benjamin.
Oscar Sharp和Ross Goodwin在《Sunspring》推出之后,也收到了大量询问,来自那些担心自己因此而失业的人们。面对这些质疑,两位主创说,这让他们想起了照相机的发明,照相机并没有取代绘画,反而是给予绘画以自由。他们认为自己所做的事也是赋予写作以自由。