啊,老虎的防护网怎么“不见”了?首先,隔着防护网给老虎拍一段视频。然后,用一股神秘的力量“逼退”防护网。这时候就可以骄傲地告诉别人,我是和老虎正面对刚过的人。老虎扬起头张开嘴,我都稳如泰山,手里的镜头晃也不晃一下(误)。那么问题就是,这一股神秘的力量从何而来?有只AI,在背后操控了一切。它由台湾大学领衔出品,凭着精湛的法术登上了计算机视觉顶会CVPR 2020。暗中观察一举一动。
所以,AI是怎样抹杀防护网的?它用的是光流(optical flow)大法。这个概念在1940年代就出现了,描述的是观察者眼里物体的运动情况。观察者可以是人类的肉眼,也可以是摄影机的镜头;物体的运动可以是它自己造成的,也可以是肉眼或者镜头的运动造成的。视频里的每一个像素点,在帧与帧之间发生的位移,都会被记录下来。光流法便是利用这些,来估计物体发生了怎样的运动。
具体到老虎的视频里,要把防护网看作遮挡物,把其他部分看作背景。因为镜头在动,所以视频里遮挡物和背景都在运动,但它们的运动是有差异的,这种差异会被光流法灵敏地捕捉到。AI就是利用它们之间的运动差异,把防护网(遮挡物)分离出来。而抠掉防护网之后,原本被它遮挡的地方成了残缺,需要修复。那么,修复的依据是什么?运动的摄影机,拍下了不同角度的画面。每一帧里,背景被遮挡的部分都不同,露出的部分也不同。
一帧露出的部分,可能成为修复其他帧的参考资料。总结一下,一是抠出遮挡物,二是修复背景。看起来,这是两步就能完成的轻松任务?现实没有这么简单,需要循序渐进。科学家们把任务分成了三个阶段,从粗糙到精细,每个阶段都要在不同尺度上估计光流和修复背景。两个步骤要交替进行三个回合。这样,科学家们才获得了肉眼难辨真假的科学画面。于是问题又来了:直接识别防护网的特征不就好了,为什么要用光流这么麻烦?
毕竟,你可能没有向别人炫耀自己胆大的需求,却有隔着玻璃拍照的需求呢。比如,在水族馆拍鱼的时候自己的影子乱入,在博物馆拍展品的时候自己的影子又乱入……这只AI除了可以抹掉防护网,也负责消除各类“鬼影”。只要向它投喂一组不同角度拍下的画面,就可以了。除了解锁清爽无鬼影的画面,还可以把影子里的景色也还原出来。另外,像去除雨滴这样的经典任务,也难不倒它。
研究团队在论文里说,不同类型的遮挡物,都可以用这一种算法来消除。其实,光流法的多才多艺,人类也不是头一次领教了。去年,商汤的科学家们孕育的一只AI,能直接从一段影像里抹去一个人物,依靠的也是光流。对算法来说,再活蹦乱跳的人物,也只是不同形态的遮挡物而已。谁也逃不出AI的支配。