北京时间今天早上,在世界杯E组西班牙对阵日本的一场关键战中,上半场0-1落后的日本队,在下半场开始6分钟内连入2球逆转比赛。其中日本队的第二粒进球,三笘薰在底线附近救回皮球时,皮球十分接近出界,当值边裁也举旗示意此球无效。然而,本届杯赛采用了全新的三维相机技术(多视角成像),在高科技的帮助下裁判最终确认进球有效。日本队也凭借此粒金子般的进球战胜对手拿到小组第一,同时送德国队小组出局。
多视角成像的原理是什么?这一技术为何会成为主裁判作出判罚决定的重要助手?请看鹏城实验室助理研究员焦述铭博士带来的最新解读。
根据足球规则,皮球是否出界,是根据球体正上方的垂直投影,是否完全过线来判定是否出界,而非球的实体有没有压线。所以,这颗皮球没有出界。对于进球的界定,则是要求皮球整体全部越过球门线。如果刚好砸在球门线上,也只是功败垂成。在一些时候,一个球到底进了还是没进,实在难以判断,诞生了一桩又一桩的“魔鬼进球”悬案。
多视角拍摄是三维相机的一种典型实现方式,好多手机背面都安装了多个摄像机,每个摄像头可以以不同视角获取三维场景信息。而对于人类来说,天生具有左右双眼,而不是一只眼睛,也是为了更好的感知立体世界。尽管左右眼之间的距离间隔比较近,但观看同一个物体时,左眼视角画面和右眼视角画面还是会有些许不同,这有助于我们定位物体的大小远近。
除了多视角成像之外,还有两种常见的三维相机技术,分别是结构光和时间飞行(time-of-flight,tof)。使用结构光技术的时候,我们分别需要一台投影仪和一台相机,投影仪会把均匀分布的平行条纹图案照射到物体表面,然后相机从另一个视角观看拍摄条纹。
如果物体表面是平的,相机看到的条纹就还是均匀平行的规则形状,可如果物体表面是三维凹凸不平的,条纹就会变得扭曲变形,而且对于不同形状,扭曲变形的方式还会不一样。从弯弯曲曲的线条中,我们就可以反过来推测出三维物体的形状。
而时间飞行(tof)技术中,要想测量目标物体上某一点距离你的远近,发射一束光到那一点,然后这束光碰到物体点,“撞了南墙”不得不走回头路之后,再用探测器接收反射光信号,看一下时间间隔。光的速度是恒定的,从这趟“折返跑”的时间长短中自然可以计算出那一点的远近距离。当然一个三维场景中会有好多个不同物体,每个物体上也有好多个点,为了完整进行测量,则需要逐点扫描,让光束“折返跑”好多次(当然它也不怕累)。
我们可以在相机镜头上做文章,普通的相机镜片又称为透镜,形状是对称规则的,表面是平滑的,而研究者经过精巧的优化设计,让镜片各个部分厚薄不均匀,放大来看,凹凸不平,奇形怪状,称为“相位编码孔径”。通过这样的镜片拍到的照片会略有瑕疵,比如有些地方会稍稍模糊或者颜色扭曲,不过对整体画质影响并不大,人眼不容易察觉到。
可这些微小的瑕疵中却暗藏玄机,有“不小的信息量”,因为不同远近的物体通过这样的镜片获得的图像瑕疵是不同的,利用人工智能算法可以直接从这样一张不完美的照片中直接提取出照片对应的远近深度信息。
我们还可以从蜘蛛身上做文章,自然界有一种会跳的蜘蛛,称为跳蛛(Salticidae),它们每次总能精准跳到想去的位置,科学家纳闷了,它为啥有这么强的三维立体定位能力?
后来发现,原来这种蜘蛛眼睛里有四层视网膜,而人眼中只有一层视网膜。视网膜相当于老式相机中的胶片或者数码相机中的传感器,是人眼获取到图像的载体,单层视网膜决定了人眼获得的图像只能是平面的。
而多层视网膜可就不简单了,由于不同层视网膜本身之间就有距离间隔,不同远近物体的投影有的会聚到第一层视网膜上,有的会穿过透明的第一层视网膜,会聚到第二层视网膜上,还有第三层、第四层……可能在某一层视网膜上是聚焦的,呈现的是清晰的图像,在其他几层视网膜上呈现的就是不同程度模糊的图像,一个物体在多层视网膜上产生不同模糊程度图像的分布情况,就显示了它的远近距离,这样一套立体的视网膜系统也可以给我们带来立体的感知。