仿制人眼,相当于仿制人类的整个大脑?

作者: 张晓林

来源: 格致论道讲坛

发布日期: 2021-02-19 17:00:00

本文主要探讨了仿生眼的研究进展及其与人类视觉系统的关系,强调了眼睛在生物进化中的重要性,以及仿生眼在机器人视觉中的应用前景。

张晓林,中国科学院上海微系统与信息技术研究所研究员,今天我主要讲一下我们团队在我们的领域得到的一些新的进展,首先,我们讲一下仿生眼。因为眼睛是所有生物或者是绝大部分生物赖以生存的重要工具,可以说没有眼睛,绝大部分生物几乎无法生存,包括人类。

眼睛是怎么诞生的呢?大家可以想象,在寒武纪,也就是在5亿多年前,有一个小的生物,它的大脑上长出了一颗感光的细胞。

因为有了这个细胞,它可以感知周围的环境,使它的生存能力大大提高。随着进化,眼睛被越做越好,生物们的竞争更加激烈起来,也会产生两性,也就是说雄性和雌性之间可以互相追逐了。当然在那之前也有两性,但是它们互相之间无法找到对方。随着这些能力的进化,产生了寒武纪的生物大爆发,也就是在几百万年间,大量的生物出来。

当时的眼睛千奇百怪,有一只眼的,也有三只眼的、六只眼的,甚至有浑身都是眼的,最后慢慢进化成了现在的几种眼睛。

由于眼睛是从脑子里面出来的,所以人的眼睛也是一样,是大脑伸出体表的唯一的一个器官,我们的眼球其实就是大脑。由于眼睛的功能极为特殊,而且它与大脑的联系非常紧密,所以要制作仿生眼,就要研究大脑。因此我们说,仿生眼就是仿制大脑最精致的部件,因为仿生眼本身就是机器视觉。

但是为什么要把仿生眼与机器视觉做比较呢?是因为现在的机器视觉,比如大部分的无人驾驶,或者是机器人,用的视觉基本上是主动式的,什么叫主动式的?比如激光雷达是要射出一束激光,然后来测量它返回来时的时间,来测深度,因此激光雷达或TOF相机,或超音波雷达等,基本上都是主动式的机器视觉。而仿生眼属于被动视觉,它是用自然的光,来测量对方的距离,测量它的颜色、位置等。所以说我们把仿生眼定义在了被动视觉的领域。

虽然自然界中有很多种眼睛,但是大概也就分为四种。首先一种,就是叫蜘蛛眼,应该说是比较完善的,视觉系统里面最简单的眼睛。蜘蛛的眼睛有8只,前面4只,后面4只,所以全方位它都能看得见,因为它没有脖子,所以需要看见全方位。而且蜘蛛的眼睛也都是一对一对的,所以我们把蜘蛛眼认为是和现在的相机,比如双目相机、多目相机一样的东西。第二个是复眼,也就昆虫的眼睛,是自然界里种类最多的眼睛。

再往上更高级一点,比较有特点的就是鹰眼,老鹰的眼睛可以在千米高空看到下面的小动物。所有这些眼睛里,最好的眼睛,即综合能力最强的眼睛,是人类的眼睛。绝大部分动物的眼睛都是黑白的,它们看不到彩色,当然有些昆虫是有的。人类的眼睛在进化的过程中,因为人类的大脑是最发达的,所以它的能力就各式各样,特别多。

先讲一下蜘蛛眼,蜘蛛前面有两对大的眼睛,里面有两万多个感光细胞,相当于两万个像素分辨率的相机,而且是固定相机。所以我们就把目前为止在行业上主要应用的立体相机,双目的或多目的相机,都称为仿生蜘蛛眼。还有一种比较好的眼睛叫仿生复眼,复眼是所有昆虫都在用的眼睛,蜻蜓是昆虫里眼睛最好的,它有两万多个小眼,它的小眼上都有一个小透镜,这个小透镜,让它可以把一束光打到它的焦平面上。

也就是说,焦平面上有一点,它就可以对应这个方向上的一束平行光,如果焦平面上有三点,它就有三束平行光。蜻蜓的眼睛或果蝇的眼睛等等,基本上都有8个感光神经,就是每个小眼下面有8个感光神经,即有8束光。如果把所有小眼中的每一个对应的感光细胞图像抽取出来,它就是一幅图像,如果有8个感光神经,就有8幅图像。

有8幅图像能够检测出不同方向的光,这样就可以做成一个视差,也就是复眼本身就带有立体视觉的功能,而这个功能,运算相对简单。

像昆虫这样没有太复杂的大脑的生物,它们也能有立体视觉的感觉,也能够让它们落在树枝上,也可以抓取猎物。我们也模仿这种结构做了仿生复眼,比如在普通的摄像机上贴上小型的微小镜头,目前为止,我们可以得到一个比较好的图像。

但是问题来了,我们无法做球形芯片,因为现在的芯片全是平面的,所以这一个仿生眼只能看到这一面光束,这是不够的。如果想要散开,和普通相机一样,有大一点的视场角,那就一定要有球面的芯片,现在做复眼的环境,没有完全成熟。

下面我们再讲一下鹰眼,老鹰的眼睛和人类不太一样的是,它有两个中心视。也就是人眼看中间看得清楚,而旁边是有点模糊的,不是很清楚。

但是老鹰的眼睛有两个中心视点,一个叫深的中心视,它可以看很远的地方。可能人视力有1.5,就算是视力好的眼睛了,它可能是十或者几十也说不定。还有一个浅的中心视,它有两种方式。当鹰在高空盘旋时,它用一只眼睛看底下,即用深的中心视看,如果看到下面有猎物,比如有小老鼠,它就开始盘旋下来。快到底下时,离猎物近了,它就开始用两只眼睛看,这时是用浅的中心视看,这时它会走直线,能很准确地抓到猎物。

因为用两只眼睛看,它就会有深度,所以能准确地测量距离。

眼睛包含大部分的大脑,所以眼球几乎牵扯到大脑的所有部分,也就是说眼睛就完全包括整个的大脑,它相当于一个脑系统。如果把眼睛做好了,就是把整个大脑都做好了。通过眼睛的视觉进来后分两块,一块进入到上丘的地方,还有一块进入到后脑的地方,叫枕叶,它叫视觉初级皮层。

进入这两个地方后进行处理,处理后的结果又反馈到脑干上来控制眼球,脑干有控制的系统,这个控制如果是要做微调,或者做更好的效果,小脑又有帮助。小脑直接牵扯到人眼的控制,它是一个万能的学习控制系统,然后在大脑里面,又往上走,走到顶叶、韦尼克区、布罗卡氏区,再往前面走就是额叶前区。

额叶是做决策的,再到顶叶,就是脑顶端,去做运动规划,这一套系统做出来,我们的眼球就可以动了,而且同时还可以控制我们整个身体的运动。

我们视觉的主要处理系统是在大脑的视觉皮层上,这个位置的主要功能有很多,比如特征抽出、匹配、检测、分类等。再细分一下,就是大脑可以分成四大块,最前面的叫额叶,就是脑门这里,上面是顶叶,后面是枕叶,再到颞叶。

再细分的话,是有52个区,有小区,当然还可以再细分,每一个区的功能不一样。比如枕叶,这是我们视觉处理的基础处理的地方,把图像变成各个有意义的东西,例如桌子、地面、椅子、电视等,它把它们分类。视觉皮层上两侧的,就是耳朵的听觉方面的处理,这两个处理做成一个抽象的信息后,进入顶叶,在顶叶做更进一步的分析。然后传到额叶做决策、做判断,再回到顶叶做身体的控制,运动规划。

我们做产业化做得比较久,最开始是做3D拍摄,因为3D拍摄的两个相机的位置要和人眼一样,人看了才不会晕,效果比较好。我们做完后,发现这个市场没有了,因为现在的3D拍摄都用2D转3D,电视机的3D也没有人搞了。但是我估计,将来3D的头显出来后,这个产业还会再重新发展起来。再一个就是我们做的仿生眼最近开始销售,主要是对应搞研究的人。

这个仿生眼的两只眼睛动,它可以做左下角的深度图,也可以做三维重建,比如语义分割和显著性。能够做深度图的可动的眼睛,现在我们在国际上还没发现有别人做出来,这是我们一个很大的成果。我们这个仿生眼也可以做导航,右边就是我们抓的一个固定好的双目。我是震动着走的,这时的图像不仅模糊,下面的轨道也是很乱的,有时就看不见,断了,它要靠IMU 陀螺仪加传感器来接续。

但是左边就是用了仿生眼,这个仿生眼无论被怎么晃,图像都非常稳定,所以效果也非常好。我们在产业上,比如新松机器人的一个获奖的产品,就是用了我们的机器头脑、仿生眼。右边是我们自己在做的机器人,带机器头脑和眼,上海市给了我们一个比较大的项目做机器头脑。这块就是无人驾驶了,现在做自主行驶机器人,在无人驾驶领域肯定会有很大的用处。

因为现在无人驾驶的双目都是固定的,固定双目有个最大问题就是当车平稳地走时没问题,一遇到颠簸,图像马上就模糊了,它就看不到了。当然人眼不会出现这个问题,当你摔跟头时,双眼看得很清楚。视觉系统必将引发机器人寒武纪的到来,生物的寒武纪是生物的眼引起的,视觉系统一定会引起机器人种族的寒武纪。也就是说如果眼睛做好了,我们的机器人就会满地跑了。

UUID: c2a4a870-f374-428b-9473-33aee678e9f5

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/格致论道讲坛公众号-pdf2txt/2021/格致论道讲坛_2021-02-19_仿制人眼,相当于仿制人类的整个大脑? | 张晓林.txt

是否为广告: 否

处理费用: 0.0200 元