仿制人眼，相当于仿制人类的整个大脑？

张晓林，中国科学院上海微系统与信息技术研究所研究员，今天我主要讲一下我们团队在我们的领域得到的一些新的进展，首先，我们讲一下仿生眼。因为眼睛是所有生物或者是绝大部分生物赖以生存的重要工具，可以说没有眼睛，绝大部分生物几乎无法生存，包括人类。

眼睛是怎么诞生的呢？大家可以想象，在寒武纪，也就是在5亿多年前，有一个小的生物，它的大脑上长出了一颗感光的细胞。

因为有了这个细胞，它可以感知周围的环境，使它的生存能力大大提高。随着进化，眼睛被越做越好，生物们的竞争更加激烈起来，也会产生两性，也就是说雄性和雌性之间可以互相追逐了。当然在那之前也有两性，但是它们互相之间无法找到对方。随着这些能力的进化，产生了寒武纪的生物大爆发，也就是在几百万年间，大量的生物出来。

当时的眼睛千奇百怪，有一只眼的，也有三只眼的、六只眼的，甚至有浑身都是眼的，最后慢慢进化成了现在的几种眼睛。

由于眼睛是从脑子里面出来的，所以人的眼睛也是一样，是大脑伸出体表的唯一的一个器官，我们的眼球其实就是大脑。由于眼睛的功能极为特殊，而且它与大脑的联系非常紧密，所以要制作仿生眼，就要研究大脑。因此我们说，仿生眼就是仿制大脑最精致的部件，因为仿生眼本身就是机器视觉。

但是为什么要把仿生眼与机器视觉做比较呢？是因为现在的机器视觉，比如大部分的无人驾驶，或者是机器人，用的视觉基本上是主动式的，什么叫主动式的？比如激光雷达是要射出一束激光，然后来测量它返回来时的时间，来测深度，因此激光雷达或TOF相机，或超音波雷达等，基本上都是主动式的机器视觉。而仿生眼属于被动视觉，它是用自然的光，来测量对方的距离，测量它的颜色、位置等。所以说我们把仿生眼定义在了被动视觉的领域。

虽然自然界中有很多种眼睛，但是大概也就分为四种。首先一种，就是叫蜘蛛眼，应该说是比较完善的，视觉系统里面最简单的眼睛。蜘蛛的眼睛有8只，前面4只，后面4只，所以全方位它都能看得见，因为它没有脖子，所以需要看见全方位。而且蜘蛛的眼睛也都是一对一对的，所以我们把蜘蛛眼认为是和现在的相机，比如双目相机、多目相机一样的东西。第二个是复眼，也就昆虫的眼睛，是自然界里种类最多的眼睛。

再往上更高级一点，比较有特点的就是鹰眼，老鹰的眼睛可以在千米高空看到下面的小动物。所有这些眼睛里，最好的眼睛，即综合能力最强的眼睛，是人类的眼睛。绝大部分动物的眼睛都是黑白的，它们看不到彩色，当然有些昆虫是有的。人类的眼睛在进化的过程中，因为人类的大脑是最发达的，所以它的能力就各式各样，特别多。

先讲一下蜘蛛眼，蜘蛛前面有两对大的眼睛，里面有两万多个感光细胞，相当于两万个像素分辨率的相机，而且是固定相机。所以我们就把目前为止在行业上主要应用的立体相机，双目的或多目的相机，都称为仿生蜘蛛眼。还有一种比较好的眼睛叫仿生复眼，复眼是所有昆虫都在用的眼睛，蜻蜓是昆虫里眼睛最好的，它有两万多个小眼，它的小眼上都有一个小透镜，这个小透镜，让它可以把一束光打到它的焦平面上。

也就是说，焦平面上有一点，它就可以对应这个方向上的一束平行光，如果焦平面上有三点，它就有三束平行光。蜻蜓的眼睛或果蝇的眼睛等等，基本上都有8个感光神经，就是每个小眼下面有8个感光神经，即有8束光。如果把所有小眼中的每一个对应的感光细胞图像抽取出来，它就是一幅图像，如果有8个感光神经，就有8幅图像。

有8幅图像能够检测出不同方向的光，这样就可以做成一个视差，也就是复眼本身就带有立体视觉的功能，而这个功能，运算相对简单。

像昆虫这样没有太复杂的大脑的生物，它们也能有立体视觉的感觉，也能够让它们落在树枝上，也可以抓取猎物。我们也模仿这种结构做了仿生复眼，比如在普通的摄像机上贴上小型的微小镜头，目前为止，我们可以得到一个比较好的图像。

但是问题来了，我们无法做球形芯片，因为现在的芯片全是平面的，所以这一个仿生眼只能看到这一面光束，这是不够的。如果想要散开，和普通相机一样，有大一点的视场角，那就一定要有球面的芯片，现在做复眼的环境，没有完全成熟。

下面我们再讲一下鹰眼，老鹰的眼睛和人类不太一样的是，它有两个中心视。也就是人眼看中间看得清楚，而旁边是有点模糊的，不是很清楚。

但是老鹰的眼睛有两个中心视点，一个叫深的中心视，它可以看很远的地方。可能人视力有1.5，就算是视力好的眼睛了，它可能是十或者几十也说不定。还有一个浅的中心视，它有两种方式。当鹰在高空盘旋时，它用一只眼睛看底下，即用深的中心视看，如果看到下面有猎物，比如有小老鼠，它就开始盘旋下来。快到底下时，离猎物近了，它就开始用两只眼睛看，这时是用浅的中心视看，这时它会走直线，能很准确地抓到猎物。

因为用两只眼睛看，它就会有深度，所以能准确地测量距离。

眼睛包含大部分的大脑，所以眼球几乎牵扯到大脑的所有部分，也就是说眼睛就完全包括整个的大脑，它相当于一个脑系统。如果把眼睛做好了，就是把整个大脑都做好了。通过眼睛的视觉进来后分两块，一块进入到上丘的地方，还有一块进入到后脑的地方，叫枕叶，它叫视觉初级皮层。

进入这两个地方后进行处理，处理后的结果又反馈到脑干上来控制眼球，脑干有控制的系统，这个控制如果是要做微调，或者做更好的效果，小脑又有帮助。小脑直接牵扯到人眼的控制，它是一个万能的学习控制系统，然后在大脑里面，又往上走，走到顶叶、韦尼克区、布罗卡氏区，再往前面走就是额叶前区。

额叶是做决策的，再到顶叶，就是脑顶端，去做运动规划，这一套系统做出来，我们的眼球就可以动了，而且同时还可以控制我们整个身体的运动。

我们视觉的主要处理系统是在大脑的视觉皮层上，这个位置的主要功能有很多，比如特征抽出、匹配、检测、分类等。再细分一下，就是大脑可以分成四大块，最前面的叫额叶，就是脑门这里，上面是顶叶，后面是枕叶，再到颞叶。

再细分的话，是有52个区，有小区，当然还可以再细分，每一个区的功能不一样。比如枕叶，这是我们视觉处理的基础处理的地方，把图像变成各个有意义的东西，例如桌子、地面、椅子、电视等，它把它们分类。视觉皮层上两侧的，就是耳朵的听觉方面的处理，这两个处理做成一个抽象的信息后，进入顶叶，在顶叶做更进一步的分析。然后传到额叶做决策、做判断，再回到顶叶做身体的控制，运动规划。

我们做产业化做得比较久，最开始是做3D拍摄，因为3D拍摄的两个相机的位置要和人眼一样，人看了才不会晕，效果比较好。我们做完后，发现这个市场没有了，因为现在的3D拍摄都用2D转3D，电视机的3D也没有人搞了。但是我估计，将来3D的头显出来后，这个产业还会再重新发展起来。再一个就是我们做的仿生眼最近开始销售，主要是对应搞研究的人。

这个仿生眼的两只眼睛动，它可以做左下角的深度图，也可以做三维重建，比如语义分割和显著性。能够做深度图的可动的眼睛，现在我们在国际上还没发现有别人做出来，这是我们一个很大的成果。我们这个仿生眼也可以做导航，右边就是我们抓的一个固定好的双目。我是震动着走的，这时的图像不仅模糊，下面的轨道也是很乱的，有时就看不见，断了，它要靠IMU 陀螺仪加传感器来接续。

但是左边就是用了仿生眼，这个仿生眼无论被怎么晃，图像都非常稳定，所以效果也非常好。我们在产业上，比如新松机器人的一个获奖的产品，就是用了我们的机器头脑、仿生眼。右边是我们自己在做的机器人，带机器头脑和眼，上海市给了我们一个比较大的项目做机器头脑。这块就是无人驾驶了，现在做自主行驶机器人，在无人驾驶领域肯定会有很大的用处。

因为现在无人驾驶的双目都是固定的，固定双目有个最大问题就是当车平稳地走时没问题，一遇到颠簸，图像马上就模糊了，它就看不到了。当然人眼不会出现这个问题，当你摔跟头时，双眼看得很清楚。视觉系统必将引发机器人寒武纪的到来，生物的寒武纪是生物的眼引起的，视觉系统一定会引起机器人种族的寒武纪。也就是说如果眼睛做好了，我们的机器人就会满地跑了。