真正实现与人更类似的智能!Jeff Hawkins是美国著名计算机科学家与神经科学家,美国工程院院士,目前任职于美国加州Numenta公司。2004年,他曾出版科普著作《On Intelligence》,把人工智能这个陌生概念播撒到无数人心中。
在本届智源大会上,他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人,Jeff为Numenta公司设定了双重使命:理解大脑工作的机制、根据大脑工作的机制创造机器智能。
在Jeff Hawkins看来,想要最迅速地创造真正的智能机器,首先需要理解人类大脑是如何工作的。
大约5年前,Jeff在理解大脑的工作机制方面取得了重大突破。他将大量的研究成果汇集到了「千脑理论」一书中。2022年年初,由智源研究院承担翻译工作的「千脑理论」中文版将由湛庐文化出版社出版,敬请期待!
人脑可以分为两个部分。
其中,占人脑70%的大脑皮层是一大片神经组织,其厚度大约为2.5毫米,表面积大约为1,500平方厘米,它将大脑的其余部分包裹起来。人脑其余的部分由一些不可见的有专门用途的小型区域组成,它们可以控制人类的基本功能,例如:呼吸、消化、应激、跑步、走路、咀嚼,甚至情感。相较之下,大脑皮层是真正产生智能的器官。人类的意识、视觉、听觉、触觉等感觉都产生于大脑皮层。
认知、思维、计划等人类拥有的活动都是大脑皮层的产物。近年来,研究人员对大脑工作机制的了解有了较大的突破,并受此启发制造智能机器。
首先,人们很容易将大脑的工作机制与计算机进行类比,即得到输入数据,对输入信息进行一系列处理,然后再输出信息。然而,Jeff认为这并不是大脑真正的工作方式。在他看来,大脑皮层是一种建模器官,它会学习关于世界的模型。
我们所知晓的一切关于物体的形状、触觉、颜色、温度、声音,以及我们与物体的交互都会被存储在该模型中。该模型还会囊括物体的位置信息,知晓我们与物体交互后物体会产生的变化。成千上万的物体、单词、概念会被存储于位于我们大脑的神经元的模型中。这种模型使我们可以知晓自己所处的方位,能够识别物体和交互动作。更重要的是,它使我们可以预测动作将导致的结果。
为了实现某些目标,我们可以在行动前根据该模型在脑海中做出对行为的规划。
大脑皮层可以被划分为若干功能区域。例如,在大脑后侧有视觉中枢,侧面有听觉中枢,顶部有感觉中枢,此外,还有专门负责语言的脑区。所有脑区支配的行为之间存在异同,它们之间也会进行整合。实际上,从外部来看,这些区域的外观是相同的。但是,如果我们通过显微镜观察脑区的内部结构,又会有何发现呢?
令人惊讶的是,在显微镜下,大脑皮层每一处的结构都是相似的。1899年,Cajal首次获得了2.5毫米厚的大脑皮层的照片。如图7所示,大脑皮层组织里包含许多不同种类的细胞,这些细胞的形状、大小、密度各异。这些细胞分层排列,细胞之间存在连接,而层与层之间也存在着连接。因此,在这个2.5毫米厚的组织中,信息会在层与层之间传递。尽管有些层可以远距离传递信息,但大多数层仍然是垂直传递信息。
不仅人类大脑皮层不同区域的结构相似,猫、狗、猴子等其它动物的大脑皮层也是如此。它们有相同种类的神经元,通过相同的层次化方式组织起来。每个区域都会接受某种输入,其中有的区域会直接从感受器接受输入。同时,每个区域都会产生运动输出。在大脑皮层的每个区域,都存在「感觉运动整合」,这是一种普遍存在的结构。
1975年,约翰霍普金斯大学的教授Vernon Mountcastle指出,大脑皮层之所以处处看起来是相同的,是因为它们执行着同样的基本功能。而不同的脑区负责怎样的功能取决于它们与什么相连接(例如,负责视觉的枕叶皮层与眼球相连接)。此外,他还指出,大脑皮层由重复的单元组成,这种单元被称为「皮质柱」。我们的大脑皮层会复制大量的皮质柱,从而变得越来越大,这些皮质柱一个挨一个地堆叠起来。
在显微镜下,我们无法看见皮质柱,但它们确实存在。如图8左下角所示,我们用六个圆代表六个相连的皮肤块,它们一个接一个排列开来。这些皮肤块分别与大脑皮层中的皮质柱相连。我们可以通过探针找到对某个皮肤块有响应的所有皮质柱细胞。我们发现,不同的皮质柱会对不同的皮肤块产生响应,这并不是一种连续的表征。这种组织方式贯穿于整个大脑皮层。
首先,每个皮质柱都会学习关于世界的完整模型,它们会通过整合感觉输入以及时间流中的各种运动来学习模型。如图9所示,当我们手指上的皮肤块触碰到咖啡杯时,它会接收到感觉输入,并将其传递给大脑皮层中特定的皮质柱。除此之外,大脑皮层还知道手指的运动信息,即能够跟踪手指在咖啡杯的参考系中的运动轨迹。因此,皮质柱中存在表征物体参考系的细胞,他们负责不断更新手指在该坐标系中的位置信息,并将其作为另一种感觉输入。
通过移动手指,我们将构建出一个有关咖啡杯的模型(是什么?在哪里?),该模型会逐渐稳定下来。
我们之所以将该理论称为「千脑理论」,是因为大脑会对每个物体构建数以千计的模型,每个皮质柱都会构建关于许多物体的模型。关于物体的知识存储于数以千计的皮质柱中。如图10所示,假设我们使用三个手指同时触摸咖啡杯,每一个手指对应于一个不同的皮质柱。每个手指及其皮质柱会生成一个独立的关于咖啡杯的模型。
由于皮质柱中各层细胞之间存在横向的链接,我们认为这些皮质柱之间存在一种「投票」机制。在不移动手指的情况下,这些手指利用它们所掌握的部分信息进行投票,从而整合在咖啡杯不同位置获取到的信息。因此,我们只需要让多个皮质柱投票一次就可以迅速得到咖啡杯的信息。而如果我们只使用一根手指,就需要不断移动手指才能识别出咖啡杯。
Jeff等人在YCB物体抓取数据集上进行了实验。
他们构建了一个虚拟的带有曲率传感器的机械手,这个机械手可以抓取并识别物体。抓取/识别实验的结果如图12所示,图中的横轴代表真实的物体类别,纵轴代表机器所推理出的物体类别,图中对角线上的点代表完美的预测结果。当我们使用1根手指触摸物体时,结果存在很严重的误差,随着使用手指的增多,误差逐渐下降。从另一个角度来看,图13的横轴代表参与感知任务的皮质柱数量,纵轴代表为了识别物体需要进行触摸的次数。
随着皮质柱数量的增多,需要触摸的次数迅速下降。当皮质柱数量大于等于6时,无论物体有多么难以识别,我们只需要触摸一次就可以将其识别出来。
人类等动物可以对环境进行学习。以小鼠为例,其网格细胞相当于参考系,而位置细胞则会基于感觉输入判断小鼠所处的方位。我们的大脑可能也通过同样的机制工作。类比于神经科学领域的网格细胞、位置细胞、物体向量细胞,Jeff等人认为我们的皮质柱中也存在类似的细胞。
科学家们通过一系列复杂且巧妙的实验证明,当人类从尺寸、腿长、颈长等方面辨认鸟类时,会用到位于前额叶皮层的网格细胞,并且沿着其构造的参考系思考鸟类。来自中国的科学家们发现,网格细胞、位置细胞、边缘细胞等存在于躯体感觉皮层,印证了Jeff等人的预测是正确的。
将大脑工作机制应用于机器智能是Numenta的目标之一。
在Jeff Hawkins看来,尽管如今的神经网络技术十分强大且有效,但是它们仍然并不够智能。首先,机器需要学习有关世界的模型,从而更好地进行推理、预测、规划,并且基于该模型做出运动行为。现有的机器学习技术大多只是浅显的捕获了世界中的某些结构(例如,物体的三维模型或交互情况)。然而,真正的世界模型要复杂得多,它并不针对于某种具体的任务,可以被应用到各种各样的场景下。
第二,这种世界模型应该分布在许多几乎一样的单元中,这些单元通过投票形成共识。这种架构极为鲁棒。以人为例,即使大脑的某些部位受到了损伤,我们仍然能够很好地构建出关于世界的模型。这种分布式的模型还可以从小的尺度向超大规模的系统进行扩展。其它的哺乳动物也具有与人类类似的皮层结构,只不过它们所包含的皮质柱较少。
此外,我们可以使用任意类型、任意大小的传感器阵列来获取感觉输入,这为我们设计人工智能系统带来了很大的灵活性。各个单元的投票机制解决了「绑定问题」,即如何将各种感觉输入融合为单一的知觉。
对于制造智能机器来说,最重要的一点是,在每个构建单元中,我们将知识存储于参考系中,并且通过「感觉-运动」交互来学习知识。这也正是我们进行无监督学习的方式,我们通过移动和观察来提取不同的特征。
引入参考系可以使机器像人一样快速地学习,在对新物体进行学习时,我们只需要找到物体在参考系中的位置。此外,对于机器人等应用而言,我们可以将运动行为融合到该参考系中。Jeff从如今的人工神经网络出发,给出了创造机器智能的路线图。其中的关键要素包括:稀疏性、活跃的树突、参考系、皮质柱。
就稀疏性而言,在人脑中,有98%的神经元处于静息状态,只有少数的神经元是活跃的,人脑中大多数的基本单元并不相连,这与现代人工神经网络区别很大。具体而言,Jeff等人通过稀疏的激活函数和权值使现有的神经网络稀疏化。通过稀疏化处理,神经网络对于噪声变得更加鲁棒,其运算速度也大大提升,并且可以被迅速扩展为更大的模型。
在谷歌语音控制数据集上,目前最优的准确率为95%-97.5%。
Jeff等人提出的稀疏卷积神经网络相较于密集的卷积神经网络而言,获得的平均准确率相当。而稀疏卷积神经网络神经元之间的连接数仅为密集卷积神经网络的1/10,稀疏程度为90%,在大大提升计算速度的同时,降低了内存的占用,并且对于噪声的鲁棒性也有显著的提升。Jeff等人进一步在赛灵思的FPGA上验证了稀疏网络的性能。
如图20所示,在Alveo U250上,单个稀疏神经网络的运行速度相较于密集神经网络提升了33倍。由于稀疏神经网络的规模远小于密集神经网络,整块芯片上可以容纳更多系数神经网络,因此整块芯片上的吞吐量提升了超过100倍。而更小的芯片甚至无法容纳密集神经网络,却可以很好地适用于稀疏神经网络。这样的特性使得系数神经网络可以被嵌入到边缘计算应用设备上。
目前,Jeff等人正试图在Transformer网络上实现稀疏性。
当下所有的人工神经网络所使用的神经元都是「点神经元」,这是一种对于真实的人类神经元极为简化的抽象。实际上,人类神经元具有树突分支,它们具有很多很好的特性。Jeff等人正试图使用拥有树突分支的神经元替换点神经元。这样的结构有助于实现持续学习、无监督学习/自监督学习。这是因为,人类在学习时,并不会更新整个突触,而只会更新某些突触段。
从而使之前学习到的大多数知识不受影响。这样的结构还使我们可以根据预测误差学习,并且需要更少的有标签数据。向神经网络引入参考系有助学习不变的表征,这使我们需要的训练集更小,并且使机器可以理解组合式的结构,从而展现出非常灵活的泛化性能。我们可以在软件和硬件上实现堆叠的皮质柱,从而引入高度可扩展性的感觉运动系统,这将催生出更先进的机器人设备。