2011年冬天,麻省理工学院计算神经科学博士后研究员Daniel Yamins有时会在他的机器视觉项目上苦干到午夜。他正全身心地投入到一个视觉系统的设计上:该系统应该能够识别图片中的物体,而不受大小、位置和其他属性的影响,正如人类的视觉系统所能够轻而易举实现的那样。这个系统利用了深度学习神经网络(一种受大脑的神经系统启发而产生的计算策略)。
在人工智能领域,深度神经网络已经被视为瞩目的突破。但这并不是Daniel Yamins和他的同事们的主要目标。对他们和其他神经学家来说,这是具备大脑功能的计算模型的黄金发展时期。
他们不但想知道为什么大脑可以用不同部分解决不同任务,而且还想知道这些不同的部分是怎样实现专业化的:例如,大脑有一个区域可以识别一般的物体,但也可以识别特定的面孔?深度神经网络表明,这种专业化可能正是解决问题最有效的方法。
同样的,研究人员已经证明,最擅长分类语言、音乐和仿造气味的深度神经网络,其结构似乎与大脑的听觉和嗅觉系统是类似的。这种相似之处也在另一类深度神经网络得到了体现:它们可以仅通过观察2D场景就推断其中的3D对象的潜在属性。该发现有助于解释生物感知为什么既快速又丰富。这些结果表明,生物神经系统的结构对它们所承担的任务具有某种独到的最佳解决方案。
深度神经网络与视觉人工神经网络由被称为“感知器”、相互连接的单元所建立,感知器则是生物神经元的简化数字模型。人工神经网络至少有两层感知器,一层用于输入层,另一层用于输出层。在输入和输出之间夹上一个或多个“隐藏”层,就得到了一个“深层”神经网络,这些层越多,网络越深。
深度神经网络可以通过训练来识别数据中的特征,就比如代表猫或狗图像的特征。训练包括使用一种算法来迭代地调整感知器之间的连接强度(权重系数),以便网络学会将给定的输入(图像的像素)与正确的标签(猫或狗)相关联。理想状况是,一旦经过训练,深度神经网络应该能够对它以前没有见过的同类型输入进行分类。
深度神经网络与大脑在结构和性能上的类似并不一定意味着它们以相同的方式工作,在某些方面并没有显现这样的迹象。但是,这两种类型的系统可能有更多的相似之处,从而遵循某种一致的管理原则。