经过智商测试:你 100,AI 150
围棋也下了,DOTA2 也玩了,现在轮到让 AI 做智商测试的推理题了。受传统智力测试的启发,DeepMind 团队最近发起了一场测试 AI 推理能力的实验,结果显示,AI 不仅可以理解一些抽象概念,还能推理出新的概念。
在今年 7 月份瑞典斯德哥尔摩召开的“国际机器学习会议”上,DeepMind 发表了一篇论文,称可以像测试人类智商一样,通过一系列抽象元素,测量神经网络的推理能力。研究人员将这种抽象推理能力定义为,在概念层面检测模式和解决问题。AI 是否也具备通过一些抽象元素,推理出新概念的能力呢?DeepMind 团队的实验证明,答案是肯定的。
团队最初打算依靠训练素材的形状、位置和线条颜色等属性来测试 AI 的推理能力,但结果并不理想,很难准确反映 AI 的推理能力。对此,研究团队的解决方案是构建一个问题生成器。这个问题生成器是由一系列抽象元素创建的问题集组成,专门用来来训练和测试 AI 的推理能力,这些抽象元素包括关系(例如事物的发展)和属性(例如颜色和大小)等。
大多数 AI 模型在测试中表现良好,其中一些模型的性能甚至能达到 75%。研究人员发现问题集的精确度与 AI 推断抽象概念的能力相关性很强,可以通过调节问题集的属性来提高其推理能力。相比之下,视觉推理的难度要更高,需要 AI 自己根据图像所展现出的元素,创建问题集。不过,DeepMind 团队称已经有部分 AI 模型可以进行视觉推理。
整个测试证明,神经网络可以让 AI 具备推理能力,但目前这种能力还存在较大局限,就算是当前最优秀的 Wild Relation Network(WReN)也无法完全解决。这个局限主要在于神经网络很难发现问题集之外的元素,这就导致它在推理过程中的泛化能力降低。研究小组在博客中写到:神经网络在某些特定条件下的推理能力很好,而当条件发生变化后,推理能力就会急速下降。
另外,模型推理的成功与否也与很多因素有关,比如该模型的架构、是否经过训练等。若能找到一些改善模型泛化概括能力的方法,并探索出能在未来模型中使用“结构丰富,且普遍适用”的归纳偏差,或许可以解决这个局限。