多模态认知计算是实现通用人工智能的关键

在如今数据驱动的人工智能研究中，单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似，机器也需要模拟人类联觉来提升认知水平。同时，随着多模态时空数据的爆发和计算能力的提升，研究者已经提出了大量方法以应对日益增长的多样化需求。但当前的多模态认知计算仍局限于人类表观能力的模仿，缺乏认知层面的理论依据。

面对更加复杂的智能任务，认知科学与计算科学的交叉已成为必然。近日，西北工业大学的李学龙教授在《中国科学：信息科学》期刊上发表了《多模态认知计算》一文，以“信容”（Information Capacity）为依据，建立了认知过程的信息传递模型，提出了“多模态认知计算能够提高机器的信息提取能力”这一观点，从理论上对多模态认知计算各项任务进行了统一。

李学龙认为，多模态认知计算是实现通用人工智能的关键之一，在“临地安防”（Vicinagearth Security）等领域有广阔的应用前景。本文探索了人类和机器的统一认知模式，对推动多模态认知计算的研究带来启发。

李学龙是西北工业大学教授，关注高维数据的智能获取、处理和管理之间的关系，在“临地安防”（Vicinagearth Security）等应用系统中发挥作用。2011年入选IEEE Fellow，并是首位当选国际人工智能协会（AAAI）执委的大陆学者。AI科技评论对《多模态认知计算》一文的要点作了概括，并沿该方向与李学龙教授进行了一次深入对话。