近年来第三代人工智能的讨论热度不断升温,特别在张钹院士发文“迈向第三代人工智能”之后,AI TIME精心策划了一场关于“如何迈向知识驱动的人工智能”的PhD Debate,就大家关心的问题邀请了清华大学的韩旭和于济凡、魁北克人工智能研究院的瞿锰、上海交通大学的晋嘉睿来为大家带来专题研讨。
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,为大家打造一个知识分享的聚集地。
人工智能60年的历史中,一共经历了两代的发展。第一代人工智能,优势在于能够模仿人类的推理、思考的过程,利用这个办法进行机器学习。第二代人工智能,就是大家非常熟悉的深度学习,通过深度神经网络的模型模拟人类的感知,不需要专家数据,对人工的部分要求比较低,而且大规模神经网络可以处理大规模数据。
为了弥补前两代人工智能的不足,尝试结合前两代优势的第三代人工智能应运而生,越来越多的研究者开始为第三代人工智能的发展添砖加瓦。连接第一代和第二代人工智能的一个关键概念是知识,这个概念在第一代人工智能中以人类定义的符号为载体,在第二代人工智能中则以机器从大量样本中学习的特征为载体。
韩旭进一步提出了自己的看法,提出知识可以被看做是高质量的信息,信息间有分散与集中之分,我们将分散的信息凝结为集中的信息的抽象过程本身就是提取知识的过程。在这种框架下,知识可以进一步分为不同的几层,比如最底层可能是无结构化的文本信息,进一步是结构化的知识图谱,再进一步抽象,还可以提取出常识、本体等概念信息等。
瞿锰则讨论了知识对人类和机器的不同,有一些知识是人类可以利用但机器所不具备,比如人类有一些对世界的常识,而机器学习出的更多的都是领域的知识。晋嘉睿进一步提出了在强化学习中,有一种方法是利用其它智能体的经验来学习的方法,比如模仿学习等,这种方法中,其它智能体的经验可能就是一种知识。
对于如何表示知识的问题,从莱布尼茨开始,人们希望可以通过数理符号来帮助机器进行推理,这是符号主义的滥觞。而近年来深度学习的成功则是连接主义的成功。这两种方向有差异,但没有明确的对错之分,比如简单的数理逻辑,符号主义的方法会好过连接主义,而对于拟合能力,连接主义显然更胜一筹。第三代人工智能可以说是一种符号主义和连接主义的结合。
在讨论中,于济凡提出除了关注什么是知识,我们还需要关注什么不是知识。晋嘉睿提出一种不是知识的点可能是一千维的数据和特征可以学习成一百维的知识,另外九百维就不是知识。韩旭提出对于人类和机器来说,知识可能不完全一样。对人类友好的知识形式不见的是对机器友好的,我们在讨论知识对机器学习的作用的时候应当考虑这一点。瞿锰在讨论中抓住了有用和可以泛化的两个关键点可以来定义知识。
对于抽取知识的方法,韩旭介绍了有关信息抽取的工作,包括关系抽取,实体抽取的方法。瞿锰进一步在逻辑的方法,进行了阐释,这些方法可以分为两大类,一个是从上而下和另一个是从下到上的方法。于济凡提出在应用中,可以提前定义出来,比如一些逻辑。
对于知识以及逻辑的应用,瞿锰将现有的方法归纳为两种:一种是把知识当作额外的输入,比如电商在推荐框架中可以进一步输入知识图谱,这种方法通过对模型架构进行修改实现知识的应用;另一种是可以把知识用作数据标注,比如用知识图谱标注数据,这种方法可以在不改变模型架构的前提下实现知识的利用。这些方法会融入概率图模型,强化学习和知识蒸馏等方法。
而这些方法同时也带来了一些挑战,比如可以不可以建立一个统一的模型将知识的利用融入到模型的设计之中。这些设计是不是可以利用神经网络搜索的方法来帮助模型来学习。
晋嘉睿进一步讨论了先可以用学习的方法来预测标签,然后利用预测标签来进行学习。于济凡提出了利用大规模预训练的方法将知识进行融合。韩旭认为结合特定知识对不同的任务或是问题单独设计针对性的神经网络会达到比较好的效果,预训练模型更多的是一种整合知识的方法。有些时候不是机器学习不好,而可能是人们问的方法不对或是任务不好。
在定义和表达之后,另一个问题就是知识如何落地到现实生活中,于济凡认为业界在知识图谱的构建已经走到了下半场,但是知识图谱的应用还在上半场。第一种场景是利用知识图谱来帮助之前的一些任务,比如电商场景,第二种场景在于知识相关度比较高的产业,比如教育等,知识结构本身就可以作为一个产品。另一种场景是利用知识来帮助人们进行决策,知识可以给国家政府提供可解释的决策。
韩旭提出了在将知识融于一些传统行业会涉及到相关人员如何适应新的人工智能来辅助的系统。晋嘉睿补充举例了在阿里电商场景下的知识和逻辑的应用。有一些图谱的构建在现实生活中是做不到的。于济凡提出在弱资源下如何构建知识图谱依然是一大挑战。
关于挑战和机遇的问题,晋嘉睿补充了在因果推理方面,如何利用反事实学习的方法进行学习。瞿锰提出了构建第三代人工智能的一大瓶颈是新的算法模型,韩旭补充目前的方法在学习和推理的结合方面并没有达到最优的表现,知识驱动的人工智能期待新工具的提出和应用。