清华大学唐杰教授：知识与数据双轮驱动，用认知智能洞悉技术未来

2021年4月11日，2020年吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在苏州举办。清华大学计算机系教授、副系主任唐杰受邀在年会主论坛上发表主题报告《浅谈人工智能“十年”》。在报告中，唐杰教授介绍了人工智能领域即将发生的变革：通过深度地融合知识和数据，我们将让人工智能领域发生重大的技术革命，并可以洞悉人类的技术未来。

现代人工智能最早发源于1956年的达特茅斯会议，那时人工智能的主要流派是符号人工智能。也就是让机器描述人类的知识。此后的第二代人工智能是感知人工智能，也就是让机器感知外部环境。这种方法依赖大量数据驱动的统计学习方法，实现针对文字、图片和语音等信息的感知和识别。第二代人工智能出现和成熟后，人工智能领域迎来了一波爆发。

通过人工智能，在我们原来认为机器不可能完成的事情上，人类的能力已经被机器赶上，比如人脸识别等。

不过，这两种人工智能的流派都有问题。在知识驱动的人工智能框架中，人们建立了大规模的知识库和常识库，然后试图让机器把人类所有的知识都描述出来。但这种方法无法动态变化，也就无法适应大规模的数据和灵活多变的知识。而在数据驱动的感知人工智能框架中，计算机模型没法解决认知的问题，也没有办法做推理。

所以，人工智能急需一次新的突破和创新。而现在，人类也确实已经站在了第三代人工智能开启的前夜，所以我们需要明确第三代人工智能的发展方向：融合知识和数据，搭建一个双轮驱动的人工智能框架。

在这个新的框架里，简单地把知识和数据叠加起来是不行的，因为数据与知识的融合任务面对着很多计算科学理论、算法和基础设施的挑战。只有克服了这些挑战，让机器把所有的数据和知识都真正的利用起来，才能实现真正的智能。为了应对这一挑战，我们在清华成立了知识智能的联合实验室，还通过清华大学孵化了一家技术公司智谱华章，核心研究思路就是研究数据和知识双轮驱动，并形成技术转化。

具体来说，双轮驱动的数据部分，我们做了一个超大的语言预训练模型，要能在数据上做到“举十返一”，也就是说要具备归纳能力，从数据中把一些有深度的知识抽取出来。而双轮中的知识部分，则要做到“举一反三”，可以进行逻辑推理。这样我们结合了知识、数据、逻辑和推理，形成了一个大规模的认知图谱。我们基于认知图谱，推出了一个新的大型工程“知因”，希望可以通过这个工程，结构知识成因，发掘科技创新源动力。

并以此在未来解释知识如何推动创新，并给出一个预见的思路。

在这个工程中，我们已经取得了一些技术突破。首先在知识层面，我们搭建了一个规模很大、性能稳定的知识图谱；在数据方面我们，我们训练了一个神经网络巨模型“悟道”。这个模型可以智能化地、有逻辑地思考，还能根据人类的需求和问题，作出回复、吟诗作画，生成视频。

例如，如果我们要求“悟道”根据唐朝诗人王勃的风格写一首以“悟道”为主题的诗歌，诗歌中会包含以下两句：“慧业苦研久成，禅风散尽见真际。”其中前一句描述了通过超大规模数据和超大规模算力来做计算的过程，后面这句描述了最终从数据中挖掘出知识后的感悟。除了写诗以外，悟道还能生成一段话、根据一句话作图，以及生成视频。

利用我们提出的双轮驱动的认知智能技术框架，我们首先研究的就是科学技术领域的脉络。

因为科学技术前沿是人类知识最富集的领域，所以也是让具有认知能力的人工智能发挥性能的最佳场所。通过对学术论文、专利等科技信息进行分析，我们可以自动地发现和分析很多重要的科技进展趋势。举个例子，我们都知道美国对中国的芯片技术存在新型技术出口管制，可能也会知道光刻机是一个重要的被管制的技术。所以我们就希望在芯片（特别是光刻机）领域研究一下，我们具体被管制的关键技术点是什么。

通过认知智能模型，我们可以自动生成芯片的整体技术脉络。其中，光刻机是技术脉络中的一个点。光刻机下游是一些相关的芯片制造技术，上游则是流体力学和激光物理这些相对理论的技术。在用认知智能进行技术分析后，我们发现了两个被卡脖子的技术，就分别存在于流体力学和激光物理学这两个领域。2001年，麻省理工学院的Mordechai Rothschild发表论文提出了浸没式光刻技术。

2004年，林本坚为这个技术申请了一个专利，这项专利也成为了整个台积电的内核。此后，台积电和荷兰的阿斯麦（ASML）合作，极大地扩展了后者的光刻机市场。2006年，激光物理领域里出现了极紫外光源技术，其中有两个专利由RP.Akins发明，他依靠这两个技术成立了一个叫Cymer的公司。2012年，阿斯麦收购了Cymer公司，于是迅速垄断了世界上70%的光刻机市场。

同一年，英特尔投资了阿斯麦，协议中包括满足对另一个国家施加压力的条款。最终，中国正是在这一个条款下被卡了脖子。

利用上面介绍的模型框架，我们搭建了一个科技趋势分析的系统https://analysis.aminer.cn/。在这个系统中，我们依靠数据和知识双轮驱动的方法，对技术追根朔源，进行深度解析。比如，在系统中，我们可以看到过去10年中最重要的技术，以及这些技术到底是如何产生的，发展过程中存在哪些重要事件和突破。我们还能自动判断这些技术目前所处的状态，并预测它们未来发展的趋势。

我们还发布了AI Open Index，这是一个行业趋势分析的系列研究报告。其中的《2021年度AI 2000》榜单包括了人工智能领域中高影响力的学者做出了精准画像。自去年开始，《AI 2000》每年都会发布200名“AI 2000最具影响力学者奖”，以及1800名提名奖。预计到2029年，会有2000名学者获奖。从国家的角度来说，有58.2%的学者来自美国。

中国的获奖学者数占比11.1%，可以排到第二。来自德国的学者数排名第三，是欧洲学者数量最多的国家。其他国家的学者数量均在100人次以下。从机构的角度来说，排在前两位的机构都是企业，分别是谷歌和微软。清华大学是唯一进入前十的中国机构。

此外，我们还可以在AI Open Index上查看《人工智能全球女性榜单》和《全球人工智能最具创新力城市榜单》。

在全球人工智能创新城市500强中，中国有32个城市上榜。所以，在人工智能技术的发展长河中，我们现在已经到了一个变革的时间节点。我们需要利用智能技术，既知其然，又知其所以然。我们要探究每一件事情的本质，我们要知道科技发展的原因，也要知道科技发展的未来。所以我们把这项大工程叫做知识基因工程。我们希望利用知识和数据的双轮驱动技术，解构知识发展成因，挖掘科技创新的原动力，预见未来，引领未来。

清华大学唐杰教授：知识与数据双轮驱动，用认知智能洞悉技术未来｜附报告下载链接