用AI预测AI，它的未来会是什么？

人工智能，开始解决越来越多人类尚未解决的问题，且取得了不错的成果。然而，在过去几年中，人工智能领域的科学研究数量呈指数级增长，使得科学家们和从业者们很难及时跟踪这些进展。数据显示，机器学习领域的研究论文数量每23个月就会翻一番。其中一个原因是，人工智能正在数学、统计学、物理学、医学和生物化学等不同学科中得到利用。

通过从科学文献中获得见解，提出新的个性化研究方向和想法的工具可以显著加速科学的进步。

在人工智能与其他各领域交叉的过程中，人们该如何判别哪些方向有意义并值得去做？为此，由马克斯·普朗克光科学研究所（MPL）人工智能科学家Mario Krenn领导的国际团队发布了一项关于“指数级增长知识网络中的高质量链接预测”的研究。

相关研究论文以“Predicting the Future of AI with AI: High-Quality link prediction in an exponentially growing knowledge network”为题，发表在预印本网站arXiv上。

这项研究工作的目的是设计一个可以“阅读、理解，然后行动”的人工智能相关文献的程序，从而为预测和建议跨领域研究思路打开大门。

研究团队认为，从长远来看，这将提高人工智能研究人员的生产力，开辟新的研究途径，并指导该领域的进步。以往的实践证明，新的研究思路往往通过在看似不相关的主题/领域之间建立新的联系而产生。这促使研究团队将人工智能文献的演化制定为一个时间网络建模任务，并创建了一个可以描述自1994年以来人工智能文献内容和演变的语义网络。

同时，研究团队也探讨了一个包含64000个概念（也称为节点）和1800万条节点间联系的网络，并使用语义网络作为10种不同的统计和机器学习方法的输入。其中最基本的任务之一——构建语义网络——有助于从网络中提取知识，并随后使用计算机算法进行处理。

图｜在此次工作中，研究团队使用了14.3万篇于1992-2020年发表在arXiv上的人工智能和机器学习类的论文，并使用RAKE和其他NLP工具构建了一个概念列表。这些概念构成了语义网络的节点，当两个概念同时出现在一篇论文的标题或摘要中时，就会画出边界（edge）。通过这种方式，他们构建了一个不断发展的语义网络，随着时间的推移，更多的概念被一起研究。

最终的任务是预测未连接的节点，即在科学文献中没有一起研究的概念，将在几年内连接起来。

起初，研究团队考虑使用GPT-3和PaLM等大型语言模型来创建这样的网络。然而，主要的挑战是，这些模型仍然难以推理，很难识别或提出新的概念组合。于是，他们便转向借鉴生物化学的方法，即从科学论文中共同出现的概念中创建知识网络；单个生物分子代表一个节点，当一篇论文提到两个对应的生物分子时，两个节点就连接起来。

这种方法是由芝加哥大学医学教授和人类遗传学教授Andrey Rzhetsky和他的团队首先提出的。研究团队使用这种方法捕获了人工智能领域的历史，并使用超级计算机模拟提取了有关科学家集体行为的重要陈述，基于大量论文不断重复这一过程，从而形成一个捕获可操作内容的网络。

基于此，研究团队开发了一个名为Science4Cast的新基准测试，并提供了十种不同的方法来解决这一基准测试。研究团队认为，他们的工作有助于构建一个能够预测人工智能研究趋势的新工具。以往，每当打开任何人工智能和机器学习相关论坛时，人们都会发现，“跟上人工智能的进步”是讨论的首要话题。或许，这一研究能够为人们缓解一些这样的压力。