如何超越ChatGPT？Google DeepMind：要靠打败人类玩家的AlphaGo

ChatGPT吸引了全世界的注意力，各路竞争对手都在加速追赶。而Google DeepMind称，他们的下一个大型语言模型将与ChatGPT背后的GPT-4相媲美，甚至完成超越，其中的关键技术之一，便来自曾经击败人类顶尖棋手、也曾轰动世界的AlphaGo。

据科技杂志Wired报道，Google DeepMind的联合创始人兼首席执行官Demis Hassabis近日透露，他们正在使用AlphaGo背后的技术来帮助制造一个能与ChatGPT相匹敌的聊天机器人——Gemini，这是一个处理文本的大型语言模型，目前仍在开发中，或将花费数千或数亿美元。

Hassabis表示，将AlphaGo背后的技术注入大型语言模型中，可以赋予AI系统新的能力，如计划、解决问题和分析文本的能力。借助AlphaGo的成功经验，AlphaGo在ChatGPT出现之前，或许是AI领域内最耀眼的明星（之一），其让大众最为熟知的成就，便是击败李世石，成为世界上第一个战胜人类围棋世界冠军的机器人。

AlphaGo的成功，离不开强化学习技术，该技术通过反复尝试并接受关于其表现的反馈，可以学会处理需要选择采取何种行动的复杂问题，如围棋或视频游戏等。如今，ChatGPT的核心技术之一——基于人类反馈的强化学习（RLHF）已经成为后续大型语言模型开发中不可或缺的关键技术。专业人士认为，Google DeepMind在强化学习方面的经验，或许可以帮助他们在生成式AI竞赛中夺得优势。

当然，他们在机器人、神经科学等领域的工作也不容忽视。上周，他们展示了一个不需要人类监督、能不断自我学习，可以在模拟和物理环境中处理语言、图像和动作的AI模型——RoboCat。据介绍，RoboCat是第一个可以解决和适应多项任务的机器人代理，且可以把这种能力带到不同的、实体机器人中。此外，AlphaGo还使用了一种叫做“蒙特卡洛树搜索”的方法来探索和记忆棋盘上的可能动作。

这是在完美信息博弈场景中进行决策的通用技术，除了游戏之外，还能广泛应用在很多其他现实世界场景中。

人们普遍认为，像人类和动物那样从现实世界经验中学习，对于创造出一个更强大AI系统的努力至关重要。一些业内专家认为，目前的语言模型通过文本间接地学习世界的方法是一个主要的限制。因此，他们认为，大型语言模型的下一个重大飞跃，将是通过联网等方式加强与现实世界的交流，进而在网上和计算机上执行更多的任务。

当Gemini开发完成后，它或许可以在谷歌应对ChatGPT和其他生成式AI技术所带来的竞争威胁中发挥重要作用。早在今年3月，The Information就报道了Gemini，称“Gemini因当时Bard的失败所刺激而诞生”。据透露，谷歌高层，包括谷歌最高级别的人工智能研究主管Jeff Dean，也直接参与到Gemini项目中。

今年4月，为应对来自OpenAI/微软等竞争对手的冲击，DeepMind与Google Brain合并为Google DeepMind。当前，Google DeepMind的任务，是加速谷歌的AI研究工作，同时也要管理未知的、潜在的严重风险。如今，语言模型的快速发展使许多AI专家（包括一些构建算法的专家）担心，该技术是否会被用于恶意的用途或变得难以控制。

为避免产生危险的东西，一些业内人士甚至呼吁暂停开发更强大的算法。Hassabis认为，AI的潜在好处，如在健康或气候等领域的科学发现，使得人类必须继续发展这项技术。但是，Hassabis也并不主张不负责任、不计后果地开发AI模型，他在上个月签署了一份声明——称AI有一天可能会带来与核战争或大流行病相媲美的风险。

在他看来，目前最大的挑战之一是，确定能力更强的人工智能的风险可能是什么。Hassabis表示，没有人真正知道AI会成为主要的危险。但他可以肯定的是，如果继续以目前的速度开发AI模型，就没有多少时间来开发保障措施。