2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的《The Bitter lesson》,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去70年来,AI研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。
这一思想很快得到了OpenAI首席科学家Ilya Sutskever的共鸣,某种程度上,它也启发了大模型领域所信奉的Scaling Law。
有趣的是,Richard认为,通过语言大模型方向来实现智能没有前途,他更赞同Yann LeCun关于世界模型的构想,这在目标与核心概念上与其主导的阿尔伯塔计划(Alberta Plan)相一致,尽管不过在具体实现方法上有所区别。在他看来,实现AGI需要明确的目标和一个世界模型,并利用这个模型来制定行动计划以实现目标。
Richard Sutton研究人工智能已长达45年。
他非常想弄清大脑的运作方式,为此做了大量跨学科研究,阅读了不同思想家对这一问题的看法,并试图从心理学入手,以找出大脑和计算机科学的运作方式。在Craig Smith近期主持的一期播客中,Richard详细介绍了阿尔伯塔计划,目标是打造一个能够从与环境的交互中学习并做规划的具身智能体,这是一个宏大的五年计划。
此外,他还深入分析了新算法的发展现状、模拟环境和真实环境之间的权衡以及通用人工智能(AGI)的终极目标。
Richard还谈到了与传奇工程师John Carmack的合作。2023年10月,Richard加入了后者创办的AI创业公司Keen Technologies并担任研究员,这家公司旨在2030年实现AGI。
在2019年,你发表的文章《The Bitter lesson》提到了增加计算资源的重要性,这一观点在你近期的论文中得到了进一步发展,并且与OpenAI扩展Transformer模型的做法一致。Richard Sutton表示,计算资源的扩展不仅推动了人工智能的发展,还推动了其他科学、工程领域的发展。
计算资源的扩展深刻地影响着我们这个时代,几乎所有科学领域都受到了大规模计算资源和更普遍的常规计算资源的深刻影响,世界上不存在脱离计算资源而独立发展的科学领域。
他还指出,摩尔定律是指,随时间推移计算能力将呈指数级增长,而成本则相应下降。每隔两年或18个月算力就会翻倍,这种状态会在近百年内一直持续。随着计算能力的指数级增长,每十年左右就会出现质的飞跃,从而给技术和应用带来根本性变化。
Richard Sutton在强化学习领域的工作主要集中在理解并在计算机中复制整个思维过程,这是一个极具雄心的目标。尽管语言大模型在某种程度上有些让人失望,但他认为,智能的本质是理解世界,并利用这种理解来实现目标。阿尔伯塔计划旨在将智能视为一种学习现象,即理解环境并通过对环境的驱动来实现目标。
在阿尔伯塔计划中,离策略学习和学习世界模型是其中的关键步骤之一。离策略学习意味着智能体能够学习未完全执行的任务或行为。阿尔伯塔计划最具特色的策略是将大问题分解为许多子问题,并同时处理这些子问题。尽管智能体的主要目标是获得奖励,但它同时也会处理许多其他子问题。
最后,Richard Sutton表示,人工智能是一种广泛适用的技术,我们应该对其善加利用。对于实现AGI的目标,他认为2030年是一个合理的目标,并且有25%的机会实现真正的人类水平的智能。理解思维的运作方式是实现这一目标的关键。