在写文章、画图之后,AI大模型现在又同时有了打游戏的能力。不禁在想,DeepMind的智能体Gato未来还能玩出哪些花活?假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。
今日,受大规模语言建模的启发,Deepmind应用类似的方法构建了一个单一的「通才」智能体Gato,它具有多模态、多任务、多具身(embodiment)特点。Gato可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他token。
与大多数智能体玩游戏不同,Gato使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。Gato的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind将所有数据序列化为一个扁平的token序列。
在这种表示中,Gato可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的token会根据上下文组合成对话响应、字幕、按钮按下或其他动作。UCL计算机系教授汪军告诉机器之心,DeepMind的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起,虽然技术思路上沿用了前人的方法,但能将CV、NLP和RL这三个不同模态映射到同一个空间,用一套参数表达,是非常不容易的。
其积极意义在于,证明了CV、NLP和RL的结合是切实可行的,通过序列预测能够解决一些决策智能的问题。考虑到Gato模型目前的参数量只能算中等,接下来继续往这个方向探索,构建更大的模型,将会有非常大的意义。不过,Gato大模型的RL部分只采用了监督学习方法,并未触及强化学习真正的核心——reward设计机制,目前的任务中也没有多智能体决策的问题。
汪军教授表示,他的团队近期在决策大模型上做了很多探索,包括证明多智能体决策也可以是序列模型,相关成果将于近期公布,欢迎大家关注。Gato智能体细节在Gato的训练阶段,来自不同任务和模态的数据被序列化为扁平的token序列,由一个类似于大型语言模型的transformer神经网络进行batch和其他处理。由于损失被masked,Gato只预测动作和文本目标。
在部署Gato时,提示(如演示)被tokenised,形成了初始序列。接着,环境产生了首个观察结果,该结果也被tokenised并添加到序列中。Gato以自回归的方式对动作向量进行采样,一次只采样一个token。一旦包含动作向量的所有token都被采样(由环境的动作规范确定),动作被解码并发送给环境,然后逐步产生新的观察结果。重复这一过程。
Gato模型始终在包含1024个token的上下文环境窗口内查看之前所有的观察结果和动作。除了各种自然语言和图像数据集之外,Gato还在包含模拟和真实环境中智能体经验的大量数据集上进行了训练。下表1左为用于训练Gato的控制数据集,右为视觉与语言数据集。样本权重(sample weight)表示每个数据集在训练序列batch中平均所占的比例。研究者汇总了在以上数据上训练时Gato的性能。
也就是说,所有任务的所有结果都来自具有一组权重的单一预训练模型。微调结果将在「实验分析」章节展示。模拟控制任务下图5展示了Gato在给定分数阈值之上执行不同控制任务的数量相对于Gato训练数据中的专家表现。其中,x轴上的值表示专家分数的特定百分比,0对应随机智能体性能。y轴表示预训练模型的平均性能等于或高于特定百分比时的任务数量。
研究者将性能报告为百分比,其中100%对应每个任务的专家,0%对应于随机策略。对于训练模型的每个模拟控制任务,他们在相应的环境中roll out Gato策略50次,并对定义的分数进行平均。如下图所示,Gato以超过50%的专家分数阈值执行了604个任务中的450多个。在ALE Atari中,Gato在23场Atari游戏中取得了人类平均(或更高的)分数,在11场游戏中取得了两倍于人类的分数。
虽然生成数据的单任务在线RL智能体依然优于Gato,但可以通过增加容量或使用离线RL训练而非纯监督克服。研究者在文中还介绍了一个专业的单域ALE Atari智能体,它在44场比赛中都取得比人类更好的分数。在BabyAI中,Gato在几乎所有级别上都得到了80%以上的专家分数。对于最困难的任务BossLevel,Gato的得分为75%。
相比之下,另外两个已发布的基准BabyAI 1.0和BabyAI 1.1分别使用100万次演示对该单一任务进行训练,它们的得分不过为77%和90%。在Meta-World中,Gato在接受训练的45个任务中的44个中得到了50%以上的专家分数,35个任务上得到80%以上,3个任务上超过90%。
在规范的DM Control Suite上,Gato在30个任务中的21个上都得到了50%以上的专家分数,在18个任务上得到80%以上。机器人基准评估第一视角远程操作可以收集专家演示。然而,此类演示收集起来速度慢成本高。因此,数据高效的行为克隆方法对于训练通用机器人操纵器是可取的,离线预训练成为一个很有动力的研究领域。研究者也在已建立的RGB Stacking机器人基准上对Gato进行了评估。
RGB Stacking机器人基准上的技能泛化挑战测试了智能体堆叠以往未见过形状的对象的能力。智能体在一个包含各种形状机器人堆叠对象的episodes的数据集上进行训练。但是,五个对象形状的三元组没有包含在训练数据中,而是作为测试三元组。研究者针对真实机器人上的每个测试三元组对训练的Gato进行了200轮的评估。
下表2的结果表明,Gato在每个测试三元组上的成功率与Lee等人(2021)提出的单任务BC-IMP(filtered BC)基准相当。文本示例Gato智能体也能生成基本对话以及给图像加字幕(或描述)。下图6展示了Gato为图像加字幕的代表性示例。下图7展示了一些精选的纯文本对话交流示例。
实验分析下图8中,DeepMind评估了3种不同模型大小(以参数计数衡量):79M模型、364M模型和1.18B模型(Gato)。可以得出,在相等的token数下,随着模型的扩展,模型性能随之提高。
下图10将Gato在不同微调数据机制中的成功率与sim-to-real专家和Critic-Regularized Regression (CRR)智能体进行了比较,结果如下:Gato在现实和模拟中(分别为左图和右图的红色曲线),仅用10episodes就恢复了专家的表现,并在100或1000episodes微调数据时达到峰值,超过了专家。
在此点之后(在5000处),性能会略有下降,但不会远远低于专家的性能。下表3为Gato和BC-IMP比较结果。