大型语言模型(LLM)已经被证明可以完成复杂的任务,在对话、分步推理、数学问题解决和代码编写等领域表现出强大的推理能力。然而,要在现实世界中实现一般推理,依然存在一些落地方面的挑战。以往研究表明,现有的先进视觉-语言模型在典型的视觉-语言任务(如 VQA)上的训练不能直接解决机器人的推理任务。
3月6日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,该模型可以直接将现实世界的连续传感器模式纳入已经预训练好的 LLM 中,在单词和感知(words and percepts)之间建立联系,从而用于连续的机器人操作规划、视觉问题回答和字幕生成等多项具身任务中。
PaLM-E 是一个 decoder-only 的 LLM,在给定前缀(prefix)或提示(prompt)的情况下,以自回归方式生成文本补全,其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。PaLM-E 可以在多样化的实施方案中解决各种具身推理任务,且能够进行跨互联网规模的语言、视觉和视觉-语言域的多样化联合训练。
拥有 5620 亿参数的 PaLM-E-562B(540B 大小的 PaLM + 22B 大小的 ViT),除了在机器人任务上进行训练外,也是一个视觉-语言“通才”,在 OK-VQA 上有先进的表现,不依赖于任务特定的微调,且随着规模的扩大,全面的语言能力也依然得以保留。
PaLM-E 的主要架构设计理念是将连续的、具身的观察(如图像、状态估计或其他传感器模式)注入到预先训练好的 LLM 的语言嵌入空间中。这是通过将连续观测编码成与语言 token 的嵌入空间相同维度的向量序列来实现的。因此,连续信息以类似于语言 token 的方式被注入到语言模型中。
在该项目的 demo 中,研究团队展示了 PaLM-E 如何在两个不同的现实具身上规划和执行长跨度任务,如“把抽屉里的米片拿给我”“给我拿一颗绿星”等。另外,PaLM-E 也可以根据视觉和语言输入完成一项多阶段的规划,如控制桌面机器人将黄色六边形移到绿色星星上、把绿色块推到乌龟旁边、把红色块推到咖啡杯处。值得提及的是,尽管这个机器人此前从未见过绿星和乌龟,但依然能够成功地执行这些任务。
此外,除了释放机器人规划的新能力外,PaLM-E 也是一个视觉-语言模型,可以将一个或多个图像作为提示,从而生成描述性文字。该研究证明,通过将具身数据混合到多模态大型语言模型的训练中,可以训练出一个通用的、迁移学习的、多具身决策代理。据介绍,尽管 PaLM-E 只是在单幅图像的提示下被训练的,但 PaLM-E-562B 已经展示出了新的能力,如多模态思维链推理(CoT),少样本提示和多图像推理等。