ChatGPT、Midjourney和Sora等人工智能(AI)工具将人类天马行空的想法转化为了海量的数字内容。然而,由于训练数据等限制,这些模型仍难以掌握现实世界的真正物理规律,也难以达到机器人在现实世界中有效自主交互所需的准确性、精确性和可靠性。
今天,强化学习大牛Pieter Abbeel团队研发的“机器人大脑”,则将数字数据中的内容成功带入了现实世界——由Abbeel和他的学生创建的强化学习机器人平台公司Covariant,基于自己的真实、复杂机器人数据集与海量的互联网数据,推出了一个机器人基础模型(RFM-1)。据介绍,在识别了图像、感官数据和文本的模式后,该技术让机器人有能力处理物理世界中的突发状况。
即使机器人从未见过香蕉,它也知道如何拿起香蕉。它还能用简单的英语做出反应,就像聊天机器人一样。此外,该模型不仅可以通过一般的互联网数据进行训练,还可以通过丰富的物理现实世界交互数据进行训练。对此,Covariant的首席执行官Peter Chen表示:“数字数据中的内容可以转移到现实世界中。”
在这项工作中,Pieter Abbeel(总裁和首席科学家)与两位华人科学家——Rocky Duan(CTO)、Peter Chen(CEO),利用ChatGPT等聊天机器人背后的技术打造了可以在物理世界中导航的人工智能系统——RFM-1。
据官方博客介绍,RFM-1可以帮助分类机器人与物理世界交互,通过视频或文本输入(用户可以像聊天机器人一样与它们对话),机器人可以“学习”如何在工厂中行动,而无需一长串指令。RFM-1是一个多模态任意序列(multimodal any-to-any sequence)模型,拥有80亿参数,可对文本、图像、视频、机器人动作和一系列数字传感器读数进行训练。
RFM-1将所有token化(tokenizing)到一个共同空间,并执行自回归下一个token预测,从而利用其广泛的输入和输出模态实现多样化应用。
值得关注的是,RFM-1在物理和语言理解方面具有强大的功能。学习世界模型是物理学模拟的未来。RFM-1对物理的理解来自于对视频生成的学习:通过输入初始图像和机器人动作的token,它可以作为物理世界模型来预测未来的视频token。
动作条件视频预测任务允许RFM-1学习低层次的世界模型,模拟世界每几分之一秒的变化情况。同时,从这些世界建模任务中产生的物理理解力还能直接增强RFM-1的其他能力,如将图像映射到机器人行动的能力。另外一点,有了RFM-1,人们可以通过语言与机器人协作。
据介绍,RFM-1能够将文本token作为输入进行处理,并将文本token作为输出进行预测,这使得任何人都可以在数分钟内(而不是数周或数月内)快速编程新的机器人行为,降低了机器人新行为编程的门槛。
尽管RFM-1在物理和语言理解方面具有强大的功能,然而,RFM-1本身还具有一些局限性。首先,尽管在真实生产数据上的离线测试结果很有希望,但RFM-1还没有部署给真实客户。
Covariant表示,他们知道如何为现有客户带来价值的第一手经验,预计将在未来数月内向他们推出RFM-1。通过将RFM-1部署到生产中,他们希望收集到的数据能帮助发现RFM-1当前的故障模式,并加速RFM-1的学习。另外,受限于模型的上下文长度,RFM-1作为一个世界模型的运行分辨率(约512x512像素)和帧速率(约5 fps)都相对较低。
虽然RFM-1已经可以开始捕捉大型物体的变形,但还不能很好地模拟小型物体/快速运动。他们还观察到,世界模型的预测质量与可用数据量之间存在密切联系。未来,他们希望通过即将投入生产的机器人,将数据收集速度至少提高10倍。最后,虽然RFM-1可以开始理解基本的语言命令,从而对其行为进行局部调整,但整体协调逻辑在很大程度上仍然是用Python和C++等传统编程语言编写的。
随着通过扩展数据来扩大机器人控制的粒度和任务的多样性,他们对未来人们可以使用语言来编写整个机器人程序感到兴奋,这将进一步降低部署新机器人站的门槛。
纽约大学心理学和神经科学名誉教授Gary Marcus认为,这种技术在仓库和其他可以接受错误的情况下可能很有用。但在制造工厂和其他潜在危险的环境中部署这种技术会更加困难,风险也更大。
尽管如此,Abbeel团队依然认为,RFM-1是机器人基础模型新纪元的开端——通过赋予机器人类似人类的快速推理能力,RFM-1向提供所需的自主性迈出了一大步,以解决愿意从事高度重复性和危险任务的工人日益短缺的问题,最终在未来几十年内提高生产力和经济增长。“如果它能预测视频中的下一帧画面,就能确定正确的后续策略,”Abbeel说。