深度:大模型如何赋能机器人?机器人又如何训练大模型?

作者: Elizabeth Gibney

来源: https://www.nature.com/articles/d41586-024-01442-5

发布日期: 2024-05-30 15:17:38

本文探讨了人工智能如何赋能机器人,以及机器人如何反过来训练人工智能。随着技术的发展,机器人在各个领域的应用不断扩展,但仍面临数据不足、硬件挑战和安全性问题。研究人员正在努力通过数据池化、模拟和多样化的数据收集来推动机器人技术的进步。

对于看着《星球大战》长大的这一代人来说,我们的城市和家庭中缺少像C-3PO一样的机器人,这令人失望。那些充满常识、能在家中和工作场所提供帮助的人形机器人在哪里?人工智能(AI)的飞速发展可能会填补这一空白。斯坦福大学机器学习和机器人学研究员Alexander Khazatsky说:“如果我们是最后一代没有实现这些科幻场景的人,我也不会感到惊讶。”

从OpenAI到Google DeepMind,几乎所有掌握人工智能技术的大型科技公司,都在致力于将支持聊天机器人的多功能学习算法(即基础模型)接入机器人中。这样做的目的是让机器人具备常识性知识,从而能够处理各种任务。许多研究人员认为,机器人可以很快变得非常强大。英伟达机器人技术营销经理Gerard Andrews说:“我们相信,我们正处于机器人技术变革的关键时刻。”

与此同时,机器人还有助于改进人工智能。许多研究人员希望,在人工智能训练中加入具身体验,可以让他们更接近实现“通用人工智能(AGI)”的目标——人工智能在任何任务中都具有类似人类的认知能力。Meta人工智能研究员Akshara Rai说:“真正智能的最后一步必须是物理智能(physical intelligence)。”

不过,尽管许多研究人员对最近将人工智能带入机器人感到兴奋,但他们也提醒说,一些更令人印象深刻的演示仅仅是演示而已,往往来自那些急于引起轰动的公司。麻省理工学院机器人专家Rodney Brooks说,从演示到部署可能是一条漫长的道路。这条道路上有很多障碍,包括收集足够多的正确数据来供机器人学习、处理易受影响的硬件以及解决安全问题。

新加坡国立大学人机互动专家Harold Soh说:“应该探索”用于机器人的基础模型。但他对这一战略能否像一些研究人员预测的那样带来机器人革命持怀疑态度。

从广泛应用于制造业的机械臂,到用于救援任务的自动驾驶汽车和无人机,机器人系统涵盖了多种自动化设备。大多数机器人都采用了某种人工智能技术,比如识别物体。

MassRobotics联合创始人Joyce Sidopoulos说,但它们也被编程用于执行特定任务、在特定环境中工作或依赖某种程度的人工监管。即使是由波士顿动力(Boston Dynamics)制造的机器人Atlas,也是通过仔细映射环境并从内置模板库中选择最佳动作来工作的。

对于大多数涉及机器人领域的人工智能研究人员来说,他们的目标是创造出更自主、适应范围更广的机器人。这可能会从能够“取放”任何工厂产品的机械臂开始,进而发展成能够为老年人提供陪伴和支持的人形机器人。“应用领域非常广泛,”Sidopoulos说。人类的形态很复杂,而且并不总是针对特定的物理任务进行优化,但它有一个巨大的优势,那就是完全适合人类构建的世界。人形机器人也应该可以像人一样与世界进行物理互动。

然而,控制任何机器人都非常困难,更不用说人形机器人了。看似简单的任务,比如开门,实际上却非常复杂,需要机器人了解不同的门机械装置如何工作,对把手施加多大的力,以及如何在操作过程中保持平衡。而现实世界是千变万化、瞬息万变的。目前正在兴起的一种方法是使用与图像生成器和聊天机器人(如ChatGPT)相同的人工智能基础模型来控制机器人。这些模型使用大脑启发的神经网络,从大量通用数据中学习。

它们在训练数据的元素之间建立关联,当在被要求输出时,利用这些关联生成适当的单词或图像,往往能取得惊人的效果。

同样,机器人基础模型也是通过互联网上的文本和图像进行训练的,为其提供有关各种物体的性质及其背景信息。它还能从机器人操作的实例中学习。例如,可以通过机器人试验和出错的视频,或人类远程操作机器人的视频,以及与这些操作相关的指令来训练机器人基础模型。经过训练的机器人基础模型可以观察场景,并利用其学习到的关联来预测什么操作会带来最佳结果。

Google DeepMind建立了一个先进的机器人基础模型——Robotic Transformer 2(RT-2),其可以操作移动机械臂。与其他机器人基础模型一样,它也是通过互联网上和机器人操作视频进行训练的。得益于在线训练,RT-2可以按照指令进行操作,即使这些指令超出了机器人以前见过的其他机器人的操作范围。

例如,当被要求将饮料罐移到Taylor Swift的照片上时,RT-2可以成功完成,尽管Swift的照片并没有出现在RT-2接受训练的130000次演示中。换句话说,从互联网上搜索中收集到的知识(比如Swift的长相)被带到了机器人的行动中。Google DeepMind人工智能和机器人研究员Keerthana Gopalakrishnan说:“很多互联网概念就这样被转移了。

”这从根本上减少了机器人为应对不同情况而需要获得的物理数据量。

但要完全理解动作的基本原理及其(可能产生的)后果,机器人仍然需要从大量物理数据中学习。这就是问题所在。尽管聊天机器人正在接受来自互联网的数十亿个单词的训练,但对于机器人相关的活动,却没有相应的大型数据集。数据的缺乏让机器人“进步缓慢”,Khazatsky说。数据池化(pooling data)是解决这一问题的方法之一。

Khazatsky和他的同事创建了DROID2,这是一个开源数据集,收集了一种机械臂(Franka Panda 7DoF)约350小时的视频数据。机器人相机记录了数百种环境下的视觉数据,包括浴室、洗衣房、卧室和厨房。Khazatsky说,这种多样性有助于机器人出色地完成以前从未遇到过的任务。

Gopalakrishnan是由几十个学术实验室组成的合作小组的成员之一,该小组也在收集机器人数据,其中包括从单臂到四足动物等各种机器人形态的数据。合作小组的理论是,学习一个机器人的物理世界,应该有助于人工智能操作另一个机器人身体——就像学习英语可以帮助语言模型生成中文一样,因为单词所描述的世界的基本概念是相同的。这似乎行之有效。

合作产生的基础模型名为RT-X,与其他研究人员在一种机器人架构上训练的模型相比,它在实际任务中的表现更好。许多研究人员表示,这种多样性是必不可少的。

Covariant联合创始人、人工智能研究员Peter Chen说:“我们认为,真正的机器人基础模型不应该只与一种具身方式绑定。”Covariant也在努力扩大机器人数据的规模。

该公司自2018年开始收集全球仓库中30种不同机械臂的数据,这些机械臂均使用Covariant软件运行。Covariant的机器人基础模型RFM-1不仅收集视频数据,还包括传感器读数,比如举起的重量或施加的力。Gopalakrishnan说,这种数据应该有助于机器人执行任务,比如操纵柔软的物体——理论上,可以帮助机器人知道如何避免破坏香蕉。

Covariant建立了一个专有数据库,其中包括数千亿个token——现实世界中机器人的信息单位——这与训练GPT-3的数据规模大致相当。“我们拥有比别人多得多的真实世界数据,”Chen说,RFM-1将允许运行Covariant软件的机器人操作员输入或说出通用指令,如“把垃圾桶里的苹果捡出来”。

另一种获取大型动作数据库的方法是关注人形机器人的形态,这样人工智能就可以通过观看人类视频来学习——互联网上有数十亿人类的视频。Andrews举例说,英伟达Project GR00T基础模型正在观看大量人类执行任务的视频。Gopalakrishnan说,虽然模仿人类在提高机器人技能方面潜力巨大,但要做到这一点却很难。例如,机器人视频一般都带有上下文和指令数据,而人类视频则没有。

研究人员说,获得无限物理数据的最后一个可行方法是通过模拟。许多机器人学家正在努力构建3D虚拟现实环境,其物理原理与真实世界类似,然后将其连接到机器人脑进行训练。模拟器可以产生大量数据,让人类和机器人在罕见或危险的情况下无风险地进行虚拟互动,而且不会磨损机械。Andrews说:“如果你不得不让大量机械臂进行训练,直到它们达到高度灵巧的水平,那么它们的电机可能会因为过热而损坏。

”然而,开发一个好的模拟器是一项艰巨的任务。Khazatsky说:“模拟器具有良好的物理特性,但不是完美的物理特性,制作多样化的模拟环境几乎与收集多样化的数据一样困难。”

为扩大机器人数据的规模,Meta和英伟达都在仿真方面做了大量工作,并分别建立了复杂的仿真世界——Habitat和Isaac Lab。

在这些模拟世界中,机器人在几个小时内就可以获得相当于多年的经验,然后在试验中成功地将学到的知识应用于在现实世界中从未遇到过的情况。Rai说:“模拟是机器人技术中一个极其强大但却被低估的工具,我很高兴看到它的发展势头越来越好。”许多研究人员乐观地认为,基础模型将有助于制造出可以替代人类劳动的通用机器人。

今年2月,机器人公司Figure获得了6.75亿美元的投资,该公司计划在其通用人形机器人中使用OpenAI开发的语言和视觉模型。在一段演示视频中,机器人回应了一个人提出的“吃点东西”的要求,给了他一个苹果。目前还不清楚这个机器人的基础模型究竟是如何训练出来的,也不清楚它在各种环境下的表现细节。

Soh说,这种演示应该谨慎看待。他说,视频中的环境非常稀疏。添加更复杂的环境可能会让机器人感到困惑——就像复杂环境可以欺骗自动驾驶汽车一样。“机器人专家对机器人视频持怀疑态度是有道理的,因为我们制作视频时知道,在100个镜头中,通常只有一个是有效的。”

未来的障碍随着人工智能研究社区在机器人脑方面的不断进步,许多实际制造机器人的人提醒道,硬件同样是一个挑战:机器人很复杂,而且经常损坏。

Chen说,硬件一直在进步,但“很多人只看到了基础模型的前景,却不知道部署这些类型的机器人有多么困难”。另一个问题是,机器人基础模型在使用视觉数据(占其物理训练的绝大部分)时能走多远。Soh说,机器人可能需要大量其他类型的感官数据,比如触觉或本体感觉(一种身体在空间中的位置感)。这些数据集目前还不存在。“所有这些都是缺失的,我认为这是人形机器人在世界上高效工作所必需的。

”将基础模型应用于现实世界还面临另一个重大挑战——安全性。自大型语言模型(LLMs)开始大量出现以来的两年里,它们已经被证明会产生错误和有偏见的信息。它们还可能被诱骗去做程序设定它们不能做的事情。让人工智能系统拥有身体,可以将这些错误和威胁带到物理世界。Gopalakrishnan说:“如果机器人出错,它实际上会对你造成身体伤害,或者打碎东西,或者造成其他损坏。

”她表示,机器人领域也需要人工智能安全领域正在进行的宝贵工作。此外,她的团队还在一些机器人人工智能模型的学习基础上添加了一些规则,比如甚至不尝试与人、动物或其他生物体互动的任务。“在我们对机器人有信心之前,我们将需要大量的人类监督。”

尽管存在风险,但利用人工智能改进机器人——以及利用机器人改进人工智能——的趋势愈发明显。

Gopalakrishnan认为,将人工智能大脑与实体机器人连接起来,可以改善基础模型,比如让它们具有更好的空间推理能力。Rai说,Meta是追求“只有当智能体(agent)能够与物理世界互动时,才能产生真正的智能”这一假设的机构之一。有人说,现实世界中的互动可以让人工智能超越学习模式和预测,真正理解这个世界,并做出正确的推理。未来会发生什么?

Brooks说,机器人将不断得到改进并应用于新的领域,但它们的最终用途“远没有人形机器人取代人类劳动那样吸引人”。但也有人认为,开发一种能够做晚饭、跑腿和叠衣服的实用安全的人形机器人是有可能的,只是可能要花费数亿美元。Khazatsky说:“我相信会有人做到的,只是需要花费大量的金钱和时间。

UUID: 75c7b807-abdf-4244-b5d7-02160aa15550

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-05-30_Nature深度:大模型如何“赋能”机器人?机器人又如何“训练”大模型?.txt

是否为广告: 否

处理费用: 0.0203 元