家⼈们,继⼈⼯智能(AI)攻占象棋、围棋、Dota之后,转笔这⼀技能也被AI机器⼈学会了。上⾯这个笔转的贼溜的机器⼈,得益于名叫Eureka的智能体(Agent),是来⾃英伟达、宾夕法尼亚⼤学、加州理⼯学院和得克萨斯⼤学奥斯汀分校的⼀项研究。得Eureka“指点”后的机器⼈还可以打开抽屉和柜⼦、扔球和接球,或者使⽤剪⼑。据英伟达介绍,Eureka有10种不同的类型,可执⾏29种不同的任务。
要知道在之前,单就转笔这⼀功能,仅靠⼈类专家⼿⼯编程,是⽆法如此顺滑的实现的。
⽽Eureka能够⾃主编写奖励算法来训练机器⼈,且码⼒强劲:⾃编的奖励程序在83%的任务中超越了⼈类专家,能使机器⼈的性能平均提升52%。Eureka开创了⼀种从⼈类反馈中⽆梯度学习的新途径,它能够轻松吸收⼈类提供的奖励和⽂字反馈,从⽽进⼀步完善⾃⼰的奖励⽣成机制。
具体⽽⾔,Eureka利⽤了OpenAI的GPT-4来编写⽤于机器⼈的试错学习的奖励程序。这意味着该系统并不依赖于⼈类特定任务的提示或预设的奖励模式。
Eureka通过在Isaac Gym中使⽤GPU加速的仿真,能够快速评估⼤量候选奖励的优劣,从⽽实现更有效率的训练。接着,Eureka会⽣成训练结果的关键统计信息摘要,并指导LLM(Language Model,语⾔模型)改进奖励函数的⽣成。
通过这种方式,AI智能体能够独⽴地改善对机器⼈的指令。Eureka的框架研究⼈员还发现,任务越复杂,GPT-4的指令就越能优于所谓的“奖励⼯程师”的⼈类指令。参与该研究的研究员甚⾄称Eureka为“超⼈类奖励⼯程师”。
Eureka成功地弥补了⾼层推理(编码)和低层运动控制之间的鸿沟。
其采⽤了⼀种被称为“混合梯度架构”:⼀个纯推理的⿊盒子LLM(Language Model,语⾔模型)引导⼀个可学习的神经⽹络。在这个架构中,外层循环运⾏GPT-4来优化奖励函数(⽆梯度),⽽内层循环则运⾏强化学习以训练机器⼈的控制器(基于梯度)。Eureka可以整合⼈类的反馈,以便更好地调整奖励,使其更符合开发者的期望。
Nvidia把这个过程称为“in-context RLHF”(从⼈类反馈中进⾏上下⽂学习)。
值得注意的是,Nvidia的研究团队已经开源了Eureka的AI算法库。这将使得个⼈和机构能够通过Nvidia Isaac Gym来探索和实验这些算法。Isaac Gym是建⽴在Nvidia Omniverse平台上的,这是⼀个基于Open USD框架⽤于创建3D⼯具和应⽤程序的开发框架。
在过去的⼗年中,强化学习取得了巨⼤的成功,但我们必须承认其中仍存在持续的挑战。之前虽然有尝试引⼊类似的技术,但与使⽤语⾔模型(LLM)来辅助奖励设计的L2R(Learning to Reward)相⽐,Eureka更为突出,因为它消除了特定任务提示的需要。
Eureka之所以能⽐L2R更出⾊,是因为它能够创建⾃由表达的奖励算法,并利⽤环境源代码作为背景信息。
英伟达的研究团队进⾏了⼀项调查,以探索在使⽤⼈类奖励函数启动时,是否能提供⼀些优势。实验的⽬的是想看看是否你们能顺利地⽤初始Eureka迭代的输出替代原始的⼈类奖励函数。在测试中,英伟达的研究团队在每个任务的情境下,使⽤相同的强化学习算法和相同的超参数对所有最终奖励函数进⾏了优化。
为了测试这些特定任务的超参数是否经过良好调整以确保⼈⼯设计的奖励的有效性,他们采⽤了经过充分调整的近端策略优化(PPO)实现,这个实现基于之前的⼯作,没有进⾏任何修改。
对于每个奖励,研究⼈员进⾏了五次独⽴的PPO训练运⾏,并报告了策略检查点达到的最⼤任务指标值的平均值,作为奖励性能的度量。结果显示:⼈类设计者通常对相关状态变量有很好的理解,但在设计有效奖励⽅⾯可能缺乏⼀定的熟练度。
Nvidia的这项开创性研究在强化学习和奖励设计领域开辟了新的疆界。他们的通⽤奖励设计算法Eureka利⽤了⼤型语⾔模型和上下⽂进化搜索的⼒量,能够在⼴泛的机器⼈任务领域⽣成⼈类⽔平的奖励,⽽⽆需特定任务提示或⼈⼯⼲预,这在很⼤程度上改变了我们对AI和机器学习的理解。