构建具有通⽤能⼒的具身代理,在开放的世界中不断探索、计划和发展新的技能,是⼈⼯智能⾏业的⼀项巨⼤挑战。传统⽅法使⽤强化学习和模仿学习,但这些⽅法在系统化的探索、可解释性和泛化性等⽅⾯依然存在挑战。当前,基于⼤型语⾔模型(LLM)的代理利⽤预训练模型中蕴含的世界知识,可以⽣成⼀致的⾏动计划或可执⾏策略,被应⽤于游戏和机器⼈等具体任务,以及不需要具体化的⾃然语⾔处理任务。
然⽽,这些代理并不能终身学习,不能在较⻓时间跨度上逐步获取、更新、积累和传递知识。⼀个有效的终身学习代理,应该具备以下类似于⼈类的能⼒:根据当前的技能⽔平和世界状态提出合适的任务,根据环境反馈不断完善技能,并将掌握的技能保存在记忆中,以备将来在类似情况下再次使⽤;以⾃主驱动的⽅式不断探索世界,并寻找新的任务。
近⽇,由英伟达、加州理⼯、斯坦福等⾼校和机构的研究团队推出的具身代理模型 Voyager,便在沙盒游戏《我的世界》中通过⾃主学习闯出了属于⾃⼰的⼀⽚天地。在游戏中,Voyager 不仅学会了挖掘、建房屋、收集、打猎这些基本的⽣存技能,还学会了进⾏开放式探索;它在世界各地“旅⾏”,去过不同城市、海洋、⾦字塔;还可以搭建传送⻔;能与末影⻰战⽃。
此外,Voyager 还能通过⾃我驱动和探索不断发现新的物品和技能,根据不同的情况为⾃⼰装备不同等级的盔甲,以及使⽤多样化且具有创造性的⼯具,如使⽤栅栏圈养动物、使⽤盾牌格挡伤害等。可以说,这位 AI 探险家的诞⽣,再次证明了 AI 令⼈惊叹的学习能⼒。或许,从认知到创造,从探索到成⻓,在 Voyager 的探险经历中,是数字⽣命的⽆限潜能。