为了教会AI Agent新技能,比如打开厨房橱柜,研究者通常采用强化学习方法。这是一种试错过程,AI Agent通过采取正确的行动接近目标而获得奖励。在大多数情况下,人类专家需要精心设计奖励函数,从而鼓励AI Agent进行更多探索。随着AI Agent的探索和尝试,人类专家需要不断更新这个奖励函数。这一过程既耗时又低效,特别是在任务复杂、步骤繁多时,扩展起来更是十分困难。
日前,麻省理工学院(MIT)、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法,这种方法不依赖专家设计的奖励函数,而是利用来自许多非专家用户的众包反馈(crowdsourced feedback),来指导AI Agent达成学习目标。尽管用户众包数据常常存在错误,这种新方法依然能够让AI Agent更快速地学习,这与其他尝试使用非专家反馈的方法有所不同,而这些噪声数据通常会让其他方法失效。
此外,这种新方法支持异步收集反馈,使得全球各地的非专家用户都可以参与到教导AI Agent的过程中。MIT电气工程与计算机科学系助理教授、Improbable AI Lab主任Pulkit Agrawal表示:“在设计AI Agent时,最耗时且具挑战性的部分之一就是设定奖励函数。当前,奖励函数主要由专家设计,如果我们想让机器人学习多种任务,这种方式是难以扩展的。
我们的研究提出了一种方案,通过众包来设计奖励函数,并让非专家参与提供有效反馈,从而扩大机器人的学习范围。”
未来,这种方法可以帮助机器人在人们家中快速学习特定任务,而无需人们亲自示范每项任务。机器人可以独立探索,由众包的非专家反馈引导其探索方向。“在我们的方法中,奖励函数不是直接告诉AI Agent怎样完成任务,而是指导它应该探索的方向。
因此,即便人类监督存在一定的不准确性和噪声,AI Agent仍然能够进行有效探索,从而更好地学习。”Improbable AI Lab研究助理、论文主要作者之一Marcel Torne解释说。