MIT、哈佛、UW提出新型强化学习方法HuGE,AI Agent即使犯错也能快速学习

来源: 学术头条

发布日期: 2023-11-28 18:02:35

麻省理工学院、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法HuGE,该方法利用非专家用户的众包反馈来指导AI Agent学习,即使在反馈存在错误的情况下,也能使AI Agent更快速地学习。

为了教会AI Agent新技能,比如打开厨房橱柜,研究者通常采用强化学习方法。这是一种试错过程,AI Agent通过采取正确的行动接近目标而获得奖励。在大多数情况下,人类专家需要精心设计奖励函数,从而鼓励AI Agent进行更多探索。随着AI Agent的探索和尝试,人类专家需要不断更新这个奖励函数。这一过程既耗时又低效,特别是在任务复杂、步骤繁多时,扩展起来更是十分困难。

日前,麻省理工学院(MIT)、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法,这种方法不依赖专家设计的奖励函数,而是利用来自许多非专家用户的众包反馈(crowdsourced feedback),来指导AI Agent达成学习目标。尽管用户众包数据常常存在错误,这种新方法依然能够让AI Agent更快速地学习,这与其他尝试使用非专家反馈的方法有所不同,而这些噪声数据通常会让其他方法失效。

此外,这种新方法支持异步收集反馈,使得全球各地的非专家用户都可以参与到教导AI Agent的过程中。MIT电气工程与计算机科学系助理教授、Improbable AI Lab主任Pulkit Agrawal表示:“在设计AI Agent时,最耗时且具挑战性的部分之一就是设定奖励函数。当前,奖励函数主要由专家设计,如果我们想让机器人学习多种任务,这种方式是难以扩展的。

我们的研究提出了一种方案,通过众包来设计奖励函数,并让非专家参与提供有效反馈,从而扩大机器人的学习范围。”

未来,这种方法可以帮助机器人在人们家中快速学习特定任务,而无需人们亲自示范每项任务。机器人可以独立探索,由众包的非专家反馈引导其探索方向。“在我们的方法中,奖励函数不是直接告诉AI Agent怎样完成任务,而是指导它应该探索的方向。

因此,即便人类监督存在一定的不准确性和噪声,AI Agent仍然能够进行有效探索,从而更好地学习。”Improbable AI Lab研究助理、论文主要作者之一Marcel Torne解释说。

UUID: 73e6539c-7592-4987-ac56-4617466766bf

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-11-28_即使人类犯错,AIAgent也能快速学习!MIT、哈佛、UW提出新型强化学习方法HuGE.txt

是否为广告: 否

处理费用: 0.0040 元