AI智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中AI领域的研究热点。尤其是以GPT-4为代表的AI大模型的出现,将AI智能体的概念推向了科技的最前沿。
在此前爆火的斯坦福“虚拟小镇”中,25个AI智能体在虚拟小镇自由生长,举办了情人节派对;英伟达等提出的具身代理模型Voyager,也在《我的世界》中学会各种生存技能,闯出了自己的一片天;此外,能够自主完成任务的AutoGPT、BabyAGI和AgentGPT等,也同样引发了公众的广泛兴趣和热烈讨论。
尽管当前AI智能体研究异常火热,但目前AI行业缺乏一个系统化和标准化的基准来评估LLMs作为代理的智能水平。为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench,用来评估LLMs作为智能体在各种真实世界挑战和8个不同环境中的表现(如推理和决策能力)。
研究结果显示,顶级商业语言模型(如GPT-4)在复杂环境中表现出色,与开源模型之间存在显著优势。为此,研究团队建议,有必要进一步努力提高开源LLMs的学习能力。
未来还需要更多的工作来进行更加严格、系统的评估,并提供强大的开源工具来促进此类评估,如不断完善AgentBench,使其更加全面和包容,以及建立一个更为系统的LLMs评估体系等。AI大模型的不断进化催生了新型助手的诞生。当前,“自主”AI代理的竞争激发了硅谷的热潮。不仅吸引了个⼈开发者,还有巨头公司如微软和谷歌母公司Alphabet,以及众多初创企业也踊跃参与其中。