清华团队领衔打造,首个AI agent系统性基准测试问世

作者: 闫一米

来源: 学术头条

发布日期: 2023-08-08 18:46:48

清华大学等机构的研究团队推出了首个系统性的AI智能体基准测试AgentBench,用于评估LLMs在多种真实世界环境中的表现。测试结果显示,顶级商业语言模型如GPT-4在复杂环境中表现出色,而开源模型仍有显著提升空间。此外,AI代理的自主能力正在硅谷引发热潮,多家公司和初创企业参与竞争,推动AI技术的发展。

AI智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中AI领域的研究热点。尤其是以GPT-4为代表的AI大模型的出现,将AI智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中,25个AI智能体在虚拟小镇自由生长,举办了情人节派对;英伟达等提出的具身代理模型Voyager,也在《我的世界》中学会各种生存技能,闯出了自己的一片天;此外,能够自主完成任务的AutoGPT、BabyAGI和AgentGPT等,也同样引发了公众的广泛兴趣和热烈讨论。

尽管当前AI智能体研究异常火热,但目前AI行业缺乏一个系统化和标准化的基准来评估LLMs作为代理的智能水平。为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench,用来评估LLMs作为智能体在各种真实世界挑战和8个不同环境中的表现(如推理和决策能力)。

研究结果显示,顶级商业语言模型(如GPT-4)在复杂环境中表现出色,与开源模型之间存在显著优势。为此,研究团队建议,有必要进一步努力提高开源LLMs的学习能力。

未来还需要更多的工作来进行更加严格、系统的评估,并提供强大的开源工具来促进此类评估,如不断完善AgentBench,使其更加全面和包容,以及建立一个更为系统的LLMs评估体系等。AI大模型的不断进化催生了新型助手的诞生。当前,“自主”AI代理的竞争激发了硅谷的热潮。不仅吸引了个⼈开发者,还有巨头公司如微软和谷歌母公司Alphabet,以及众多初创企业也踊跃参与其中。

UUID: 2930b748-178e-44df-8ac4-e7a21663dafc

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-08-08_清华团队领衔打造,首个AIagent系统性基准测试问世.txt

是否为广告: 否

处理费用: 0.0037 元