清华团队领衔打造，首个AI agent系统性基准测试问世

AI智能体，或自主智能代理，不仅是诸如贾维斯等科幻电影中的人类超级助手，也一直是现实世界中AI领域的研究热点。尤其是以GPT-4为代表的AI大模型的出现，将AI智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中，25个AI智能体在虚拟小镇自由生长，举办了情人节派对；英伟达等提出的具身代理模型Voyager，也在《我的世界》中学会各种生存技能，闯出了自己的一片天；此外，能够自主完成任务的AutoGPT、BabyAGI和AgentGPT等，也同样引发了公众的广泛兴趣和热烈讨论。

尽管当前AI智能体研究异常火热，但目前AI行业缺乏一个系统化和标准化的基准来评估LLMs作为代理的智能水平。为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench，用来评估LLMs作为智能体在各种真实世界挑战和8个不同环境中的表现（如推理和决策能力）。

研究结果显示，顶级商业语言模型（如GPT-4）在复杂环境中表现出色，与开源模型之间存在显著优势。为此，研究团队建议，有必要进一步努力提高开源LLMs的学习能力。

未来还需要更多的工作来进行更加严格、系统的评估，并提供强大的开源工具来促进此类评估，如不断完善AgentBench，使其更加全面和包容，以及建立一个更为系统的LLMs评估体系等。AI大模型的不断进化催生了新型助手的诞生。当前，“自主”AI代理的竞争激发了硅谷的热潮。不仅吸引了个⼈开发者，还有巨头公司如微软和谷歌母公司Alphabet，以及众多初创企业也踊跃参与其中。