当前,⼤型语⾔模型(LLMs)或许是通⽤⼈⼯智能(AGI)得以实现的“最优解”。然⽽,尽管⼤模型在流利性和知识⼴度⽅⾯貌似已接近⼈类⽔平,但评估它们的挑战⽇益突显。随着⼤模型的迅猛发展,⼀些传统基准已经失效。因此,新的测评基准亟需制定。
近⽇,来⾃Meta、HuggingFace和AutoGPT的研究团队共同提出了⼀个⽤于测试通⽤AI助⼿的基准——GAIA,该基准提出了现实世界中需要⼀系列基本能⼒的问题,如推理、多模态处理、⽹络浏览和通⽤⼯具使⽤熟练技能。
研究团队表示,这些问题在概念上对⼈类来说⾮常简单,但对⼤多数⼤模型来说,却很有挑战性:⼀个直观的数据,⼈类回答这些问题的成功率为92%,⽽即使是带有插件的GPT-4仅有15%的成功率。这与近年来⼤模型在法律或化学等需要专业技能的任务中表现优于⼈类的趋势形成了鲜明对⽐。
相关研究论⽂以“GAIA: A Benchmark for General AI Assistants”为题,已发表在预印本⽹站 arXiv 上。值得注意的是,GAIA 的理念偏离了当前 AI 基准的趋势,即瞄准对⼈类来说越来越难的任务。研究团队认为,AGI的出现取决于系统能否在此类问题上表现出与普通⼈类似的鲁棒性。
通⽤AI助⼿基准:与真实世界互动。随着⼤模型能⼒的提升,现有的评估基准变得越来越难以满⾜新模型的挑战,传统的基准测试很快就会被这些新模型超越。在尝试将⼤模型变成通⽤助⼿的过程中,⽬前的评估⽅法相对滞后。现有的评估主要依赖于封闭系统、特定 API 调⽤或者重新使⽤现有的评估数据集。然⽽,这些⽅法通常在封闭环境中进⾏,可能评估的是助⼿学习使⽤特定 API 的程度,⽽不是在真实世界互动中更通⽤的能⼒。
相⽐之下,GAIA 采⽤了与真实世界的互动作为评测基准,并不限定可能的 API。还有其他⼀些⽅法也在探索通⽤助⼿的评估,但它们与 GAIA 的核⼼区别在于它们更关注当前模型的能⼒,⽽不是未来的进展。据论⽂描述,GAIA 是⼀个测试 AI 系统通⽤助⼿问题的标准,旨在避免 LLMs 评估中的各种问题。GAIA 包含由⼈类设计和标注的 466 个问题。
这些问题主要是⽂本形式的,有时还包含⼀些⽂件,⽐如图像或电⼦表格。问题涵盖了各种通⽤助⼿应⽤场景,包括⽇常个⼈任务、科学问题和⼀般知识。问题设计成只有⼀个简短⽽正确的答案,因此很容易验证。使⽤ GAIA 只需要向 AI 助⼿提示这些问题,并附带相关的证据(如果有的话)。
另外,使⽤ GAIA 评估 LLMs 只需要具备向模型提问的能⼒,也就是说,需要能够访问 API。
研究⼈员在向模型提问之前使⽤了⼀个前缀提示。为了⽅便提取答案,他们还在前缀提示中规定了⼀种格式。随后,他们对 GPT4 进⾏了评估,包括有插件和没有插件的情况,还评估了以 GPT4 为后端的 AutoGPT。目前,GPT4 需要⼿动选择插件,⽽ AutoGPT 能够⾃动进⾏这个选择。结果表明,GAIA 允许清晰地对能⼒强的助⼿进⾏排名,同时在未来的⼏个⽉甚⾄⼏年中仍然有很⼤的改进空间。
从图中可以看出,⼈类的⽹络搜索在 Level 1 ⽅⾯表现良好,但在更复杂的查询上效果不佳,⽽且速度稍慢。与没有插件的 GPT-4 相⽐,使⽤插件的 GPT-4 在提⾼答案准确性和执⾏计划⽅⾯表现更好。AutoGPT-4 ⾃动使⽤⼯具,但在 Level 2 和甚⾄ Level 1 ⽅⾯的表现令⼈失望,可能是由于其依赖 GPT-4 API 的⽅式。
总体⽽⾔,与使⽤插件的 GPT-4 合作的⼈类似乎在分数和时间之间找到了最佳的平衡。
GAIA 的出现让我们重新思考当前和未来 AI 系统评估的范式。封闭在 API 后⾯的模型可能会随着时间的推移⽽改变,这意味着在不同时间点进⾏的评估可能⽆法复制或重现。另外,问题可能会更加复杂,因为像 ChatGPT 插件这样的⼯具和它们的功能会定期更新,⽽不是通过 ChatGPT 的 API 进⾏访问。
由于研究⼈员在评估模型性能时通常依赖于真实世界的基准,⽽这些基准可能会随着时间的推移⽽改变,所以实现可重现性可能会变得更加困难。然⽽,GAIA 对于⽣成随机性的处理是鲁棒的,因为它只关注最终的答案,即只接受⼀个正确的响应进⾏评估。
此外,相较于规模更⼤但多项选择问题的数据集,GAIA 注重问题质量⽽⾮数量。GAIA 的持续发展有望成为更全⾯评估 AI 系统泛化能⼒和稳健性的关键组成部分。
GAIA 任务可能涉及调⽤各种模块来完成,⽐如图像分类器可能返回错误的标签。有些⼈可能会觉得这样的评估有些含糊,因为 GAIA 看待系统为⼀个整体,⽽不是把错误归因于系统的⼦部分,⽐如⽹络浏览或视觉模块。然⽽,将 LLMs 与其他⼯具紧密结合以完成所有任务可能不是可持续的⽅法。未来的模型可能会在语⾔模型和其他能⼒之间更加集成,如视觉语⾔模型。
GAIA 的⽬标是评估整个 AI 系统,⽽不仅仅是特定的架构标准。更⼴泛地说,对于复杂⽣成的⾃动、事实和可解释的评估⼀直是⽣成式 AI 中的⼀个⻓期难题。⽬前的评估⽅法可能存在⼀些限制,未来可能需要更复杂的⽅法,⽐如结合多模态系统,通过对图像进⾏复杂的序列修改,并在⾃然语⾔中提出明确问题的⽅式来改进⽣成模型的评估。
尽管深度学习在各领域取得了进展,但全⾃动化⽬前仍⾯临⽆法预测的失败,如⾃动驾驶汽⻋的挑战。解决 GAIA 问题需要全⾃动化,但这可能导致社会经济格局的改变,存在技术所有者主导价值捕获的⻛险。另外,GAIA 也存在⼀些局限。⾸先,GAIA ⽆法评估不同路径通向正确答案的情况。论⽂作者建议未来考虑⼈类和模型评估,以弥补这⼀缺陷。
此外,由于 OpenAI 的 API 未提供详细⼯具调⽤⽇志,当前只评估了具有⼯具访问权限的最强⼤的语⾔模型。研究团队希望在未来能够在开源领域添加其他具备⾜够⼯具使⽤能⼒和⽇志记录的模型。为了创建现实且易于使⽤的基准,需要两轮注释,第⼀轮由注释者设计明确问题,第⼆轮由两位独⽴注释者回答问题并排除歧义,尽管这过程彻底,仍可能存在歧义。
最后,GAIA 的⼀个重⼤限制在于它缺乏语⾔多样性:所有问题只能⽤“标准”英语提出,⽽且许多问题主要依赖于英语⽹⻚。因此,GAIA 只是评估通⽤ AI 助⼿潜⼒的第⼀步,不应视为它们成功的绝对证明。