大模型评估基准的「七宗罪」

Jason Wei是思维链提出者，并和Yi Tay、Jeff Dean等人合著了关于大模型涌现能力的论文。目前他正在OpenAI进行工作。在CV领域，研究者一直把李飞飞等人创建的ImageNet奉为模型在下游视觉任务中能力的试金石。在大模型时代，我们该如何评估LLM性能？现阶段，研究者已经提出了诸如MMLU、GSM8K等一些评估基准，不断有LLM在其上刷新得分。但这些评估基准真的完美吗？

思维链提出者Jason Wei在一篇博客中进行了深入的研究。

Jason Wei首先列举了几种成功的评估基准，然后总结了评估基准失败的常见原因，共七条，包括样本数量少、评估基准太复杂等。进一步的，Jason Wei认为有些评估工具命名方式并不完美，比如HumanEval虽然叫做人类评估，实际上并没有用到人类进行评估，只是因为问题是由人类创建的。

Jason Wei表示如果想让自己创建的评估工具得到广泛使用，一定要帮助研究者使用它，从而得到推广。此外，文中还提到了一些针对特定领域的小众评估工具，Jason Wei认为这些评估可能不会引起领域之外的任何关注。大家关心的测试集污染问题，Jason Wei也给出了一些解决方案。

成功评估的定义是什么？我想说，如果一个评估基准被用在突破性论文中，并在社区中得到信任，那么它显然就是成功的。

以下是过去五年中一些成功的评估基准：GLUE/SuperGLUE：LLM之前基本上所有NLP论文（BERT、T5等）都使用。MMLU：几乎所有LLM论文都使用，也是DeepMind和Google最喜欢的评估基准。GSM8K：激发了LLM的推理能力，并被用于每一篇关于思维链的论文中。MATH：大多数LLM论文会使用。HumanEval：是LLM编码的经典评估基准。

成功的评估往往会有一篇大论文声称使用该评估基准取得了一些突破。例如，GLUE由BERT推广，MMLU由Gopher、Chinchilla和Flan-PaLM推广。思维链提示声称在GSM8K上取得了突破。Minerva的超凡能力在MATH上得到体现。Codex等模型使用了HumanEval。

更深入地说，在评估基准上得到好分数必须意味着一些重要且易于理解的事情，例如实现超越人类的表现、解决小学水平的数学问题。

而大多数不成功的评估基准都至少犯了如下七个错误之一：1、如果评估没有足够的样本，那么对于研究人员来说，它会很嘈杂（noisy），而且UI会很糟糕。例如，有人可能在模型训练过程中运行评估，并发现它在各个检查点之间波动很大。

这使得评估对于研究人员来说非常痛苦，因此他们不会喜欢使用该评估基准。评估基准最好有至少1000个样本供您评估；如果是多项选择评估，可能需要更多。例如尽管GPQA是一个很好的评估基准，但它根据prompt而波动的事实使其难以使用。2、评估基准应该是高质量的。如果评估基准中有很多错误，人们就不会相信它，例如Natural Questions（NQ）基准。

3、如果你的评估基准太复杂，人们会很难理解它，并且会很少使用它。我认为HELM的第一个版本是一项巨大的努力，但它有太多的指标和子集。拥有单一数字指标至关重要——我想不出任何伟大的评估基准是没有单一数字指标的。

4、如果评估需要太多工作来运行，即使其他一切都很好，它也不会有很大的吸引力。BIG-Bench是我最喜欢的评估基准之一，但运行起来非常痛苦。有对数概率评估和生成评估，这需要不同的基础设施。

子集太多，而且有些子集的样本太多，所以评估花了很长时间。我相信这就是为什么BIG-Bench没有获得太多关注，尽管它提供了很多优势。5、如果评估不是针对一项有意义的任务，人工智能研究人员不会深度关注它。例如，在BIG-Bench Hard中，有推荐电影等任务。这些任务具有挑战性，并且随着模型大小的变化性能有所变化，但在这些任务上做得好并不能对模型的智能程度做出实质性的结论。

成功的评估通常会衡量对智能至关重要的事物，例如语言理解、考试问题或数学。

6、评估的评分应该非常正确。如果有人认为模型评分不正确或者不认同该评分，那么他们可以立刻取消使用该评估基准。花时间来尽量减少解析引起的错误，或者尽可能获得最好的自动评分器prompt是值得的。7、为了使评估经得起时间的考验，性能不能太快饱和。例如，GLUE/SuperGLUE饱和得太快，很难显示出巨大的增益，人们就不再使用它们。

对于评估工具，还有不完善的地方。看起来很多优秀的评估工具都有些糟糕的名字。比如GSM8K其实并不需要加上8K，而HumanEval虽然叫做人类评估，实际上并没有用到人类进行评估（之所以叫HumanEval是因为问题是由人类创建的）。MATH这个名字太普通了，所以人们开始称之为「Hendrycks-math」，这应该算是一个聪明的命名方式，以创建者的名字来命名。

如果你想让你的评估工具得到广泛使用，你首先要做的是帮助人们使用它。例如，当我制定了一个评估工具时，我通常会帮助他人在模型上运行它。如果他们的模型在这个评估上表现良好，那么人们通常会喜欢它并进一步推广它。HELM就非常擅长为其他人评估模型并公布结果。此外，如果你能为人们使用你的评估工具创造激励机制也很有帮助。对员工来说，最好的激励之一就是他们领导所重视的东西。

因此，获得实验室或公司内部领导的支持对你的评估工具可能会有所帮助，他们会要求底下员工运行它。当我在谷歌创建MGSM时，我选择与Dipanjan Das（Google Deepmind的研究主管）合作完成，尽管我们不在同一个团队。我与他合作纯粹是因为他是个有趣的人（并不是为了推广这个评估工具），但我认为Dipanjan很喜欢这个工具，并且在他的团队中获得了一些人的支持使用。

然而，LLMs的出现，对评估工具提出了更高的要求。LLMs具有大规模多任务处理能力并能生成长回答。目前还没有一个单一的评估工具能够充分评估LLMs。当前流行的评估工具仍然使用非常简单的评分方式（要么是多项选择，要么是检查数字，或者执行单元测试），即便这些方法也存在问题。如果我们能围绕一个单一的提示，比如零样本思维链（zero-shot chain-of-thought），那会很好。

我知道由于很多原因这不是一个完美的解决方案，但我认为为了让大家统一标准，这是合理的。

一个新的推动力是人类对模型进行配对评估，比如LMSYS，但这种评估方式是一把双刃剑。它们之所以强大，是因为你可以通过一组简单的提示得到一个单一的数字指标来衡量一个语言模型的好坏，并且可以通过大量的样本来平均掉样本级别的噪声。不过，成对评估的危险之处在于你并不完全确定你在测量什么——例如，相对于正确性，风格等这类因素的权重影响有多大。

对模型生成内容（model-generated）的评估也变得有些流行。虽然我倾向于对模型生成的评估比较挑剔，但如果做得好，它们可以用于快速实验和观察性能的大幅提升，这是有可能的。但是创建一个经得起时间考验的伟大的评估需要非常小心，我不想在合成评估中冒任何风险。

一个显而易见的观点是，评估的主题决定了有多少人会关心这个评估。你可以创建一个非常高质量的特定领域评估（例如，法律、医疗等），在这些情况下，最重要的是根据该领域专家所重视的内容来定制评估。我曾经制作过一个组织病理学图像基准，不出所料，它在医学图像分析领域之外几乎没有引起任何关注，只获得了40次引用。话虽如此，一旦更多人意识到其重要性，你创建的特定领域评估也有可能获得更多关注。

评估中一个日益重要的问题是测试集污染。创建了一个好的评估之后，评估的示例往往会传播到互联网的各个地方，如arxiv论文、ChatGPT示例或reddit。解决这个问题的一个方法是对测试集进行「隐藏」，但这种方法引起了很多分歧。斯坦福大学教授Chris Manning提出了一个很好的建议，即对公开测试集、私有测试集都进行评估，并监控模型在这两个测试集上是否有大的偏差。

这种方法平衡了在公开测试集上测试的低摩擦性和私密测试集的高可信度。

我注意到的最后一件事是，你关心的评估很大程度上表明了你的身份。一个充满博士的研究室可能会对语言模型在数学、编码和物理上的推理能力感兴趣。相反，我看到像LMSYS这样的面向用户的评估被来自软件或产品背景的工程师视为黄金标准。虽然我两者都关心，但我个人更倾向于智能，因为我相信智能是AI与人类交互的根本驱动力。

社区应该更多地投资于评估，尽管这可能很痛苦，通常不会像建模工作那样得到很多回报。但归根结底，好的评估工具是AI研究人员对模型的客观评价指标，并且是对该领域产生重大影响的一种方式。