如何破解对⻬难题？⽤可扩展监督

今年早些时候，OpenAI宣布成⽴了⼀⽀专注于超级对⻬的新团队，由Jan Leike和IIya Sutskever领导。超级对⻬旨在构建⼀个能够与⼈类⽔平相媲美的⾃动对⻬研究器，其⽬标是尽可能地将与对⻬相关的⼯作交由⾃动系统完成。其中⼀个重要⼿段就是可扩展监督（Scalable Oversight），即在确保模型能⼒超过⼈类⽔平后，仍旧能够与⼈类期望保持⼀致、持续地进⾏改进和学习。

在近期由⻘源会主办的「超级对⻬」闭⻔研讨会上，OpenAI超级对⻬负责⼈Jan Leike讲解了如何利⽤可扩展监督来解决对⻬难题。Jan Leike是OpenAI超级对⻬团队负责⼈，研究⽅向为强化学习，⼤语⾔模型的对⻬engineering，通⽤⼈⼯智能等。

关于对⻬问题，Jan Leike已经思考10年之久。在OpenAI，他与Ilya Sutskever共同领导了超级对⻬团队，并深度参与了⼀些项⽬，包括RLHF原始论⽂、InstructGPT、ChatGPT和GPT-4的对⻬项⽬。⽬前超级对⻬的⽬标是弄清楚如何对⻬超级智能，因此系统必须⽐⼈类更聪明。我们希望在四年内，利⽤OpenAI 20%的算⼒解决超级对⻬的问题。

在超级对⻬团队中，我们正在开展⼀系列不同的项⽬，这⾥我想重点讨论下可扩展监督（scalable oversight），这是解决对⻬问题较为⾃然的⽅法之⼀。当然还有很多关于泛化、可解释性和训练模型机制的⼯作。

为了促进可扩展的监督，我们从整体上考虑对⻬的⽅式。随着AI不断进步，它将能够解决越来越困难的任务。但默认情况下，⼈类评估任务的能⼒不会随着⼈⼯智能的进步⽽提升。从某⼀个临界点开始，⼈类将⽆法再可靠地评估⼈⼯智能系统。我认为，正是从这个点开始，RLHF失效了，因为⼈类将⽆法再为⼈⼯智能系统提供良好的训练信号了。因此从这个点之后，我们需要很⼤程度上依赖新的对⻬技术，⽽这些技术尚未证明，⼿段也未知。

我们希望通过可扩展的监督来扩展⼈类评估复杂任务的能⼒，特别是借助AI本身来让⼈类更好地进⾏评估。我们希望看到：在可扩展的监督的助⼒下，⼈类可以更有效地监督⼈⼯智能系统。

进⾏可扩展监督的最简单⽅法之⼀是：让语⾔模型编写批评意⻅。我们让语⾔模型（在本例中为GPT 3.5）为短篇⼩说写评论。或者，你可以做⼀些更复杂的事情，让类似ChatGPT的系统在对话中进⾏交互，要求它解释，给出细节和评论。随着语⾔模型变得更加灵活，它应该能更有效地帮助您评估困难的任务。

如何判断可扩展监督正在发挥作⽤呢？衡量（评估效果提升）的进展实际上⾮常困难。⽽且我们真正感兴趣的任务是现实世界的任务。例如，⽤户在ChatGPT中提出的最难的问题，也就是现实世界中的困难任务。此外，我们没有标准答案。如果你想衡量在现实任务上的提升，我们将⾯对既困难⼜⽆法评估的任务。所以这看起来是⼀个根本性的⽭盾，事实上，我们⾄少可以局部性地衡量提升。

我们⼀直在使⽤⼀种通过篡改答案实现的随机对照实验（RCT with tampered answers）。基本设置是，向模型输⼊prompt，并⽣成回答。这种答案不⼀定是完美的，你可以篡改回答，通过某种⽅式使其变得更糟。这样⼀来，就得到了⼀些有少量缺陷的回答。

实验结果表明，⼈类在有协助的情况下发现的缺陷⽐⽆协助的情况下多出约50%。事实上，通过可扩展监督，有协助的⼈确实在经过篡改的答案中发现了更多缺陷。

如何信任模型编写的代码？众所周知，GPT-4在编写代码⽅⾯表现不错，⾄少如果它是相对简单的代码，或者它使⽤了⼀堆您可能不熟悉但在互联⽹上⾮常流⾏的库。因此，它对于此类任务实际上⾮常有⽤。未来的模型在代码编写⽅⾯可能会更加出⾊，⼈们会想⽤模型编写⼤量代码。但我们怎么知道他们实际上是在以正确的⽅式做这件事呢？如何判断他们的⾏为符合我们的意图？随着编码任务变得越复杂，实际上可能会变得越困难。

我们希望通过实现可扩展的监督，去发现模型意识到的所有错误。这⼀技术的终极⽬标是，模型能告诉我们它所意识到的所有代码漏洞吗？如果能做到这⼀点，那么模型就⽆法隐藏⽊⻢，因为如果它尝试隐藏⽊⻢病毒，它就会知道⽊⻢病毒在那⾥，然后它会告诉我们。我们就会⽴刻停⽌运⾏代码。

Q&A部分讨论了关于超级对⻬的多个问题，包括如何信任⽐我们更智能的⼈⼯智能系统、关键的研究问题和挑战、评估⽐⽣成容易的看法、通过引⽤信息规则来构建「AI宪法」的可⾏性、如何使模型适应不同⽂化和背景的⼈、模型如何为现实世界中存在的不确定性问题提供有⽤的建议、⼤语⾔模型产⽣有害内容的原因、以及超级对⻬背景下的⼈⼯智能治理问题。