今年早些时候,OpenAI宣布成⽴了⼀⽀专注于超级对⻬的新团队,由Jan Leike和IIya Sutskever领导。超级对⻬旨在构建⼀个能够与⼈类⽔平相媲美的⾃动对⻬研究器,其⽬标是尽可能地将与对⻬相关的⼯作交由⾃动系统完成。其中⼀个重要⼿段就是可扩展监督(Scalable Oversight),即在确保模型能⼒超过⼈类⽔平后,仍旧能够与⼈类期望保持⼀致、持续地进⾏改进和学习。
在近期由⻘源会主办的「超级对⻬」闭⻔研讨会上,OpenAI超级对⻬负责⼈Jan Leike讲解了如何利⽤可扩展监督来解决对⻬难题。Jan Leike是OpenAI超级对⻬团队负责⼈,研究⽅向为强化学习,⼤语⾔模型的对⻬engineering,通⽤⼈⼯智能等。
关于对⻬问题,Jan Leike已经思考10年之久。在OpenAI,他与Ilya Sutskever共同领导了超级对⻬团队,并深度参与了⼀些项⽬,包括RLHF原始论⽂、InstructGPT、ChatGPT和GPT-4的对⻬项⽬。⽬前超级对⻬的⽬标是弄清楚如何对⻬超级智能,因此系统必须⽐⼈类更聪明。我们希望在四年内,利⽤OpenAI 20%的算⼒解决超级对⻬的问题。
在超级对⻬团队中,我们正在开展⼀系列不同的项⽬,这⾥我想重点讨论下可扩展监督(scalable oversight),这是解决对⻬问题较为⾃然的⽅法之⼀。当然还有很多关于泛化、可解释性和训练模型机制的⼯作。
为了促进可扩展的监督,我们从整体上考虑对⻬的⽅式。随着AI不断进步,它将能够解决越来越困难的任务。但默认情况下,⼈类评估任务的能⼒不会随着⼈⼯智能的进步⽽提升。从某⼀个临界点开始,⼈类将⽆法再可靠地评估⼈⼯智能系统。我认为,正是从这个点开始,RLHF失效了,因为⼈类将⽆法再为⼈⼯智能系统提供良好的训练信号了。因此从这个点之后,我们需要很⼤程度上依赖新的对⻬技术,⽽这些技术尚未证明,⼿段也未知。
我们希望通过可扩展的监督来扩展⼈类评估复杂任务的能⼒,特别是借助AI本身来让⼈类更好地进⾏评估。我们希望看到:在可扩展的监督的助⼒下,⼈类可以更有效地监督⼈⼯智能系统。
进⾏可扩展监督的最简单⽅法之⼀是:让语⾔模型编写批评意⻅。我们让语⾔模型(在本例中为GPT 3.5)为短篇⼩说写评论。或者,你可以做⼀些更复杂的事情,让类似ChatGPT的系统在对话中进⾏交互,要求它解释,给出细节和评论。随着语⾔模型变得更加灵活,它应该能更有效地帮助您评估困难的任务。
如何判断可扩展监督正在发挥作⽤呢?衡量(评估效果提升)的进展实际上⾮常困难。⽽且我们真正感兴趣的任务是现实世界的任务。例如,⽤户在ChatGPT中提出的最难的问题,也就是现实世界中的困难任务。此外,我们没有标准答案。如果你想衡量在现实任务上的提升,我们将⾯对既困难⼜⽆法评估的任务。所以这看起来是⼀个根本性的⽭盾,事实上,我们⾄少可以局部性地衡量提升。
我们⼀直在使⽤⼀种通过篡改答案实现的随机对照实验(RCT with tampered answers)。基本设置是,向模型输⼊prompt,并⽣成回答。这种答案不⼀定是完美的,你可以篡改回答,通过某种⽅式使其变得更糟。这样⼀来,就得到了⼀些有少量缺陷的回答。
实验结果表明,⼈类在有协助的情况下发现的缺陷⽐⽆协助的情况下多出约50%。事实上,通过可扩展监督,有协助的⼈确实在经过篡改的答案中发现了更多缺陷。
如何信任模型编写的代码?众所周知,GPT-4在编写代码⽅⾯表现不错,⾄少如果它是相对简单的代码,或者它使⽤了⼀堆您可能不熟悉但在互联⽹上⾮常流⾏的库。因此,它对于此类任务实际上⾮常有⽤。未来的模型在代码编写⽅⾯可能会更加出⾊,⼈们会想⽤模型编写⼤量代码。但我们怎么知道他们实际上是在以正确的⽅式做这件事呢?如何判断他们的⾏为符合我们的意图?随着编码任务变得越复杂,实际上可能会变得越困难。
我们希望通过实现可扩展的监督,去发现模型意识到的所有错误。这⼀技术的终极⽬标是,模型能告诉我们它所意识到的所有代码漏洞吗?如果能做到这⼀点,那么模型就⽆法隐藏⽊⻢,因为如果它尝试隐藏⽊⻢病毒,它就会知道⽊⻢病毒在那⾥,然后它会告诉我们。我们就会⽴刻停⽌运⾏代码。
Q&A部分讨论了关于超级对⻬的多个问题,包括如何信任⽐我们更智能的⼈⼯智能系统、关键的研究问题和挑战、评估⽐⽣成容易的看法、通过引⽤信息规则来构建「AI宪法」的可⾏性、如何使模型适应不同⽂化和背景的⼈、模型如何为现实世界中存在的不确定性问题提供有⽤的建议、⼤语⾔模型产⽣有害内容的原因、以及超级对⻬背景下的⼈⼯智能治理问题。