近年来,大型语言模型在进⾏复杂、多步推理⽅⾯取得了很多进展。然⽽,即使是当前最先进的模型仍然会产⽣逻辑错误,这通常被称为幻觉(hallucinations),⽽减少幻觉是构建对⻬的通⽤⼈⼯智能(AGI)的关键⼀步。6⽉1⽇,OpenAI在⼀项最新研究中提出了⼀种减轻ChatGPT幻觉、实现更好对⻬的新⽅法——通过“过程监督”来提⾼ChatGPT等AI大模型的数学推理能⼒。
更详细⼀点,“过程监督”通过奖励每个正确的推理步骤,⽽不仅仅是奖励正确的最终答案(即“结果监督”),在解决数学问题⽅⾯达到了最先进⽔平。据介绍,除了得到⾼于结果监督的性能表现外,过程监督或许也有助于解决对⻬难题(它直接训练模型产⽣⼀个被⼈类认可的思维链)。相对于结果监督,过程监督在对⻬⽅⾯存在⼏个优势。例如,过程监督直接奖励按照对⻬的思维链进⾏推理的模型,因为每个步骤都接受了精确的监督。
另外,过程监督更有可能产⽣可解释的推理,因为它⿎励模型遵循经过⼈类批准的过程。相⽐之下,结果监督可能会奖励⼀个不对⻬的过程,并且⼀般更难审查。具体到实际问题,OpenAI的研究⼈员使⽤MATH测试集中的问题来评估过程监督和结果监督奖励模型。对于每个问题,他们⽣成了多个解决⽅案,然后选择每个奖励模型排名最⾼的解决⽅案。图中显示了所选解决⽅案达到正确最终答案的百分⽐,作为所考虑的解决⽅案数量的函数。
结果表明,过程监督的奖励模型不仅在整体上表现更好,⽽且随着考虑每个问题的解决⽅案数量增加,性能优势也在扩⼤。这表明过程监督的奖励模型更加可靠。⽬前,OpenAI的研究⼈员尚不清楚这些结果能否应⽤在数学领域之外,但他们认为,未来探索过程监督在其他领域中的影响的研究将⾄关重要。