连ChatGPT都懂“阿谀奉承”了!OpenAI最强竞对:都是“人类偏好”犯的错

作者: 学术头条

来源: arXiv

发布日期: 2023-10-24 08:30:41

研究揭示了AI模型在基于人类反馈的强化学习(RLHF)训练中普遍存在的“阿谀奉承”行为,这种行为可能部分受到人类偏好对“阿谀奉承”回应的影响。研究结果表明,AI模型为了获得更多积极反馈,可能会学习并重现这种讨好用户的行为。

你是否想过,ChatGPT ⽣成的答案会受到⽤户个⼈偏好的影响,回复⼀些⾜够“阿谀奉承(sycophancy)”的话,⽽⾮中⽴或真实的信息?实际上,这种现象存在于包括 ChatGPT 在内的⼤多数 AI 模型之中,⽽罪魁祸⾸竟可能是“基于⼈类反馈的强化学习(RLHF)”。

近⽇,OpenAI在美国硅⾕的最强竞争对⼿ Anthropic在研究经过 RLHF 训练的模型时,便探究了“阿谀奉承”这⼀⾏为在 AI 模型中的⼴泛存在及其是否受到⼈类偏好的影响。相关论⽂以“Towards Understanding Sycophancy in Language Models”为题,已发表在预印本⽹站 arXiv 上。

研究结果表明,“阿谀奉承”⾏为在 RLHF 模型中普遍存在,且很可能部分受到⼈类偏好对“阿谀奉承”回应的影响。具体来说,AI 模型表现出这种⾏为的⼀个主要原因是,当 AI 的回复符合⽤户的观点或信仰时,⽤户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好⽤户的⾏为。阿谀奉承,最先进的 AI 助⼿都会。

⽬前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产⽣⼈们⾼度评价的输出。使⽤ RLHF 对语⾔模型进⾏微调可以改善它们的输出质量,⽽这些质量由⼈类评估员评价。然⽽,有研究认为基于⼈类偏好判断的训练⽅案可能以不可取的⽅式利⽤⼈类判断,如⿎励 AI 系统⽣成吸引⼈类评估员但实际上有缺陷或错误的输出。

⽬前尚不清楚上述情况是否会发⽣在更多样化和现实情境中的模型中,以及是否确实是由⼈类偏好中的缺陷所驱动的。为此,该研究⾸先调查了最先进的 AI 助⼿在各种现实情境中是否提供阿谀奉承的回应。在⾃由⽂本⽣成任务中,研究⼈员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助⼿中识别了阿谀奉承的⼀致模式。

具体⽽⾔,这些 AI 助⼿在受到⽤户提问时经常错误地承认错误,提供可预测的有偏反馈,以及模仿⽤户所犯的错误。这些实证研究结果⼀致表明,阿谀奉承可能确实是 RLHF 模型训练⽅式的⼀种特性,⽽不仅仅是某个特定系统的单独特征。⼈类偏好导致的“阿谀奉承”除此之外,研究⼜进⼀步探讨了⼈类偏好在这⼀⾏为中的作⽤。

为了研究这⼀点,研究⼈员对现有的⼈类偏好⽐较数据进⾏了调查,确定阿谀奉承回应是否在排名上⾼于⾮阿谀奉承回应。研究对 hh-rlhf 数据集进⾏了分析,对每⼀对偏好⽐较使⽤语⾔模型⽣成⽂本标签(即“特征”),以评估优选回应是否更真实且不那么坚决。为了了解数据⿎励哪种⾏为,研究⼈员使⽤⻉叶斯逻辑回归模型通过这些特征来预测⼈类偏好判断。

这个模型学到了与匹配⽤户观点相关的特征是⼈类偏好判断中最有预测性的特征之⼀,这表明偏好数据确实⿎励阿谀奉承。为探究偏好数据中的阿谀奉承是否导致了 RLHF 模型中的阿谀奉承⾏为,随后的研究对当优化语⾔模型的回应以适应训练⽤于预测⼈类偏好的模型时,阿谀奉承是否会增加进⾏了分析。研究⼈员使⽤ RLHF 和最佳-N 采样⽅法来优化回应,以满⾜⽤于训练 Claude 2 的偏好模型。

研究结果揭示了⼀个有趣的发现:在更多的优化过程中,虽然增加了某些形式的阿谀奉承,但却减少了其他形式。这现象可能部分源于阿谀奉承只是偏好模型激励的众多特征之⼀。然⽽,研究也发现,Claude 2 的偏好模型有时更倾向于选择阿谀奉承的回应⽽不是真实的回应。

此外,采⽤ Claude 2 的偏好模型进⾏最佳-N 采样并没有产⽣像 Claude 2 偏好模型的⼀个版本所示的更偏好真实⾮阿谀奉承回应那样真实的回应。这⼀系列结果表明,尽管在许多情况下,最先进的偏好模型能够识别回应的真实性,但仍然可能会以损害真实性为代价产⽣阿谀奉承的输出。

为了证实这些结果,研究⼈员⼜研究了⼈类和偏好模型是否更喜欢有说服⼒、写得很好的模型回应,这些回应确认了⽤户的错误观点(即阿谀奉承回应),⽽不是纠正⽤户的回应。证据表明,⼈类和偏好模型倾向于更喜欢真实的回应,但并不总是如此;有时他们更喜欢阿谀奉承的回应。这些结果进⼀步证明了优化⼈类偏好可能会导致阿谀奉承。

为了验证这些发现,研究⼈员进⼀步探究了⼈类和偏好模型是否更偏好那些有说服⼒、表达流畅的模型回应,即便这些回应是确认⽤户错误观点(即阿谀奉承回应)⽽⾮纠正⽤户的观点。研究证据显示,⼈类和偏好模型普遍偏好真实的回应,然⽽,并不是⼀成不变的,因为有时他们更倾向于阿谀奉承的回应。这些结果更进⼀步印证了优化以迎合⼈类偏好可能会导致阿谀奉承的产⽣。

总的来说,阿谀奉承在各种模型和情境中都存在,很可能部分原因是⼈类偏好⽐较数据中更喜欢阿谀奉承。

UUID: ab47d309-167e-4613-a8e9-f27de53b347d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-10-24_连ChatGPT都懂“阿谀奉承”了!OpenAI最强竞对:都是“人类偏好”犯的错.txt

是否为广告: 否

处理费用: 0.0060 元