10行代码媲美RLHF,用社交游戏数据训练社会对齐模型

来源: 机器之心(ID:almosthuman2014)

发布日期: 2023-06-06 16:26:56

一项来自达特茅斯,斯坦福,谷歌DeepMind等机构的研究表明,利用社交游戏构造的高质量数据配合简单高效的对齐算法,可以实现语言模型的价值对齐。作者提出一种在多智能体游戏数据上训练的对齐方法,设计了一个虚拟社会模型沙盒Sandbox,并通过实验证明经过alignment训练的模型能在更少的交互轮次中生成符合社会规范的回复。

人类大脑中真的存在一个打分模型负责价值判断吗?让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节。相应的训练也被称为价值对齐(value alignment)。当前主流的方案是ChatGPT所采用的RLHF(Reinforcenment Learning from Human Feedback),也就是在人类反馈上进行强化学习。

这一方案首先先训练一个reward model(价值模型)作为人类判断的代理。代理模型在强化学习阶段为生成式语言模型提供奖励作为监督信号。

这一方法存在如下痛点:代理模型产生的奖励很容易被破解或者篡改。在训练过程中,代理模型需要和生成式模型进行不断交互,而这一过程可能非常耗时且效率不高。价值模型本身并无和人类思考模型上明显的对应。最近一项来自达特茅斯,斯坦福,谷歌DeepMind等机构的研究表明,利用社交游戏构造的高质量数据配合简单高效的对齐算法,也许才是实现alignment的关键所在。

作者提出一种在多智能体游戏数据上训练的对齐方法。基本思想可以理解为将训练阶段的奖励模型和生成式模型的在线交互转移到游戏中大量自主智能体之间的离线交互之中。为此作者设计了一个虚拟社会模型,称之为沙盒Sandbox。沙盒是一个格点构成的世界,每一个格点是一个social agent(社交体)。社交体具有记忆系统,用于存储每一次交互的问题,回答,反馈等各种信息。

在实验中作者使用10x10的格点沙盒进行社会仿真,且制定了一个社会规则:所有社交体必须通过使自己对于问题的回答更加socially aligned来给其它社交体留下好的印象。此外沙盒还部署了没有记忆的观察者,在每一次社交前后,给社交体的答复做出打分。使用不同模型在沙盒中的模拟人类社会,经过alignment训练的模型能在更少的交互轮次中就能生成符合社会规范的回复。

作者同时提出一种简便易行的对齐算法,称为Stable Alignment(稳定对齐),用于从沙盒的历史数据中学习alignment。稳定对齐算法在每一个mini-batch中进行打分调制的对比学习。作者还对稳定对齐和SFT,RLHF的差异进行了讨论。作者特别强调来自沙盒Sandbox的游戏的数据,由于机制的设定,大量包含通过修订而成为符合社会价值观的数据。

作者通过消融实验证明这种大量自带渐进式改进的数据是稳定训练的关键。

UUID: dacf984f-9e1f-484d-8095-cb212cdcf5e7

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-06-06_10行代码媲美RLHF,用社交游戏数据训练社会对齐模型.txt

是否为广告: 否

处理费用: 0.0039 元