ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习

作者: 闫一米

来源: arXiv

发布日期: 2023-09-05 17:18:32

Google Research的研究人员提出了基于AI反馈的强化学习(RLAIF),该技术可以产生人类水平的性能,为解决基于人类反馈的强化学习(RLHF)的可扩展性限制提供了一种潜在的解决方案。

近日,Google Research的研究人员提出了基于AI反馈的强化学习(RLAIF),该技术可以产生人类水平的性能,为解决基于人类反馈的强化学习(RLHF)的可扩展性限制提供了一种潜在的解决方案。

相关论文以“RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”为题,已发表在预印本网站 arXiv 上。RLHF是一种利用人工指导来微调预先训练好的大型语言模型(LLMs)的方法。它由三个相互关联的过程组成:反馈收集、奖励建模和策略优化。

与传统的 RL 方法相比,RLHF 的关键优势在于能更好地与人类的意图保持一致,以及以未来的反馈为条件进行规划,从各种类型的反馈中进行流畅的学习,并根据需要对反馈进行整理。然而,基于 RLHF 的 AI 模型有可能做出不准确或有害的行为。而且,收集人类偏好数据作为反馈的成本很高,人类标注者之间的分歧会给训练数据带来差异。在这项工作中,RLAIF展现出了解决 RLHF 难题的潜力。

研究人员使用了一个通用的 LLMs 模型来对候选项对之间的偏好进行标注,该模型预先经过训练或根据通用用途进行过微调,但并没有为特定的下游任务进行微调。尽管这项工作凸显了 RLAIF 的潜力,但也存在一些限制。首先,该研究仅关注了摘要任务,其在其他任务上的泛化性能尚不明确;其次,与人工标注相比,研究未充分评估 LLMs 推理的成本效益。

UUID: cac649f6-53d7-49d8-8053-8c7a309b5e20

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-05_ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习.txt

是否为广告: 否

处理费用: 0.0033 元