清华领衔新研究:无需任何奖励模型,利用人类反馈微调扩散模型

来源: 学术头条

发布日期: 2023-11-24 16:54:32

今日人工智能领域的新动态包括大型语言模型在训练强化学习代理中的应用、多模态大型语言模型的综述、视觉上下文提示的创新、使用大型语言模型引导目标对象的图像风格转移、无需奖励模型利用人类反馈微调扩散模型的研究、通过本地风格提示大型语言模型、基于人类偏好对齐扩散模型以及3D世界中的具身通用代理。这些研究展示了人工智能技术在各个领域的最新进展和创新应用。

今⽇值得关注的⼈⼯智能新动态:

⼤模型是训练强化学习代理的好⽼师近期研究显示,⼤型语⾔模型(LLMs)可以通过给出⾼阶指令,帮助解决复杂的序列决策任务。但是,这些基于LLMs的代理在真实的动态环境中⾯临挑战,因为它们缺乏解决特定问题的专业能⼒。此外,在实际应⽤中部署这类代理既昂贵⼜耗时。该研究提出了⼀种创新框架,利⽤来⾃基于LLMs的教师代理的指令,训练了⼀个⼩型专业的学⽣代理,以应对这些挑战。

通过采⽤教师代理的指导性⾏为,将LLMs的先验知识转移到本地学⽣模型中。这使得学⽣代理能够⽤更少的数据进⾏有效训练。更重要的是,结合环境反馈的后续训练,学⽣代理的性能超越了教师代理。研究团队在三个复杂的MiniGrid环境中进⾏了实验,以验证这⼀框架的有效性。实验结果显示,该⽅法在提⾼样本效率⽅⾯取得了显著成效,且性能上超过了其他基准⽅法。

综述:多模态⼤型语⾔模型

虽然最新的⼤型语⾔模型(LLMs)在基于⽂本的任务中表现出⾊,但在理解和处理图像、语⾔、⾳频等其他数据类型时却往往⼒不从⼼。多模态模型通过结合各种模态来解决这⼀局限,从⽽能够更全⾯地理解各种数据。该研究⾸先定义了多模态的概念,并考察了多模态算法的历史发展。此外还介绍了⼀系列多模态产品,重点关注主要技术公司所做的努⼒。该研究还提供了⼀份实⽤指南,深⼊介绍了多模态模型的技术⽅⾯。

此外还总结了最新算法和常⽤数据集,为研究⼈员提供了宝贵的实验和评估资源。最后,该研究探讨了多模态模型的应⽤,并讨论了与其开发相关的挑战。通过探讨这些⽅⾯,该研究旨在促进⼈们更深⼊地了解多模态模型及其在各个领域的潜⼒。

可视化上下⽂提示⼤型语⾔模型(LLMs)中的上下⽂提示已成为提⾼零样本(zero-shot)能⼒的普遍⽅法,但在视觉领域,这种⽅法的应⽤还不够⼴泛。

现有的视觉提示技术主要集中在通过分割技术识别最相关的物体,但这对于很多普遍的视觉任务(如开放式分割和物体检测)仍显不⾜。该研究提出了⼀个既适⽤于分割也适⽤于检测的通⽤视觉上下⽂提示框架。特别是,研究团队在编码器-解码器架构的基础上,开发了⼀个多功能提示编码器,来⽀持笔画、⽅框和点等各种提示,该研究还进⼀步改进了这个框架,使其能够使⽤任意数量的参考图像⽚段作为上下⽂。

通过在COCO和SA-1B数据集上联合训练,搞研究提出的模型在COCO数据集上达到了57.7 PQ,在ADE20K数据集上达到了23.2 PQ。

Soulstyler:使⽤⼤型语⾔模型引导⽬标对象的图像⻛格转移图像⻛格转换在计算机制图和计算机视觉领域都占有重要地位。然⽽,⽬前的⼤多数⽅法都需要参考⻛格化图像,⽆法单独对特定对象进⾏⻛格化。

为了克服这⼀局限,该研究提出了“Soulstyler”框架,允许⽤户通过简单的⽂字描述来指导图像中特定对象的⻛格化。该研究引⼊了⼀个⼤型语⾔模型(LLMs)来解析⽂本,并识别⻛格化⽬标和特定⻛格。结合基于CLIP的语义视觉嵌⼊编码器,该模型可以理解并匹配⽂本和图像内容。该研究还引⼊了⼀种新颖的本地化⽂本-图像块匹配损失,确保只在指定的⽬标对象上进⾏⻛格转移,⽽⾮⽬标区域则保持原有⻛格。

实验结果表明,研究提出的模型能够根据⽂本描述准确地对⽬标对象进⾏⻛格转换,⽽不会影响背景区域的⻛格。

清华领衔新研究:⽆需任何奖励模型,利⽤⼈类反馈微调扩散模型训练⼀个⾼效的奖励模型需要⼤量数据集、最佳架构和⼿动超参数调整,既耗时⼜耗费成本。尽管直接偏好优化(DPO)⽅法在微调⼤型语⾔模型⽅⾯⾮常有效,它消除了奖励模型的必要性。

然⽽,扩散模型的去噪过程需要⼤量GPU内存,这阻碍了DPO⽅法的直接应⽤。为了解决这个问题,该研究引⼊了直接偏好去噪扩散策略优化(Direct Preference for Denoising Diffusion Policy Optimization,D3PO)⽅法来直接微调扩散模型。

理论分析表明,虽然D3PO省略了奖励模型的训练,但它能有效地发挥利⽤⼈类反馈数据训练的最佳奖励模型的作⽤,从⽽指导学习过程。这种⽅法⽆需对奖励模型进⾏训练,因此更直接、更经济、计算开销最⼩。在实验中,该研究⽅法使⽤⽬标的相对规模作为⼈类偏好的代表,结果与真实奖励(ground-truth rewards)的⽅法相当。

此外,D3PO还展示了降低图像失真率和⽣成更安全图像的能⼒,克服了缺乏鲁棒奖励模型的挑战。

AlignCoT:⽤“本地”⻛格,提示⼤型语⾔模型已有研究发现,提示⼯程严重影响⼤型语⾔模型(LLMs)的性能。作为⼀种流⾏的提示⼯程技术,思维链(CoT)使⽤带有推理步骤的上下⽂示例来提示LLMs。在⽬前的研究中,CoT的少量示例通常由⼈⼯制作。

然⽽,上下⽂示例的⽂本⻛格如何影响LLMs的输出仍未得到充分探讨。该研究提出了⼀种新颖有效的⽅法——AlignCoT,通过将上下⽂示例与LLMs的本地⻛格对⻬来提⾼LLMs的推理能⼒。“原⽣(Native)”指的是LLMs的固有特征⻛格,可以通过原始的零样本场景进⾏探测。AlignCoT与其他提示⼯程⽅法是正交的,因此很容易与最先进的技术相结合,从⽽进⼀步提⾼LLMs的性能。

该研究在多个基准上进⾏了⼴泛⽽全⾯的实验。实证结果表明,与⼈类制作的上下⽂示例相⽐,该研究的AlignCoT显著提⾼了性能。例如,通过GPT-3.5-turbo,该研究观察到GSM8K的性能提⾼了+2.5%。此外,当AlignCoT与其他最先进的提示⼯程⽅法结合使⽤时,其性能也得到了持续改善。

Diffusion-DPO:基于⼈类偏好对⻬扩散模型

⼤型语⾔模型(LLMs)是通过⼈类反馈强化学习(RLHF)⽅法,利⽤⼈类对⽐数据进⾏微调,使其更符合⽤户的偏好。该研究提出了Diffusion-DPO,这是⼀种通过直接优化⼈类对⽐数据来使扩散模型符合⼈类偏好的⽅法。Diffusion-DPO改编⾃最近开发的直接偏好优化(DPO),它是RLHF的⼀种更简单的替代⽅法,可直接优化在分类⽬标下最能满⾜⼈类偏好的政策。

该研究对DPO进⾏了重新表述,以考虑到扩散模型的可能性概念,并利⽤证据下限推导出可微分⽬标。利⽤由851K个众包配对偏好组成的Pick-a-Pic数据集,该研究使⽤Diffusion-DPO对最先进的稳定扩散XL(SDXL)-1.0模型的基础模型进⾏了微调。

在⼈类评估中,该研究微调后的基础模型明显优于基础SDXL-1.0模型和包含额外细化模型的更⼤型SDXL-1.0模型,提⾼了视觉吸引⼒和及时对⻬性。

LEO:3D世界中的具身通⽤代理尽管机器学习模型在构建通⽤代理⽅⾯取得了显著的进步,但由于这些模型在理解3D世界并与之互动⽅⾯的能⼒有限,极⼤地阻碍了当前模型执⾏真实世界任务和进⼀步实现通⽤智能。

为此,该研究引⼊了⼀种在3D世界中擅⻓感知、定位、推理、规划和⾏动的多模态多任务通⽤代理。该研究提出的代理被称为“LEO”,它采⽤基于⼤型语⾔模型(LLMs)的共享模型架构、⽬标和权重,分两个阶段进⾏训练:3D视觉-语⾔对⻬、3D视觉-语⾔-⾏动指令微调。

为了促进训练,该研究精⼼策划并⽣成了⼀个⼴泛的数据集,其中包括对象级和场景级多模态任务,其规模和复杂程度都超过了要求,这就需要对3D世界有深⼊的了解并与之互动。通过严格的实验,该研究证明了LEO在3D字幕制作、问题解答、具身推理、具身导航和机器⼈操纵等⼴泛任务中的优秀能⼒。

UUID: 96a54847-f8d3-4997-b328-75d49fce0c5b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-11-24_AI日报|清华领衔新研究:无需任何奖励模型,利用人类反馈微调扩散模型.txt

是否为广告: 否

处理费用: 0.0095 元