近来,根据文字提示创建3D内容取得了显著的突破。然而,目前的文本-3D方法生成的3D结果往往与人类的偏好不太一致。为此,清华大学朱军教授团队提出了一个名为DreamReward的综合框架,用于从人类偏好反馈中学习和改进文本-3D模型。
首先,他们基于一个系统化的注释管道(包括评级和排名)收集了25000个专家比较结果;然后,他们建立了首个通用的文本-3D人类偏好奖励模型——Reward3D,该模型可以有效地编码人类偏好;最后,在3D奖励模型的基础上,他们进行了理论分析,并提出了Reward3D反馈学习(DreamFL),这是一种直接微调算法,可通过重新定义的评分器优化多视角扩散模型。
在理论证明和大量实验对比的基础上,DreamReward成功生成了高保真和3D一致的结果,且显著提高了与人类意图的提示一致性。这一研究结果证明了从人类反馈中学习来改进文本-3D模型的巨大潜力。