清华朱军团队：根据人类偏好实现高保真文本-3D生成

近来，根据文字提示创建3D内容取得了显著的突破。然而，目前的文本-3D方法生成的3D结果往往与人类的偏好不太一致。为此，清华大学朱军教授团队提出了一个名为DreamReward的综合框架，用于从人类偏好反馈中学习和改进文本-3D模型。

首先，他们基于一个系统化的注释管道（包括评级和排名）收集了25000个专家比较结果；然后，他们建立了首个通用的文本-3D人类偏好奖励模型——Reward3D，该模型可以有效地编码人类偏好；最后，在3D奖励模型的基础上，他们进行了理论分析，并提出了Reward3D反馈学习（DreamFL），这是一种直接微调算法，可通过重新定义的评分器优化多视角扩散模型。

在理论证明和大量实验对比的基础上，DreamReward成功生成了高保真和3D一致的结果，且显著提高了与人类意图的提示一致性。这一研究结果证明了从人类反馈中学习来改进文本-3D模型的巨大潜力。