如我们所见,扩散模型在文本到图像的生成和编辑方面展现出了卓越的性能。然而,现有方法在处理涉及多个对象及其多种属性和关系的复杂文本提示时常常面临挑战。为此,来自北大、斯坦福和Pika Labs公司的研究团队提出了一种全新的无需(额外)训练的文本到图像生成/编辑框架——RPG(Recaption, Plan and Generate)。
据介绍,RPG利用多模态大型语言模型(MLLM)的强大思维链(CoT)推理能力来增强文本到图像扩散模型的组合性。该方法使用MLLM作为全局规划器,将生成复杂图像的过程分解为了多个简单的子区域生成任务。同时,为了实现按区域的组合式生成,研究人员提出了补充区域扩散技术。此外,研究人员将文本引导的图像生成和编辑融合到RPG框架中,形成了闭环式的操作,从而增强了模型的泛化能力。
广泛的实验表明,RPG优于DALL-E 3和SDXL在内的最先进文本到图像扩散模型,尤其是在多类别对象组合和文本图像语义对齐方面。值得注意的是,RPG框架与各种MLLM架构(如MiniGPT-4)和扩散骨干网络(如ControlNet)具有广泛的兼容性。