北大、斯坦福、Pika新研究:“文生图”好过DALL·E 3和SDXL

发布日期: 2024-01-26 00:03:10

北大、斯坦福和Pika Labs公司的研究团队提出了一个无需额外训练的文本到图像生成/编辑框架RPG,该框架利用多模态大型语言模型的思维链推理能力,通过全局规划器和补充区域扩散技术,显著提升了复杂文本提示下的图像生成和编辑能力,超越了现有的DALL-E 3和SDXL模型。

如我们所见,扩散模型在文本到图像的生成和编辑方面展现出了卓越的性能。然而,现有方法在处理涉及多个对象及其多种属性和关系的复杂文本提示时常常面临挑战。为此,来自北大、斯坦福和Pika Labs公司的研究团队提出了一种全新的无需(额外)训练的文本到图像生成/编辑框架——RPG(Recaption, Plan and Generate)。

据介绍,RPG利用多模态大型语言模型(MLLM)的强大思维链(CoT)推理能力来增强文本到图像扩散模型的组合性。该方法使用MLLM作为全局规划器,将生成复杂图像的过程分解为了多个简单的子区域生成任务。同时,为了实现按区域的组合式生成,研究人员提出了补充区域扩散技术。此外,研究人员将文本引导的图像生成和编辑融合到RPG框架中,形成了闭环式的操作,从而增强了模型的泛化能力。

广泛的实验表明,RPG优于DALL-E 3和SDXL在内的最先进文本到图像扩散模型,尤其是在多类别对象组合和文本图像语义对齐方面。值得注意的是,RPG框架与各种MLLM架构(如MiniGPT-4)和扩散骨干网络(如ControlNet)具有广泛的兼容性。

UUID: 87a56697-a9f9-4545-ae51-1747565d2156

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-01-26_北大、斯坦福、Pika新研究:“文生图”好过DALL.txt

是否为广告: 否

处理费用: 0.0018 元