清华团队提出“高分辨率”图像生成方法:任意分辨率无缝衔接,极大降低训练和采样成本

作者: 学术头条

来源: 学术头条

发布日期: 2023-09-08 16:00:21

清华大学和智谱 AI 的研究团队提出了一种新型级联模型 Relay Diffusion,该模型可以在任意不同分辨率间无缝衔接,极大地减少了训练和采样的成本,并且在生成高分辨率图片时表现优异。

在火热的“AI 图像生成”领域,任意不同分辨率的无缝衔接扩散模型,出现了。近日,来自清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型——Relay Diffusion(RDM)。据介绍,运用该模型,扩散过程可以在任何新的分辨率或模型下无缝进行,而无需从纯噪声重新开始生成。

相关研究论文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”为题已发表在预印本网站 arXiv 上,相关代码已发布在 GitHub 上。近些年来,扩散模型(Diffusion)在图像合成方面取得了巨大成功,显著提升了图片合成的质量。

然而,扩散模型在合成高分辨率图片时仍面临较大挑战,一是低分辨率的噪声调度很难直接用于高分辨率,研究者们需要为高分辨的场景谨慎地调节噪声调度表,且仍难以获得良好的结果;二是高分辨的训练过程需要大量资源,计算成本较高。

为了更好地解决上述问题,研究团队提出的级联模型 Relay Diffusion 在具备原有级联方法优点的同时,借助模糊扩散过程(blurring diffusion)和块状噪声(block noise),可以在任意不同分辨率间无缝衔接,就像“接力赛”一样,极大地减少了训练和采样的成本。

实验结果显示,相比传统的级联扩散模型,Relay Diffusion 在生成高分辨率图片时,省去了生成低频信息的部分,极大地节约了计算成本,同时更加简单,不需要以低分辨率图片为条件和各种条件增强技巧,而且不需要重新设计或调节噪声调度表。研究团队表示,本次研究提出的级联模型有助于创建更先进的文本到图像模型。

未来,他们将继续把 Relay Diffusion 中的相关技术应用到通用领域的文生图模型中,从而推动该领域进一步的研究。

UUID: c58b828b-21a4-48e5-817b-4555fe0d854d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-08_清华团队提出“高分辨率”图像生成方法:任意分辨率无缝衔接,极大降低训练和采样成本.txt

是否为广告: 否

处理费用: 0.0030 元