AIGC新玩法:任意模态输入,任意模态输出

来源: 学术头条

发布日期: 2023-05-22 17:10:42

微软团队提出了一种新颖的多模态生成模型——Composable Diffusion(CoDi),能够从任何输入模态的组合中生成任何输出模态的组合,具备高度可定制和灵活的特点。

当前,人们迫切希望开发一种多功能的生成模型——可以从任意一组输入条件生成任意模态的组合,其可以更准确地捕捉世界和人类理解的多模态特性,无缝整合来自各种信息源的内容,进而实现强大的人机交互(如同时生成连贯的视频、音频和文本描述)。

近日,微软团队便提出了一个新颖的多模态生成模型——Composable Diffusion(CoDi),其能够从任何输入模态(如语言、图像、视频或音频)的组合中生成任何输出模态的组合。例如,根据一段文字生成“文字+音频+图片”,给定一段文字来生成视频和音频、基于一段文字和一张图片生成新的文字和图片等。

据介绍,与现有的生成式AI系统不同,CoDi可以同时生成多种模态,且它的输入不限于文本或图像等模态的子集。尽管缺乏许多模态组合的训练数据集,但CoDi可以将不同的模态在输入和输出空间中对齐。这就使得CoDi可以自由调节任何输入组合,并以此为条件生成任何一组模态,即使训练数据中不包括这种组合。

同时,CoDi采用了一种新颖的可组合生成策略,包括在扩散过程中通过桥接对齐来建立一个共享的多模态空间,从而完成不同模态的同步生成的任务,比如在时间上对齐的视频和音频。另外,CoDi也具备高度可定制、十分灵活的特点,能够实现高质量模态内容的同时生成,且同时在单模态合成方面表现出色。

UUID: 8923156e-e5b7-4eb0-aebc-cc81cedf0c12

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-05-22_AIGC新玩法:任意模态输入,任意模态输出.txt

是否为广告: 否

处理费用: 0.0021 元