AIGC新玩法：任意模态输入，任意模态输出

当前，人们迫切希望开发一种多功能的生成模型——可以从任意一组输入条件生成任意模态的组合，其可以更准确地捕捉世界和人类理解的多模态特性，无缝整合来自各种信息源的内容，进而实现强大的人机交互（如同时生成连贯的视频、音频和文本描述）。

近日，微软团队便提出了一个新颖的多模态生成模型——Composable Diffusion（CoDi），其能够从任何输入模态（如语言、图像、视频或音频）的组合中生成任何输出模态的组合。例如，根据一段文字生成“文字+音频+图片”，给定一段文字来生成视频和音频、基于一段文字和一张图片生成新的文字和图片等。

据介绍，与现有的生成式AI系统不同，CoDi可以同时生成多种模态，且它的输入不限于文本或图像等模态的子集。尽管缺乏许多模态组合的训练数据集，但CoDi可以将不同的模态在输入和输出空间中对齐。这就使得CoDi可以自由调节任何输入组合，并以此为条件生成任何一组模态，即使训练数据中不包括这种组合。

同时，CoDi采用了一种新颖的可组合生成策略，包括在扩散过程中通过桥接对齐来建立一个共享的多模态空间，从而完成不同模态的同步生成的任务，比如在时间上对齐的视频和音频。另外，CoDi也具备高度可定制、十分灵活的特点，能够实现高质量模态内容的同时生成，且同时在单模态合成方面表现出色。