当前,人们迫切希望开发一种多功能的生成模型——可以从任意一组输入条件生成任意模态的组合,其可以更准确地捕捉世界和人类理解的多模态特性,无缝整合来自各种信息源的内容,进而实现强大的人机交互(如同时生成连贯的视频、音频和文本描述)。
近日,微软团队便提出了一个新颖的多模态生成模型——Composable Diffusion(CoDi),其能够从任何输入模态(如语言、图像、视频或音频)的组合中生成任何输出模态的组合。例如,根据一段文字生成“文字+音频+图片”,给定一段文字来生成视频和音频、基于一段文字和一张图片生成新的文字和图片等。
据介绍,与现有的生成式AI系统不同,CoDi可以同时生成多种模态,且它的输入不限于文本或图像等模态的子集。尽管缺乏许多模态组合的训练数据集,但CoDi可以将不同的模态在输入和输出空间中对齐。这就使得CoDi可以自由调节任何输入组合,并以此为条件生成任何一组模态,即使训练数据中不包括这种组合。
同时,CoDi采用了一种新颖的可组合生成策略,包括在扩散过程中通过桥接对齐来建立一个共享的多模态空间,从而完成不同模态的同步生成的任务,比如在时间上对齐的视频和音频。另外,CoDi也具备高度可定制、十分灵活的特点,能够实现高质量模态内容的同时生成,且同时在单模态合成方面表现出色。