近来,生成式AI在计算机视觉领域(CV)取得了诸多进展,特别是在以文本描述为条件的图像/视频合成方面。然而,在生成与人相关的内容方面仍然面临一定的挑战。例如,在舞蹈合成方面,现有方法生成的内容与真实舞蹈场景之间依然存在不小的差距。
来自Microsoft Azure AI、南洋理工大学的研究团队在一项新研究中提出,一个能够生成逼真舞蹈场景的生成式AI模型需要具备以下三个特点:忠实度(faithfulness):合成的内容应该保留参考图像中人类主体前景和背景的外观,并精确地遵循目标姿势;泛化能力(generalizability):该模型也应该适用于未见过的人类主体、背景和姿势;可组合性(Compositionality):它应该允许对来自不同来源的已见/未见过的主体、背景和姿势进行组合。
为此,他们提出了一种参考现实世界人类舞蹈的生成新方法——DisCo,该方法包括一个用于提高舞蹈合成忠实度和可组合性的“解耦控制的模型架构”(Model Architecture with Disentangled Control)和帮助增加模型泛化能力的“人类属性的预训练”(Human Attribute Pre-training)。
多项定性和定量结果表明,DisCo可以生成具有多样化外观和灵活动作的高质量人类舞蹈图像和视频。相关研究论文以“DisCo: Disentangled Control for Referring Human Dance Generation in Real World”为题,已发表在预印本网站arXiv上。