微软最新研究：AI跳出了逼真舞蹈

近来，生成式AI在计算机视觉领域（CV）取得了诸多进展，特别是在以文本描述为条件的图像/视频合成方面。然而，在生成与人相关的内容方面仍然面临一定的挑战。例如，在舞蹈合成方面，现有方法生成的内容与真实舞蹈场景之间依然存在不小的差距。

来自Microsoft Azure AI、南洋理工大学的研究团队在一项新研究中提出，一个能够生成逼真舞蹈场景的生成式AI模型需要具备以下三个特点：忠实度（faithfulness）：合成的内容应该保留参考图像中人类主体前景和背景的外观，并精确地遵循目标姿势；泛化能力（generalizability）：该模型也应该适用于未见过的人类主体、背景和姿势；可组合性（Compositionality）：它应该允许对来自不同来源的已见/未见过的主体、背景和姿势进行组合。

为此，他们提出了一种参考现实世界人类舞蹈的生成新方法——DisCo，该方法包括一个用于提高舞蹈合成忠实度和可组合性的“解耦控制的模型架构”（Model Architecture with Disentangled Control）和帮助增加模型泛化能力的“人类属性的预训练”（Human Attribute Pre-training）。

多项定性和定量结果表明，DisCo可以生成具有多样化外观和灵活动作的高质量人类舞蹈图像和视频。相关研究论文以“DisCo: Disentangled Control for Referring Human Dance Generation in Real World”为题，已发表在预印本网站arXiv上。