微软最新研究:AI跳出了逼真舞蹈

来源: 学术头条

发布日期: 2023-07-05 12:07:06

微软和南洋理工大学的研究团队开发了一种名为DisCo的生成式AI模型,专门用于生成逼真的人类舞蹈图像和视频。该模型强调忠实度、泛化能力和可组合性,通过解耦控制模型架构和人类属性预训练来提高生成效果。

近来,生成式AI在计算机视觉领域(CV)取得了诸多进展,特别是在以文本描述为条件的图像/视频合成方面。然而,在生成与人相关的内容方面仍然面临一定的挑战。例如,在舞蹈合成方面,现有方法生成的内容与真实舞蹈场景之间依然存在不小的差距。

来自Microsoft Azure AI、南洋理工大学的研究团队在一项新研究中提出,一个能够生成逼真舞蹈场景的生成式AI模型需要具备以下三个特点:忠实度(faithfulness):合成的内容应该保留参考图像中人类主体前景和背景的外观,并精确地遵循目标姿势;泛化能力(generalizability):该模型也应该适用于未见过的人类主体、背景和姿势;可组合性(Compositionality):它应该允许对来自不同来源的已见/未见过的主体、背景和姿势进行组合。

为此,他们提出了一种参考现实世界人类舞蹈的生成新方法——DisCo,该方法包括一个用于提高舞蹈合成忠实度和可组合性的“解耦控制的模型架构”(Model Architecture with Disentangled Control)和帮助增加模型泛化能力的“人类属性的预训练”(Human Attribute Pre-training)。

多项定性和定量结果表明,DisCo可以生成具有多样化外观和灵活动作的高质量人类舞蹈图像和视频。相关研究论文以“DisCo: Disentangled Control for Referring Human Dance Generation in Real World”为题,已发表在预印本网站arXiv上。

UUID: 4fef2f64-1b36-492e-ae70-c58660573006

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-07-05_来一首disco!微软最新研究:像人类一样,AI跳出.txt

是否为广告: 否

处理费用: 0.0020 元