DragAnything:对任何事物进行任意运动控制

来源: 学术头条

发布日期: 2024-03-15 12:06:06

DragAnything 是一种利用实体表示法实现对视频生成中任何对象运动控制的方法,具有用户友好、开放域嵌入和多物体控制等优势,并在多项指标上达到 SOTA。

来自快手、浙江大学、新加坡国立大学的研究团队提出了 DragAnything——利用实体表示法(entity representation)实现对可控视频生成中任何对象的运动控制。与现有的运动控制方法相比,DragAnything 有以下几点优势:首先,在获取其他引导信号(如遮罩、深度图)耗费大量人力物力的情况下,基于轨迹的交互方式对用户更加友好。在交互过程中,用户只需画出一条线(轨迹)即可。

其次,该实体表示法是一种开放域嵌入,能够表示任何物体,从而实现对包括背景在内的各种实体的运动控制。最后,该实体表示法允许同时对多个物体进行不同的运动控制。大量实验证明,DragAnything 在 FVD、FID 和用户研究方面达到了 SOTA,特别是在物体运动控制方面,该方法在人类投票方面比以前的方法(如 DragNUWA)高出 26%。

论文链接:https://arxiv.org/abs/2403.07420

项目地址:https://weijiawu.github.io/draganything_page/

UUID: 1db4b596-a3b1-4b9e-9203-d14ff45a625b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-03-15_DragAnything:对任何事物进行任意运动控制.txt

是否为广告: 否

处理费用: 0.0015 元