来自快手、浙江大学、新加坡国立大学的研究团队提出了 DragAnything——利用实体表示法(entity representation)实现对可控视频生成中任何对象的运动控制。与现有的运动控制方法相比,DragAnything 有以下几点优势:首先,在获取其他引导信号(如遮罩、深度图)耗费大量人力物力的情况下,基于轨迹的交互方式对用户更加友好。在交互过程中,用户只需画出一条线(轨迹)即可。
其次,该实体表示法是一种开放域嵌入,能够表示任何物体,从而实现对包括背景在内的各种实体的运动控制。最后,该实体表示法允许同时对多个物体进行不同的运动控制。大量实验证明,DragAnything 在 FVD、FID 和用户研究方面达到了 SOTA,特别是在物体运动控制方面,该方法在人类投票方面比以前的方法(如 DragNUWA)高出 26%。
论文链接:https://arxiv.org/abs/2403.07420
项目地址:https://weijiawu.github.io/draganything_page/