DragAnything：对任何事物进行任意运动控制

来自快手、浙江大学、新加坡国立大学的研究团队提出了 DragAnything——利用实体表示法（entity representation）实现对可控视频生成中任何对象的运动控制。与现有的运动控制方法相比，DragAnything 有以下几点优势：首先，在获取其他引导信号（如遮罩、深度图）耗费大量人力物力的情况下，基于轨迹的交互方式对用户更加友好。在交互过程中，用户只需画出一条线（轨迹）即可。

其次，该实体表示法是一种开放域嵌入，能够表示任何物体，从而实现对包括背景在内的各种实体的运动控制。最后，该实体表示法允许同时对多个物体进行不同的运动控制。大量实验证明，DragAnything 在 FVD、FID 和用户研究方面达到了 SOTA，特别是在物体运动控制方面，该方法在人类投票方面比以前的方法（如 DragNUWA）高出 26%。

论文链接：https://arxiv.org/abs/2403.07420

项目地址：https://weijiawu.github.io/draganything_page/