北⼤、腾讯推出 ReVideo:通过动作和内容精确编辑视频。尽管在利⽤扩散模型⽣成和编辑视频⽅⾯取得了重⼤进展,但实现精确的本地化视频编辑仍是⼀项巨⼤挑战。此外,现有的⼤多数视频编辑⽅法主要集中在改变视觉内容上,对动作编辑的研究⼗分有限。在这项研究中,来⾃北京⼤学和腾讯的研究团队及其合作者,提出了⼀种新颖的“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进⾏精确的视频编辑。
内容编辑通过修改第⼀帧来实现,⽽基于轨迹的动作控制则提供了直观的⽤户交互体验。ReVideo 解决了内容和动作控制之间的耦合和训练不平衡问题。为了解决这个问题,他们开发了⼀种三阶段训练策略,从粗到细逐步解耦这两个⽅⾯。此外,他们还提出了⼀个时空⾃适应融合模块,以整合不同采样步骤和空间位置的内容和动作控制。
⼴泛的实验证明,ReVideo 在⼏种精确的视频编辑应⽤中具有良好的性能,即:1)局部改变视频内容,同时保持动作不变;2)保持内容不变,同时定制新的动作轨迹;3)同时修改内容和动作轨迹。该⽅法还可以⽆缝地将这些应⽤扩展到多区域编辑,⽽⽆需特定的训练,这证明了它的灵活性和鲁棒性。