Meta AI团队提出首个文本-3D动态场景生成方法,无需任何3D或4D数据

作者: 学术头条

来源: arXiv

发布日期: 2023-01-30 12:47:23

Meta AI团队提出了一种新的文本到4D(3D+时间)生成系统MAV3D,该系统结合了视频和3D生成模型的优点,能够从文本描述生成3D动态场景,无需任何3D或4D数据。

2022年,生成模型(Generative models)取得了巨大的进展。不仅可以从自然语言提示中生成逼真的2D图像,也在合成视频和3D形状生成方面有着不俗的表现。虽然目前的生成模型可以生成静态的3D对象,但合成动态场景更加复杂。而且,由于目前缺少现成的4D模型集合(无论是有或没有文本注释),相比于2D图像和视频生成,由文本到4D的生成更加困难。

那么,如何基于简单的文本直接生成复杂的3D动态场景呢?一种可能的方法是,从预先训练好的2D视频生成器开始,从生成的视频中提取4D重建。然而,从视频中重建可变形物体的形状是一项非常具有挑战性的工作。近日,来自Meta的研究团队结合视频和3D生成模型的优点,提出了一个新的文本到4D(3D+时间)生成系统——MAV3D(Make-A-Video3D)。

据介绍,该方法使用4D动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)的扩散模型,对场景外观、密度和运动一致性进行了优化。同时,由特定文本生成的动态视频可以从任何摄像机位置和角度观看,并且可以合成到任何3D环境中。研究团队表示,MAV3D是第一个基于文本描述生成3D动态场景的方法,可以为视频游戏、视觉效果或AR/VR生成动画3D资产。

相关研究论文以“Text-To-4D Dynamic Scene Generation”为题,已发表在预印本网站arXiv上。据论文描述,MAV3D的实现不需要任何3D或4D数据,而且T2V模型也只是在文本-图像对和未标记的视频数据上训练的。以往研究证明,仅仅使用视频生成器优化动态NeRF不会产生令人满意的结果。

为了实现由文本到4D的目标,必须克服以下三个挑战:找到一个端到端、高效且可学习的动态3D场景的有效表示;有一个监督来源,因为没有可供学习的大规模(文本,4D)数据集。需要在空间和时间上缩放输出的分辨率,因为4D输出域是内存密集型的和计算密集型的。由简单的文本描述到复杂的3D动态场景生成,具体是如何实现的呢?

首先,研究团队仅充分利用了三个纯空间平面(绿色),渲染单个图像,并使用T2I模型计算SDS损失。然后,他们添加了额外的三个平面(橙色,初始化为零以实现平滑过渡),渲染完整的视频,并使用T2V模型计算SDS-T损失。最后,即超分辨率微调(SRFT)阶段,他们额外渲染了高分辨率视频,并将其作为输入传递给超分辨率组件。另外,MAV3D也可以完成由图像到4D应用的转换。

给定一个输入图像,通过提取它的CLIP embedding,并以此来约束MAV3D。然而,这一方法也存在一定的局限性。例如,在实时应用中,将动态NeRF转换为不相交网格序列的效率很低。研究团队认为,如果直接预测顶点的轨迹,或许可以改进。此外,利用超分辨率信息已经提高了表示的质量,但对于更高细节的纹理还需要进一步改进。最后,表示的质量取决于T2V模型从各种视图生成视频的能力。

虽然使用依赖于视图的提示有助于缓解多面问题,但进一步控制视频生成器将是有帮助的。

UUID: 9c04d4f3-cb5d-4ef5-a74b-8e1b0b003ab7

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-01-30_3D+时间!MetaAI团队提出首个文本-3D动态场景生成方法,无需任何3D或4D数据.txt

是否为广告: 否

处理费用: 0.0038 元