Scene Representation Networks (SRNs) 是一种连续的、3D 结构感知的场景表征模型,该模型能够同时编码几何和外观。SRNs 将场景表征为连续函数,将世界坐标映射为局部场景属性的一个特征表示。通过将成像系统地描述为一个可微的射线行进算法,SRNs 只基于 2D 图像及其图像的摄像机位便可进行端到端的训练,无需景深或形状信息。
这种方法可以在不同场景之间自然泛化,在这个过程中学习强大的几何和外观先验知识。本文通过新视野图的合成、少样本重建、联合形状和外观插值和非刚性面模型的无监督发现来评估 SRNs 的潜力。
本文提出 Scene Representation Networks (SRNs),该模型关键在于将场景隐含地表征为连续、可微的函数,该函数将 3D 世界坐标映射到基于特征的场景属性表征。
这使得 SRNs 能够与已建立的多视图和投影几何技术进行自然地交互,同时在内存中以高空间分辨率高效运行。SRNs 仅需一组场景 2D 图像便可以进行端到端的训练学习。SRNs 生成高质量图像时无需 2D 卷积,而只需对单个像素进行操作,这使得生成任意分辨率的图像成为可能。这很自然地泛化到相机转换和在训练时完全看不到内在参数的情况。
例如,SRNs 能够在只有一个固定距离看到过物体,便能够完美地呈现出物体的特写。
本文在数个物体类别上训练 SRNs,并在新视图合成和少样本重建中评估。同时进一步证明了非刚性面模型的发现。在论文的补充材料中详细阐述了单场景新视图合成中 SRNs 和 DeepVoxels 的对比。超参数、框架细节等等也在补充材料,这里就不赘述了。
本文提出 SRNs,这是一个面向 3D 结构的神经场景表征模型。该模型将场景表示为一个连续、可微的函数。该函数将 3D 坐标映射为基于特征的场景表征,再用可微的 ray marcher 将特征表征渲染为 2D 图像。整个过程是端到端的训练。SRNs 无需形状监督,只能通过一组摆拍的 2D 图像进行训练。SRNs 在新视图合成、形状和外观插值、少镜头重建任务上进行评测。