伯克利团队新研究:不用神经网络,也能快速生成优质动图

来源: 数据实战派

发布日期: 2022-01-09 10:00:00

加州大学伯克利分校的研究团队提出了一种名为 Plenoxels 的方法,无需神经网络即可快速生成高质量的动态图像,显著减少了训练时间,同时保持了与 NeRF 相当的质量。该方法通过立体渲染和带有球谐的体素网格优化,采用从粗到细的优化策略,展示了在合成和真实场景中的优越性能。

基于神经辐射场(NeRF, Neural Radiance Fields)的图像生成,可实现逼真、新颖的视点渲染,可以捕捉场景几何和视点相关(view-dependent)的效果。然而,这种令人印象深刻的方法背后,需要付出的是大量的计算时间,以进行训练和渲染。

围绕 NeRF,随后的研究中都聚焦于如何降低计算成本(尤其是渲染)上,但单个 GPU 训练仍然需要数小时,此瓶颈显然制约了逼真容积重建(VR, Volumetric Reconstruction)的实际应用。

就在近日,来自加州大学伯克利分校的研究团队,发表了一篇题为“Plenoxels: Radiance Fields without Neural Networks”的论文,介绍了一种无需神经网络,便可以从头开始训练辐射场的方法,并且在保持 NeRF 质量的同时,将优化时间减少两个数量级。

在用于逼真的场景建模和新颖的视点渲染时,这种名为 Plenoxels(plenoptic voxels)的方法产生的效果不仅与最先进的保真度相当,而且训练时间更短。

具体方法给定一组校准的图像,研究团队直接使用训练射线上的渲染损失来优化模型(如图 2),详细的步骤如下:立体渲染(volume rendering)团队成员使用与 NeRF 中相同的可微模型进行立体渲染,其中光线的颜色是通过对沿着光线采集的样本进行积分来近似的。带有球谐的体素网格与 PlenOctrees 类似,团队成员使用稀疏体素网格作为几何模型。

然而,为了简单方便地实现三线性插值,不再使用八叉树三维数据结构。相反地,研究团队将带有指针的密集 3D 索引阵列存储到单独的数据数组中,该数据数组仅包含已占用体素的值。通过存储在最近的 8 个体素上的不透明度和谐波系数的三线性插值,计算每条射线上每个样本点的不透明度和颜色。研究团队发现,三线性插值显著优于简单的最近邻插值(如表 1 所示)。

插值的优势有二:其一,插值通过表示颜色和不透明度的亚体素(sub-voxel)变化来提高有效分辨率;其二,插值产生连续函数近似,这对成功的优化至关重要。

优化策略:由粗到细通过一种从粗到细的策略来实现高分辨率,该策略从低分辨率的密集网格开始,优化、删除不必要的体素,进而在每个维度中,将每个体素细分成两半来细化剩余的体素,并继续优化。

优化过程相对于均方误差(MSE, Mean Squared Error)渲染像素颜色,全变分(TV, Total Variation)正则化而言,研究团队需要对体素不透明度和球谐系数进行优化。

具体来说,损失函数可表示如下:其中,MSE 的重建损失和全变分正则器可表示为:为了加快迭代速度,团队成员在每个优化步骤中使用射线 R 的随机样本来评估 MSE 项,并使用体素 V 的随机样本来评估每个优化步骤中的 TV 项。研究团队采用与 JAXNeRF 和 Mip-NeRF 相同的学习速率时间表,但针对不透明度和谐波系数,分别调整了初始学习速率。

实验结果及分析研究团队在合成的有限场景上,呈现了实验结果。其中,包含(1)真实的、无界、面向前方的场景;(2)真实的、无界、360°场景。与先前的方法相比较,本文的方法在训练速度上展示了绝对的优势。表 2 给出了定量比较的结果,而图 6、7 和 8 则直观地展现了视觉对比的情况。可以很容易的观察到,本文的方法在第一个优化阶段之后,在不到 1.5 分钟的时间内即获得了高质量的结果,如图 5 所示。

额外地,团队成员也给出了各种消融研究的结果,完整的实验细节请参阅论文的附录部分。

结论本文的方法不仅简单明了,而且成功揭示了解决 3D 逆向问题时,所必需的核心元素:可微正向模型,连续表示(通过三线性插值),以及适当的正则化。研究团队承认,尽管这种方法的元素已经可用很长时间了,但是计算机视觉从业者最近才可以访问具有数千万变量的非线性优化。

当然,该方法也存在一定的限制,与任何未敲定的逆向问题一样,很容易受到伪影(Artifacts)的干扰。本文提出的方法表现出与神经方法不同的伪影,如图 9 所示,但两种方法在标准度量方面实现了相似的质量效果。研究团队表示,未来的工作可能会通过研究不同的正则化先验或更精确的微分渲染函数来调整或减小这些残余的伪影。

UUID: 74cf11ed-afdb-4b0a-ae9a-0a4b23d8ea1d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-01-09_「转」伯克利团队新研究:不用神经网络,也能快速生成优质动图.txt

是否为广告: 否

处理费用: 0.0070 元