本文将对NeurIPS 2019获得杰出论文奖荣誉提名的论文《Nonparametric density estimation & convergence of GANs under Besov IPM losses》进行解读。该论文以严格的理论方法表明,在密度估计方面,GAN的性能优于线性方法(就收敛速度而言)。利用先前关于小波收缩的结果,本文为GAN的表征能力提供了新的见解。
具体来说,作者在大型函数类别(Besov空间)内的大型损失类别(所谓的积分概率度量)下,得出了用于非参数密度估计的最小极大收敛速度。审稿人认为,这篇论文将对从事非参数估计和GAN的研究人员产生重大影响。
本文研究非参数概率密度的估计问题(Besov IPMs)。其中包括一个大类的损失距离,例如,距离,总方差距离,和普适的Wasserstein-Kolmogorov距离。
对于各类的参数设置,作者提供上下两种界限,准确地描述损失函数和假设,以此通过数据交互来确定最小极大最优收敛速度。本文也同时展示了线性分布估计,例如经验分布或核密度估计。这些往往不能以最佳速率收敛。文章中设定的界限为普适、统一或改进几个最近和经典的结果。此外,IPMs还可以用于建立生成性对抗网络的统计模型(GANs)。因此,作者展示了如何推导GAN统计误差的界限。
例如,GANs可以严格地优于最佳线性估计。
本文对非参数密度估计中的一些最新和经典结果进行了统一、扩展或改进。先前相关工作主要是两个方面:研究成果。本文的主要有三大技术贡献:结果讨论。首先,文中注意到q_d和q_g没有出现在界限中。Tao认为q_d和q_g可能只有对数效应(与σ_d, p_d, σ_g, p_g多项式效应对比)。
因此,一个更细化的分析可能需要合并和q_d和q_g,以弥补作者的一般估计器上下界之间的多对数差距。另一方面,在线性和一般情况下,参数σ_d, p_d, σ_g, p_g在确定最小极大收敛速度方面都起着重要作用。文中首先单独讨论这些参数,然后讨论它们之间的一些相互作用。
本文证明,对于大类的F_d—IPM损耗和F_g分布类,统一的最小极大收敛速度可以达到对数指标。
因此,文中总结了一些以前在特殊情况下观察到的现象。
首先,在足够弱的损失函数下,即使在非常大的非参数分布类上,也可以在参数速率O(n^-1/2)进行分布估计;其次,在许多情况下,最优估计需要适应非齐次平滑条件;许多常用的分布估计器无法做到这一点,因此会以次优速率收敛,甚至无法收敛;最后,具有足够大的全连通ReLU神经网络的GANs,利用小波阈值正则化进行统计上的极大极小率最优分布估计,比非齐次非参数平滑分类上更优(假设GAN优化问题可以精确求解)。
重要的是,由于GANS优化IPM的损失比传统L^p损失要小,它们可以学习更高维分布的合理近似值,通过采样复杂性,或者可以解释为什么它们在图像数据的情况下是更优的。因此,作者的结果表明,维数的缺陷可能比经典的非参数下界表示的要轻微。