NeurIPS 2020 | Balanced-Meta Softmax: 长尾视觉识别方案解读

在NeurIPS 2020上，商汤新加坡团队提出的Balanced-Meta Softmax (BALMS)，针对真实世界中常见的长尾数据分布提出了新的视觉识别方案。在优化目标方面，BALMS提出一种新的损失函数，Balanced Softmax，来修正长尾设定下因训练与测试标签分布不同而导致的偏差。

在优化过程方面，BALMS提出Meta Sampler来自动学习最优采样率以配合Balanced Softmax，避免过平衡问题。BALMS在长尾图像分类与长尾实例分割的共四个数据集上取得SOTA表现。这项研究也被收录为ECCV LVIS workshop的spotlight。

真实世界中的数据分布大多符合长尾分布：常见类比占据了数据集中的主要样本，而大量的罕见类别只在数据集中少量出现。

由于长尾现象对算法落地造成了很大的挑战，视觉社区对这一问题的关注日渐增加，近年陆续推出了一些长尾数据集，例如大规模实例分割数据集LVIS。我们发现长尾问题的难点主要存在于以下两个方面：1）优化目标。根据长尾问题的设定，训练集是类别不均衡的。2）优化过程。罕见类别在模型训练过程中很少出现，因此无法在优化过程中提供足够的梯度。

1. Balanced Softmax。Softmax函数常常被用来将模型输出转化为物体属于每个类别的条件概率。应用贝叶斯定理可以发现常规的Softmax回归会受到标签分布迁移的影响，并作出带偏差的估计。为了避免这个偏差，我们从多项分布的Exponential Family形式出发重新对Softmax进行了推导并显式考虑了标签分布迁移，得到了适合长尾问题的Balanced Softmax。

2. 元采样器。Meta Sampler虽然我们得到了一个适合长尾问题的理想的优化目标，优化过程本身依然充满挑战：罕见类别只能在训练中出现极少次数，因此无法很好地贡献到训练梯度。解决这一问题的最常见的方法是类别均衡采样 (CBS)，也就是对每个类别采样同样数量的样本来组成训练批次。为了解决过平衡问题，我们提出了Meta Sampler（元采样器），一种可学习版本的CBS。

我们在图像分类（CIFAR-10/100-LT，ImageNet-LT，Places-LT）与实例分割（LVIS-v0.5）两个任务上分别进行了实验验证。实验结果显示了Balanced Softmax和Meta Sampler对模型表现都有明显的贡献。

两者的组合，Balanced Meta-Softmax （BALMS），在这两个任务上都达到或超过了SOTA结果，尤其在最具挑战性的LVIS数据集上大幅超过了之前的SOTA结果。

BALMS对长尾问题下的概率建模以及采样策略进行了探讨。我们发现常用的Softmax回归在存在标签分布迁移时会出现估计偏差，并提出了Balanced Softmax来避免这个偏差。

另一方面，我们发现类别均衡采样器在与Balanced Softmax一起使用时会导致过平衡问题，于是提出元采样器来显式学习最优采样策略。我们的解决方案在长尾图像分类与长尾实例分割任务上均得到了验证。欢迎关注我们的开源代码库，希望BALMS可以成为未来长尾学习的良好基线。