Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法。在 7 个与检测和分割相关的下游任务中,MoCo 可以超越在 ImageNet 上的监督学习结果,在某些情况下其表现甚至大大超越后者。作者在摘要中写道:「这表明,在许多视觉任务中,无监督和监督表征学习之间的差距已经在很大程度上被消除了。
无监督表征学习在自然语言处理领域非常成功,诞生了 GPT、BERT 等性能强大的模型。但在计算机视觉领域,监督预训练一直是主流方法,无监督方法则被落在了后面。这可能是因为它们对应的信号空间不同。语言任务有着离散的信号空间(词等),可以用于构建成分词后的词典(dictionary)。这种词典是无监督学习可以依赖的特征。
但是,计算机视觉与之相反,其原始信号是在一个连续且高维的空间中,无法成为结构化信号用于人类的交流。
在无监督的视觉表征学习上,近来的一些研究通过使用对比损失(constrative loss)的方法取得了不错的效果。这些方法都可以被认为和动态词典(dynamic dictionary)相关。在词典中,键(token)是通过从数据(如图像等)中进行采样得到的,然后使用一个编码器网络转换为表征。
无监督学习则训练编码器,用于词典的查找工作,即一个编码的「查询(query)」应该和与之匹配的键相似,与其他键不相似。这样的一个学习过程可以被构建为减少对比损失。
在本次研究中,何恺明等研究者提出了一种名为动量对比(Momentum Contrast,简称 MoCo)的方法。这种方法旨在通过对比损失为无监督学习建立大型、一致的词典。
研究者将词典维护为一个数据样本队列:当前 mini-batch 编码表征将进入队列,而最老的将退出队列。该队列将词典大小与 mini-batch 大小解耦,从而允许词典变大。此外,由于词典键来自前面的几个 mini-batch,因此研究者提出使用一个缓慢前进的键编码器,作为基于动量的查询编码器的移动平均值,以保持一致性。
何恺明团队的研究结果表明,在 7 个与检测和分割相关的下游任务中,MoCo 无监督预训练可以超越在 ImageNet 上的监督学习结果,在某些情况下其表现还大大超越后者。
他们通过实验探索了 MoCo 在 ImageNet 或 10 亿张 Instagram 图像集上的预训练结果,这些结果表明,在许多计算机视觉任务中,MoCo 都可以在很大程度上缩小无监督和监督表征学习的差距,在若干项应用中可以取代 ImageNet 监督预训练。