自监督学习的统一框架

Facebook宣布了一项重大突破: Facebook的自监督AI模型SEER能够在没有人类帮助的情况下，从10亿张随机的、未标记的公共Instagram图片中学习，并且从这些信息中能够识别和分类照片中的主要对象，准确率达到84.2%，比现有的自监督系统高出一个百分点。Facebook AI首席科学家Yann Lecun表示，希望人工智能能够像人类婴儿时期那样，通过观察前人的东西进行学习。

Facebook在博客中写道: “SEER的表现表明，自监督学习能够在现实环境中胜任计算机视觉任务。这是一个重大突破，最终为未来更加灵活、准确和适应性更强的计算机视觉模型铺设了道路。”

近年来，人工智能领域，在开发人工智能系统方面取得了巨大进展，这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好，在它们训练的任务上往往能够获得极高的性能表现。

但不幸的是，仅靠监督学习，人工智能领域难以走远。监督学习在构建更智能的通用模型上存在本质上的瓶颈，例如处理多任务问题，或者通过大量存在的无标签数据学习新技能等。实际上，我们不可能对世界上一切事物都做标注；即使可以标注，但数量也可能并不足够，例如低资源语言翻译任务。

人类婴儿学习世界运作，主要是通过观察。我们会通过学习物体的持久性、重力等概念，从而形成关于世界上物体的广义预测模型。

在随后的人生里，我们不断观察世界，然后对它进行作用，然而再观察作用的效果等等，通过反复尝试，从而建立假设，解释我们的行动如何能够改变我们的环境。一种有效的假设是，人类和动物的生物智能，主要的成分是由关于世界的普遍知识或常识构成的，这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说，如何构建这种常识却一直是一个开放的挑战难题。在某种程度上，常识正是人工智能的暗物质。

自我监督学习使人工智能系统能够从数量级更大的数据中学习，这对于识别和理解世界更微妙、更不常见的表示模式很重要。我们最新的研究项目SEER利用SwAV和其他方法，在10亿张随机的未标记图像上预训练了一个大型网络，在各种视觉任务上获得了最高的精度。这一进展表明，在复杂的现实环境中，自监督学习也可以在CV任务中有出色表现。

自监督学习从数据本身获得监督信号，通常会利用数据中的底层结构。自监督学习的一般技术是从任何未观察到的或隐藏的输入部分，预测观察到的或未隐藏的输入部分(或特性)。在自监督学习中，系统被训练为从可见的输入部分(绿色)预测隐藏的输入部分(灰色)。因为自监督学习中涉及到监督信号，“自我监督学习”这个术语比以前使用的术语“无监督式学习学习”更为人们所接受。

自监督学习对NLP有着十分深远的影响。

它允许我们在大规模未标记文本数据集上训练例如BERT、RoBERTa、XLM-R等模型，并将这些模型应用于下游任务。这些模型在自监督阶段进行预训练，然后针对特定任务进行微调。在自监督的预训练阶段，系统会显示一个短文本(通常是1000个词)，其中一些词被遮挡或替换。训练之后，这个系统可以预测被遮挡或替换的词。

在这个过程中，系统学会了表达文本的意思，这样它可以很好地填写出“正确的”词语，或者说在上下文中有正确表达含义的词语。

为了更好地理解这一挑战，我们首先需要理解预测中的不确定性，以及与CV中相比，它是如何在NLP中建模的。在NLP中，预测丢失的词，需要计算词汇表中每个可能的词的预测得分。

尽管词表本身很大，预测一个缺失的词也会有一定程度的不确定性，但这问题不大，我们可以生成词表中所有可能的词的列表，以及该词在该位置出现的预估概率。我们认为，可以使用基于能量的模型（energy-based model，EBM）作为自监督学习的统一框架。

最近，我们创建并开放了一个新的、具有10亿参数的自监督CV模型SEER，可以有效地处理复杂的高维图像数据。

SEER基于应用于卷积网络架构（ConvNet）中的SwAV方法，可以从大量随机图像中训练，而不需要任何元数据或标注。ConvNet足够大，因此可以从这些庞大且复杂的数据中捕捉并学习每一个视觉概念。

在对10亿张随机的、未标注的，也没有做任何组织的instagram公开数据进行预训练，并对ImageNet进行有监督微调后，SEER的表现超过了目前最先进的自监督系统，在ImageNet上达到了84.2%的准确率。这些结果表明，我们可以将自监督学习范式迁移到计算机视觉当中。

在Facebook，我们不仅通过基础的、开放的科学研究，在许多领域推进自监督学习技术，还将这种前沿工作应用到生产中，来提高我们产品内容理解系统的准确性，确保人们在我们平台上的安全。自监督研究，就像我们预训练语言模型XLM，正在加速Facebook的一些重要应用——包括主动检测仇恨言论。

我们已经部署了XLM-R，这是一个利用RoBERTa架构的模型，它可以改进我们在Facebook和Instagram上的多种语言的仇恨言论分类器。这将使那些即使训练数据很少的语言，对仇恨语音进行检测也成为了可能。