Facebook宣布了一项重大突破: Facebook的自监督AI模型SEER能够在没有人类帮助的情况下,从10亿张随机的、未标记的公共Instagram图片中学习,并且从这些信息中能够识别和分类照片中的主要对象,准确率达到84.2%,比现有的自监督系统高出一个百分点。Facebook AI首席科学家Yann Lecun表示,希望人工智能能够像人类婴儿时期那样,通过观察前人的东西进行学习。
Facebook在博客中写道: “SEER的表现表明,自监督学习能够在现实环境中胜任计算机视觉任务。这是一个重大突破,最终为未来更加灵活、准确和适应性更强的计算机视觉模型铺设了道路。”
近年来,人工智能领域,在开发人工智能系统方面取得了巨大进展,这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好,在它们训练的任务上往往能够获得极高的性能表现。
但不幸的是,仅靠监督学习,人工智能领域难以走远。监督学习在构建更智能的通用模型上存在本质上的瓶颈,例如处理多任务问题,或者通过大量存在的无标签数据学习新技能等。实际上,我们不可能对世界上一切事物都做标注;即使可以标注,但数量也可能并不足够,例如低资源语言翻译任务。
人类婴儿学习世界运作,主要是通过观察。我们会通过学习物体的持久性、重力等概念,从而形成关于世界上物体的广义预测模型。
在随后的人生里,我们不断观察世界,然后对它进行作用,然而再观察作用的效果等等,通过反复尝试,从而建立假设,解释我们的行动如何能够改变我们的环境。一种有效的假设是,人类和动物的生物智能,主要的成分是由关于世界的普遍知识或常识构成的,这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说,如何构建这种常识却一直是一个开放的挑战难题。在某种程度上,常识正是人工智能的暗物质。
自我监督学习使人工智能系统能够从数量级更大的数据中学习,这对于识别和理解世界更微妙、更不常见的表示模式很重要。我们最新的研究项目SEER利用SwAV和其他方法,在10亿张随机的未标记图像上预训练了一个大型网络,在各种视觉任务上获得了最高的精度。这一进展表明,在复杂的现实环境中,自监督学习也可以在CV任务中有出色表现。
自监督学习从数据本身获得监督信号,通常会利用数据中的底层结构。自监督学习的一般技术是从任何未观察到的或隐藏的输入部分,预测观察到的或未隐藏的输入部分(或特性)。在自监督学习中,系统被训练为从可见的输入部分(绿色)预测隐藏的输入部分(灰色)。因为自监督学习中涉及到监督信号,“自我监督学习”这个术语比以前使用的术语“无监督式学习学习”更为人们所接受。
自监督学习对NLP有着十分深远的影响。
它允许我们在大规模未标记文本数据集上训练例如BERT、RoBERTa、XLM-R等模型,并将这些模型应用于下游任务。这些模型在自监督阶段进行预训练,然后针对特定任务进行微调。在自监督的预训练阶段,系统会显示一个短文本(通常是1000个词),其中一些词被遮挡或替换。训练之后,这个系统可以预测被遮挡或替换的词。
在这个过程中,系统学会了表达文本的意思,这样它可以很好地填写出“正确的”词语,或者说在上下文中有正确表达含义的词语。
为了更好地理解这一挑战,我们首先需要理解预测中的不确定性,以及与CV中相比,它是如何在NLP中建模的。在NLP中,预测丢失的词,需要计算词汇表中每个可能的词的预测得分。
尽管词表本身很大,预测一个缺失的词也会有一定程度的不确定性,但这问题不大,我们可以生成词表中所有可能的词的列表,以及该词在该位置出现的预估概率。我们认为,可以使用基于能量的模型(energy-based model,EBM)作为自监督学习的统一框架。
最近,我们创建并开放了一个新的、具有10亿参数的自监督CV模型SEER,可以有效地处理复杂的高维图像数据。
SEER基于应用于卷积网络架构(ConvNet)中的SwAV方法,可以从大量随机图像中训练,而不需要任何元数据或标注。ConvNet足够大,因此可以从这些庞大且复杂的数据中捕捉并学习每一个视觉概念。
在对10亿张随机的、未标注的,也没有做任何组织的instagram公开数据进行预训练,并对ImageNet进行有监督微调后,SEER的表现超过了目前最先进的自监督系统,在ImageNet上达到了84.2%的准确率。这些结果表明,我们可以将自监督学习范式迁移到计算机视觉当中。
在Facebook,我们不仅通过基础的、开放的科学研究,在许多领域推进自监督学习技术,还将这种前沿工作应用到生产中,来提高我们产品内容理解系统的准确性,确保人们在我们平台上的安全。自监督研究,就像我们预训练语言模型XLM,正在加速Facebook的一些重要应用——包括主动检测仇恨言论。
我们已经部署了XLM-R,这是一个利用RoBERTa架构的模型,它可以改进我们在Facebook和Instagram上的多种语言的仇恨言论分类器。这将使那些即使训练数据很少的语言,对仇恨语音进行检测也成为了可能。