清华唐杰团队详解自监督学习

多年来，深度监督学习取得了巨大的成功，然而，其依赖于人工标注和易受攻击的弱点使人们一直在探索更好的解决方案。自监督学习作为一种新的学习方法，近几年在表征学习方面取得了骄人的成绩，其利用输入数据本身作为监督，并使得几乎所有类型的下游任务都受益。

近日，清华大学教授唐杰发表了一篇《Self-supervised Learning: Generative or Contrastive》的综述文章，文章收录了160+篇文章，包括NLP、CV、Graph等领域的算法。文章中，研究者讨论了新的自监督学习方法在计算机视觉、自然语言处理和图形学习中的表征。

深度神经网络在机器学习任务中表现出色，特别是在计算机视觉中的监督学习(图像分类、语义分割)、自然语言处理(预训练语言模型、情绪分析、问题回答)和图形学习(节点分类、图形分类)。通常，监督学习是在一个特定的任务上进行训练，使用一个人工标记的大型数据集，该数据集被随机分为训练集、验证集和测试集。然而，监督学习遇到了瓶颈——它不仅严重依赖昂贵的人工标记，而且具有泛化错误、虚假相关性和易受攻击等缺点。

研究者期望神经网络通过更少的标签、更少的样本或更少的试验来学习更多。作为一种有发展前景的学习方法，自监督学习以其出色的数据效率和泛化能力引起了广泛关注，许多新的模型都遵循这一范式。在该研究中，研究者全面了解了自监督学习模型的发展，并讨论其理论的合理性，包括框架如预训练语言模型(PTM)，生成对抗网络(GAN)，自动编码器及其扩展，深度信息和对比编码。

“自监督学习”最早是在机器人技术中引入的，其中通过查找和利用不同传感器信号之间的关系来自动标记训练数据。然后，它被机器学习领域借用。在关于AAAI 2020的演讲中，Yann LeCun将自我监督学习描述为“机器会为其观察到的任何部分预测其输入的部分。”可以将其概括为遵循LeCun的两个经典定义：通过“半自动”过程从数据本身获取“标签”。从其他部分预测部分数据。

具体而言，此处的“其他部分”可能是不完整的、扭曲或损坏的。换句话说，机器学会了“恢复”其原始输入的全部或部分特征。人们常常被无监督学习和自监督学习所迷惑。自我监督学习可以看作是无监督学习的一个分支，因为它不涉及人工标注。但是，狭义地讲，无监督学习专注于检测特定的数据模式，而自监督学习旨在恢复，这仍然处于监督环境的范式中。

关于预训练语言模型、生成对抗网络、自动编码器和视觉表示的对比学习已有一些相关的综述，但它们都没有集中于启发性的自监督学习概念。在这项工作中，研究者收集了近年来对自然语言处理，计算机视觉和图形学习的研究，以对自监督学习的前沿领域进行最新、全面的回顾。综上所述，他们的贡献如下：提供了自监督学习最新、最详细的概述，介绍了背景知识、变量模型和重要的框架，人们可以很容易地掌握自我监督学习的前沿思想。

将自我监督的学习模型分为生成型，对比型和生成对比型（对抗性），每种都包含特定的类型。展示了每种分类的利弊，并讨论了最近从生成转向对比的转变。深度研究了自我监督学习方法的理论合理性，并说明了它如何有益于下游监督学习任务。确定了该领域中的几个未解决的问题，分析了其局限性和边界，并讨论了自监督表示学习的未来方向。