175篇论文告诉你深度学习能从NeurIPS 2020学到什么？

在 Medium 上，有位名为 Prabhu Prakash Kagitha 的博主，根据 NeurIPS 2020 上的论文发表了一篇题为“NeurIPS 2020 Papers: Takeaways for a Deep Learning Engineer”的文章，阅读了 NeurIPS 2020 中的 175 篇论文的摘要，汇总了与深度学习有关的见解。

让我们一起看看深度学习都能学习到什么：

1、加速基于 Transformer 的语言模型的逐层下降训练。与标准翻译器相比，可切换翻译器 (ST) 的预训练速度快 2.5 倍。配备可切换门 (G 在 fg。下面 )，一些层是根据伯努利分布抽样 0 或 1 随机跳过的，每个抽样的时间效率为 25%。结果表明，该方法在减少了 53% 的训练样本的情况下，达到了与基线相同的验证误差。

结合时间和样本效率，预训练的速度比下游任务快 2.5 倍，有时甚至更好。

2、用于神经网络抗噪声标签的 Robust 训练的核心集。前面已经证明，神经网络权值 (W) 和干净数据 (X) 的雅可比矩阵经过一定的训练后会近似为一个低秩矩阵，有一些较大的奇异值和大量非常小的奇异值。目前的工作引入了一种技术，该技术可以创建一组大部分干净的数据 (Coresets) 来训练模型，并显示在有噪声的数据集上的性能显著提高。

3、基于预训练 BERT 网络模型的彩票假设。在训练过程相同的情况下，存在一个表现出与原始完整网络相当性能的子网络。这些子网被称为彩票，并由掩码定义，掩码告诉哪些权重在原始网络中被置零。目前的工作采用迭代幅度修剪 (IMP)，对一个子网进行一定时间的训练，并对 k% 较小幅度的权重进行修剪。

4、MPNet：语言理解预先训练的掩蔽和排列。MPNet 是隐藏语言建模 (MLM) 和自回归排列语言建模 (PLM) 的混合，采用了各自的优点，并避免了它们的局限性。MPNet 将两者结合起来。通过在句子末尾添加额外的掩码来修改类似 xlnet 的体系结构，以便在任何位置的预测将涉及 N 个标记，其中 N 是序列的长度，其中一些是掩码。

5、使用边缘排名下的区域识别错误标记的数据。在大规模数据集中，错误标记的数据是常见的，因为它们是“众包”或从互联网上抓取的，容易产生噪声。这项工作形成了一个简单直观的想法。经过一些训练后，对于一张错误标记为“鸟”的狗的图像，模型给出了相当大的概率标记为“狗”，因为从 80 张正确标记的图像中归纳出来。

6、重新思考标签对于改善课堂不平衡学习的价值。当现有的标签是不平衡的类 (有些类比其他类有更多的带标签的例子)，并且我们有很多未带标签的数据时，我们还需要标签吗?积极的（positive）。是的，我们需要标签。对未标记的数据进行自我训练，你将会获得成功。

7、Big Bird：长序列翻译。标准翻译器的自注意是二次复杂度 (存储和计算) wrt 序列长度。因此，训练较长的序列是不可行的。在 Big Bird 中，它使用稀疏注意，其中一个特定位置只关注几个随机选择的 token 和一些邻近的 token。

8、通过权重共享来改进自动增重。为特定任务选择一系列转换及其大小进行数据扩展是特定领域的，而且很耗时。自动增强是一种学习最佳转换序列的技术，其回报是否定验证损失。

9、集中注意力的快速翻译。和上面的 Big Bird 一样，快速翻译近似于标准的自我关注，使其从二次依赖性变为线性。为了做到这一点，不是对所有的注意力进行计算 (O(sequence_length*sequence_length))，而是对查询进行聚类，并且只对 centroids 计算注意力值。

10、自我关注的深度限制和效率。在缩放转换器时，经验表明增加宽度 (内部表示的维度) 与增加深度 (自我注意层数) 同样有效。相反，更具体地说，这项工作表明，我们可以将转换器缩放到“深度阈值”，即以宽度的 3 为底的对数。