在 Medium 上,有位名为 Prabhu Prakash Kagitha 的博主,根据 NeurIPS 2020 上的论文发表了一篇题为“NeurIPS 2020 Papers: Takeaways for a Deep Learning Engineer”的文章,阅读了 NeurIPS 2020 中的 175 篇论文的摘要,汇总了与深度学习有关的见解。
让我们一起看看深度学习都能学习到什么:
1、加速基于 Transformer 的语言模型的逐层下降训练。与标准翻译器相比,可切换翻译器 (ST) 的预训练速度快 2.5 倍。配备可切换门 (G 在 fg。下面 ),一些层是根据伯努利分布抽样 0 或 1 随机跳过的,每个抽样的时间效率为 25%。结果表明,该方法在减少了 53% 的训练样本的情况下,达到了与基线相同的验证误差。
结合时间和样本效率,预训练的速度比下游任务快 2.5 倍,有时甚至更好。
2、用于神经网络抗噪声标签的 Robust 训练的核心集。前面已经证明,神经网络权值 (W) 和干净数据 (X) 的雅可比矩阵经过一定的训练后会近似为一个低秩矩阵,有一些较大的奇异值和大量非常小的奇异值。目前的工作引入了一种技术,该技术可以创建一组大部分干净的数据 (Coresets) 来训练模型,并显示在有噪声的数据集上的性能显著提高。
3、基于预训练 BERT 网络模型的彩票假设。在训练过程相同的情况下,存在一个表现出与原始完整网络相当性能的子网络。这些子网被称为彩票,并由掩码定义,掩码告诉哪些权重在原始网络中被置零。目前的工作采用迭代幅度修剪 (IMP),对一个子网进行一定时间的训练,并对 k% 较小幅度的权重进行修剪。
4、MPNet:语言理解预先训练的掩蔽和排列。MPNet 是隐藏语言建模 (MLM) 和自回归排列语言建模 (PLM) 的混合,采用了各自的优点,并避免了它们的局限性。MPNet 将两者结合起来。通过在句子末尾添加额外的掩码来修改类似 xlnet 的体系结构,以便在任何位置的预测将涉及 N 个标记,其中 N 是序列的长度,其中一些是掩码。
5、使用边缘排名下的区域识别错误标记的数据。在大规模数据集中,错误标记的数据是常见的,因为它们是“众包”或从互联网上抓取的,容易产生噪声。这项工作形成了一个简单直观的想法。经过一些训练后,对于一张错误标记为“鸟”的狗的图像,模型给出了相当大的概率标记为“狗”,因为从 80 张正确标记的图像中归纳出来。
6、重新思考标签对于改善课堂不平衡学习的价值。当现有的标签是不平衡的类 (有些类比其他类有更多的带标签的例子),并且我们有很多未带标签的数据时,我们还需要标签吗?积极的(positive)。是的,我们需要标签。对未标记的数据进行自我训练,你将会获得成功。
7、Big Bird:长序列翻译。标准翻译器的自注意是二次复杂度 (存储和计算) wrt 序列长度。因此,训练较长的序列是不可行的。在 Big Bird 中,它使用稀疏注意,其中一个特定位置只关注几个随机选择的 token 和一些邻近的 token。
8、通过权重共享来改进自动增重。为特定任务选择一系列转换及其大小进行数据扩展是特定领域的,而且很耗时。自动增强是一种学习最佳转换序列的技术,其回报是否定验证损失。
9、集中注意力的快速翻译。和上面的 Big Bird 一样,快速翻译近似于标准的自我关注,使其从二次依赖性变为线性。为了做到这一点,不是对所有的注意力进行计算 (O(sequence_length*sequence_length)),而是对查询进行聚类,并且只对 centroids 计算注意力值。
10、自我关注的深度限制和效率。在缩放转换器时,经验表明增加宽度 (内部表示的维度) 与增加深度 (自我注意层数) 同样有效。相反,更具体地说,这项工作表明,我们可以将转换器缩放到“深度阈值”,即以宽度的 3 为底的对数。