微软新论文:将Transformer扩展到10亿token

来源: 机器之心

发布日期: 2023-07-07 12:08:17

微软最新研究将Transformer扩展到10亿token,提出LONGNET变体,具备线性计算复杂性和分布式训练能力,有效扩展序列长度,提升模型性能。

微软最新的研究中,他们直接将Transformer扩展到10亿token。这为建模非常长的序列开辟了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。作为比较,普通人可以在5小时左右的时间里阅读100,000个token,并可能需要更长的时间来消化、记忆和分析这些信息。Claude可以在不到1分钟的时间里完成这些。要是换算成微软的这项研究,将会是一个惊人的数字。

具体而言,该研究提出了LONGNET,这是一种Transformer变体,可以将序列长度扩展到超过10亿个token,而不会牺牲对较短序列的性能。文中还提出了dilated attention,它能指数级扩展模型感知范围。

LONGNET具有以下优势:1)它具有线性计算复杂性;2)它可以作为较长序列的分布式训练器;3)dilated attention可以无缝替代标准注意力,并可以与现有基于Transformer的优化方法无缝集成。

在研究动机方面,论文表示,最近几年,扩展神经网络已经成为一种趋势,许多性能良好的网络被研究出来。在这当中,序列长度作为神经网络的一部分,理想情况下,其长度应该是无限的。

但现实却往往相反,因而打破序列长度的限制将会带来显著的优势:首先,它为模型提供了大容量的记忆和感受野,使其能够与人类和世界进行有效的交互。其次,更长的上下文包含了更复杂的因果关系和推理路径,模型可以在训练数据中加以利用。相反,较短的依赖关系则会引入更多虚假的相关性,不利于模型的泛化性。第三,更长的序列长度可以帮助模型探索更长的上下文,并且极长的上下文也可帮助模型缓解灾难性遗忘问题。

该研究将LONGNET与vanilla Transformer和稀疏Transformer进行了比较。架构之间的差异是注意力层,而其他层保持不变。研究人员将这些模型的序列长度从2K扩展到32K,与此同时减小batch大小,以保证每个batch的token数量不变。表2总结了这些模型在Stack数据集上的结果。研究使用复杂度作为评估指标。这些模型使用不同的序列长度进行测试,范围从2k到32k不等。

当输入长度超过模型支持的最大长度时,研究实现了分块因果注意力(blockwise causal attention,BCA),这是一种最先进的用于语言模型推理的外推方法。

此外,研究删除了绝对位置编码。首先,结果表明,在训练过程中增加序列长度一般会得到更好的语言模型。其次,在长度远大于模型支持的情况下,推理中的序列长度外推法并不适用。

最后,LONGNET一直优于基线模型,证明了其在语言建模中的有效性。序列长度的扩展曲线图6绘制了vanilla transformer和LONGNET的序列长度扩展曲线。该研究通过计算矩阵乘法的总flops来估计计算量。结果表明,vanilla transformer和LONGNET都能从训练中获得更大的上下文长度。然而,LONGNET可以更有效地扩展上下文长度,以较小的计算量实现较低的测试损失。

这证明了较长的训练输入比外推法更具有优势。实验表明,LONGNET是一种更有效的扩展语言模型中上下文长度的方法。这是因为LONGNET可以更有效地学习较长的依赖关系。

UUID: 496f92fb-fb57-4c75-a50c-90cef88a0521

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-07-07_微软新论文:将Transformer扩展到10亿token.txt

是否为广告: 否

处理费用: 0.0051 元