当我们在翻译软件上输入“Transformer is a novel neural network architecture based on a self-attention mechanism”后,计算机就可以迅速将它翻译为“Transformer是一种基于自注意力机制的新型神经网络架构”,神奇的机器翻译使得多语种互译成为可能。
近年来,得益于机器学习的快速发展,自然语言处理(NLP)技术不断突破,在人机交互、在线翻译工具等领域的应用层出不穷,不同语种的人与人、人与机器之间的无障碍自由交流得以实现。当前的主流机器翻译主要是基于神经网络机器翻译,这类方法是一个“编码器-解码器”(encoder-decoder)架构的系统,编码器对源语言序列进行编码,并提取信息,然后通过解码器把信息转换为目标语言,完成语言翻译过程。
自2017年问世以来,基于“编码器-解码器”架构设计的Transformer模型凭借其优越的性能,已然成为机器翻译领域的主流模型,在深度学习领域产生了巨大影响。然而,Transformer模型并非完美,模型引入self-attention机制虽实现了快速并行的训练,但在长序列文本的处理问题上,却需要占据大量计算资源,导致模型训练成本提高。
近日,由Google、剑桥大学、DeepMind和艾伦·图灵研究院(Alan Turing Institute)的研究人员组成的团队基于正交随机特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,FAVOR+)机制,提出了一种新的Transformer模型——Performer。
相比于Transformer模型,新模型无需做出过度调整就可以变得更加高效和节能。
Performer模型的技术突破2017年,谷歌大脑(Google Brain)的Ashish Vaswani等人发表了一篇题为“Attention Is All You Need”的论文,首次提出一种基于自注意力机制的Transformer模型。
Transformer模型颠覆了传统神经网络的架构,弥补了卷积神经网络(CNN)和递归神经网络(RNN)存在的不足,在语义特征提取、长距离特征捕获、任务综合特征抽取等自然语言处理方面表现出了更优的性能,在自然语言处理、人机对话、图像处理等许多领域都达到了当时最好的水平(SOTA)。
Transformer架构的核心模块是自注意力模块,模型在处理每个单词(输入序列中的每个位置)时,自注意力模块通过计算输入序列中所有位置对的相似度分数,来寻找能够帮助更好地编码该单词的线索。
然而,随着输入序列长度的增加,模型需要二次方的计算时间来产生所有相似度分数,所需计算内存也随之增加,注意力机制面临的效率问题也越来越突出。
针对那些需要长距离关注的应用,在Transformer基础上已经有一些研究者提出了几种快速的、空间利用率高的改进方法,但是大部分常见方法都依赖于稀疏注意力机制。然而,稀疏注意力机制仍存在一定的局限性。
(1)它们需要高效的稀疏矩阵乘法运算,而这些运算并不是在所有加速器上都能实现的;(2)它们通常不能为其表示能力提供严格的理论保证;(3)它们主要针对Transformer模型和生成式预训练进行优化;(4)它们通常会叠加更多的注意力层来补偿稀疏表示,这使得它们很难与其他预训练模型一起使用,因此需要重新训练并消耗大量能量。此外,稀疏注意机制通常仍然不足以解决常规注意方法应用的全部问题,如指针网络。
还有一些运算不能被稀疏化,如在工业级推荐系统中被大量应用的softmax运算。
Performer使用了一个高效的(线性)广义注意力框架,能够对常规(softmax)全阶注意力进行可证明的、准确的、实用的估计,不依赖于任何稀疏性或低阶等先验条件,从而实现更快的训练速度,同时允许模型处理更长的序列,这一特性恰恰满足了ImageNet64图像数据集和PG-19文本数据集的要求。
Performer模型通过正交随机特征(FAVOR+)算法实现快速注意力机制,并改用Positive Orthogonal Random Features估计softmax和高斯核函数,以实现在FAVOR+机制中对常规softmax注意力进行鲁棒且无偏的估计。研究人员表示:“Performer是第一个通过微调可以与常规Transformers进行完全兼容的线性架构”。
图|原点对称的通用函数r(定义为建立在:三角随机特征和正随机特征上的估计器的均方误差(MSEs)的比值)是输入特征向量与其长度l之间的角度φ(以弧度为单位)的函数,函数的数值越大表示正随机特征性能越好的(φ,l)空间区域(左);当l为定值1时,与变化的角度φ构成的函数r为正切函数,以及比较低softmax内核值区域中两个估算器的MSE(右)。
作者通过比较发现,对于φ足够大的临界区域,该方法所使用的正交随机特征比任意的三角随机特征更精确。图|将原始的经过预训练的Transformer的权重转移到Performer中,Performer产的精度达到0.07(橙色虚线),但在原来的梯度步数的一小部分中,很快就恢复了精度。
然而在PG-19上,三角法(TRIG) softmax逼近变得非常不稳定,而正特征(POS)(不重绘)和Linformer(也是逼近softmax)即使在重绘投影的情况下,也会在同样的复杂度中趋于平稳。具有特征重绘的正softmax是匹配Transformer的必要条件,SMREG可实现更快的收敛。
这篇论文利用详细的数学定理,证明了与其单纯依靠计算资源来提升性能,还不如开发出改进的、高效的Transformer架构,来显著降低能耗。同时,由于Performers使用了与Transformer相同的训练超参数,也可以有效训练基于softmax的线性Transformer。因此FAVOR+机制可以作为一个简单的插件,而无需进行过多的调整。
Performer模型应用前景广泛研究人员表示,Performer模型的提出,显著降低了常规Transformer的空间和时间复杂度,并在Transformer的研究以及非稀疏注意机制的作用方面开辟了新的途径。该论文利用详细的数学定理,证明了与其单纯依靠计算资源来提升性能,还不如开发出改进的、高效的Transformer架构,来显著降低能耗。
同时,由于Performers使用了与Transformer相同的训练超参数,因此FAVOR+机制可以作为一个简单的插件,而无需进行过多的调整。该团队在一系列丰富的场景下测试了Performers的性能,执行的任务包括像素预测、蛋白质序列建模。在实验设置中,一个Performer只用FAVOR+机制取代了常规Transformer的注意力组件。
在使用蛋白质序列训练一个36层模型的挑战性任务上,基于Performer的模型(Performer-RELU)的性能优于基线Transformer模型:Reformer和Linformer,后者的准确率显著下降。在标准的ImageNet64基准上,具有6层的Performer与具有12层的Reformer的准确性相当。优化后,Performer的速度达到了Reformer的两倍。
研究人员表示,由于基于Performer的可扩展Transformer架构可以处理更长的序列,而不受注意力机制结构的限制,同时保持准确和鲁棒性,相信它们可以在生物信息学领域带来新的突破,如蛋白质的语言建模等技术已经显示出强大的潜力。