ICLR 2020 | reformer
高效处理长序列,单机能跑,计算资源贫困人士的福音
刘杰鹏
学术头条
2020-05-11
背景机构:Google Research、U.C. Berkeley作者:Nikita Kitaev、Łukasz Kaiser、Anselm Levskaya论文地址:https://www.aminer.cn/pub/5e5e189993d709897ce1ddbc收录会议:ICLR2020论文代码:https://github.com/google/trax/tree/master/trax//models//reformer摘要基于 Transformer的各种巨型模型在各种自然语言处理任务中常常能够取得最优结果。
但这些模型的训练成本往往过高。在针对长序列文本上尤甚。
为此本文提出两种技术以改善基于Transformer的这类模型名为 Reformer第一使用局部敏感hash替换原始点乘方式attention从而将其空间复杂度从O(L^降低到O(Llog L其中表示文本序长度第二使用逆残差层代替标准残差这使得训练过程中只需存储一次激活值而无需N次其中N表示网络层数最终结果表明Reformer性能与Transformer相当同时在长序列上具有更高内存效率和更快速度介绍那训练Transformer模型是否真需要很多资源且很低效?
以现有最大Transformers为例该Transformers参数量是B这需要GB内存对于由Ktokens组成序如果嵌入尺寸是batch size那么激活值需要个浮点数来存储又需GB内如果每层只上述提到些话那么在加速器上单机用Tranformr理K长度也是轻而易举此外如此前提下训BERT整语料库也只需G内然而现实并非此真实环境下为何甚至不能台机器对些微调呢?
这是因为上述仅仅考虑单参数占用输入消耗忽略Transormr主要问题一要存反向传播二中间全连接通常远大于注意力三为LLseqenceattntion时间和空复杂度OL那么对于KTokens就会耗尽内为此本文提Refomer解决具体方案可逆前馈采用基局敏哈希近似让因子变使成为可能实验结显示相等快更总结Refoem将建能力结合即使大时也较小这将有助于广可用外处非常连贯文除生成非常连贯文外可以把能力应用其他领域如时间预音乐像等作者刘杰鹏毕业院校华中科技大学研究方向机器阅读理解文本生近期精彩集锦公众号对话框回复“科技趋势”获取完整版PDF!
点击查看更多精!