全⾯了解⼤语⾔模型，这有⼀份阅读清单

了解当代⼤型语⾔模型背后的设计、约束和演变，你可以遵循本⽂的阅读清单。

⼤型语⾔模型已经引起了公众的注意，短短五年内，Transforme等模型⼏乎完全改变了⾃然语⾔处理领域。此外，它们还开始在计算机视觉和计算⽣物学等领域引发⾰命。

鉴于Transformers对每个⼈的研究进程都有如此⼤的影响，本⽂将为⼤家介绍⼀个简短的阅读清单，供机器学习研究⼈员和从业者⼊⻔使⽤。

下⾯的列表主要是按时间顺序展开的，主要是⼀些学术研究论⽂。当然，还有许多其他有⽤的资源。

例如：Jay Alammar撰写的《The Illustrated Transformer》，Lilian Weng撰写的《The Transformer Family》，Xavier Amatriain撰写的《Transformer models: an introduction and catalog — 2023 Edition》，Andrej Karpathy写的nanoGPT库。

对主要架构和任务的理解：如果你是Transformers、⼤型语⾔模型新⼿，那么这⼏篇⽂章最适合你。

论⽂1：《Neural Machine Translation by Jointly Learning to Align and Translate》。本⽂引⼊了⼀种循环神经⽹络（RNN）注意⼒机制，提⾼了模型远程序列建模能⼒。这使得RNN能够更准确地翻译较⻓的句⼦——这也是后来开发原始Transformer架构的动机。

论⽂2：《Attention Is All You Need》。本⽂介绍了由编码器和解码器组成的原始Transformer架构，这些部分将在以后作为单独模块进⾏相关介绍。此外，本⽂还介绍了缩放点积注意⼒机制、多头注意⼒块和位置输⼊编码等概念，这些概念仍然是现代Transformer的基础。

论⽂3：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。⼤型语⾔模型研究遵循最初的Transformer架构，然后开始向两个⽅向延伸：⽤于预测建模任务（如⽂本分类）的Transformer和⽤于⽣成建模任务（如翻译、摘要和其他形式的⽂本创建）的Transformer。

BERT论⽂介绍了掩码语⾔建模原始概念，如果你对这个研究分⽀感兴趣，那么可以跟进RoBERTa，其简化了预训练⽬标。

论⽂4：《Improving Language Understanding by Generative Pre-Training》。最初的GPT论⽂介绍了流⾏的解码器⻛格的架构和通过下⼀个单词预测进⾏预训练。

BERT由于其掩码语⾔模型预训练⽬标，可以被认为是⼀个双向Transformer，⽽GPT是⼀个单向⾃回归模型。虽然GPT嵌⼊也可以⽤于分类，但GPT⽅法是当今最有影响⼒的LLMs（如ChatGPT）的核⼼。

论⽂5：《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》。如上所述，BERT型编码器⻛格的LLM通常是预测建模任务的⾸选，⽽GPT型解码器⻛格的LLM更擅⻓⽣成⽂本。

为了两全其美，上⾯的BART论⽂结合了编码器和解码器部分。

扩展定律与效率提升：如果你想了解更多关于提⾼Transformer效率的技术，可以参考以下论⽂。

对⻬——将⼤型语⾔模型朝着预期的⽬标和兴趣引导：近年来出现了许多相对强⼤的⼤型语⾔模型，它们可以⽣成真实的⽂本（例如GPT-3和Chinchilla）。就常⽤的预训练范式⽽⾔，⽬前似乎已经达到了⼀个上限。为了使语⾔模型更能帮助到⼈类，减少错误信息和不良语⾔，研究⼈员设计了额外的训练范式来微调预训练的基础模型，包括如下论⽂。

总结：本⽂对上⽅表单的排列尽量保持简洁美观，建议重点关注前10篇论⽂，以了解当代⼤型语⾔模型背后的设计、局限和演变。如果想深⼊阅读，建议参考上述论⽂中的参考⽂献。或者，这⾥有⼀些额外的资源，供读者进⼀步研究。