全球最强开源大模型Llama 3发布

作者: 学术头条

来源: 学术头条

发布日期: 2024-04-19 01:49:17

Meta发布了其最先进开源大型语言模型的下一代产品Llama 3,该模型在24K GPU集群上训练,使用15T数据,提供了8B和70B的预训练和指令微调版本,支持广泛应用,并在多项标准测试基准上表现优异。

就在刚刚,Meta发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3在24K GPU集群上训练,使用了15T的数据,提供了8B和70B的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3在广泛的行业基准测试中达到了SOTA,并提供了新的功能,如改进的推理能力。

得益于预训练和后训练的改进,Meta的预训练和指令微调模型是目前8B和70B参数尺度下最好的模型。他们表示,后期训练程序的改进大大降低了Llama 3的错误拒绝率,提高了对齐度,并增加了模型响应的多样性。他们还发现,推理、代码生成和指令跟随等能力也有了很大提高,这使得Llama 3的可操控性更强。

与Gemma 7B、Mistral 7B Instruct、Gemini Pro 1.5和Claude 3等先进模型相比,Llama 3在多项标准测试基准上有着更好的表现。此外,Meta也测试了Llama 3在真实世界场景中的性能。他们专门开发了一个新的高质量人类评估集,该评估集包含1800个提示,涵盖12种关键用例。

在与Claude Sonnet、Mistral Medium和GPT-3.5的对比中,Llama 3同样有着更好的表现。Llama 3的预训练模型还为这类规模的LLM模型建立了新的SOTA。Llama 3采用了相对标准的纯解码器transformer架构。与Llama 2相比,Llama 3得到了几项关键改进。

Llama 3使用了一个128K token的tokenizer,它能更有效地编码语言,从而大幅提高模型性能。为了提高Llama 3模型的推理效率,Meta在8B和70B大小的模型中都采用了分组查询关注。他们在8192个token的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。Meta表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。

据介绍,Llama 3在超过15T的token上进行了预训练,训练数据集是Llama 2的七倍,包含的代码数量也是Llama 2的四倍。为了确保Llama 3在最高质量的数据上进行训练,Meta开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

他们发现,前几代Llama在识别高质量数据方面的表现令人惊讶,因此使用Llama 2为文本质量分类器生成训练数据。此外,为评估在最终预训练数据集中混合不同来源数据的最佳方法,他们还进行了大量实验,使得他们能够选择一种数据组合,确保Llama 3在各种使用情况下都能表现出色。

为了在Llama 3模型中有效利用预训练数据,Meta为下游基准评估制定了一系列详细的scaling laws,这些scaling laws使他们能够选择最佳的数据组合,并就如何更好地使用训练计算做出最佳决定。在开发Llama 3的过程中,他们对scaling行为进行了一些新的观察。

例如,虽然8B参数模型的Chinchilla最佳训练计算量相当于~200B token,但他们发现,即使模型在多两个数量级的数据上进行训练后,其性能仍在不断提高。Llama 3 8B和70B参数模型在经过多达15T token的训练后,其性能仍呈对数线性增长。为了训练最大的Llama 3模型,Meta结合了三种并行化方式:数据并行化、模型并行化和管道并行化。

当同时在16K GPU上进行训练时,他们最高效的实现实现了每GPU超过400 TFLOPS的计算利用率。他们在两个定制的24K GPU集群上进行了训练运行。为了最大限度地延长GPU的正常运行时间,他们开发了一种新的训练堆栈,可以自动检测、处理和维护错误。他们还大大改进了硬件可靠性和无声数据损坏检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。

这些改进使总体有效训练时间缩短了95%以上,与Llama 2相比,将Llama 3的训练效率提高了约三倍。为了在聊天用例中充分释放预训练模型的潜力,Meta还对指令微调方法进行了创新。他们的后期训练方法结合了监督微调、拒绝采样、近似策略优化和直接策略优化。在SFT中使用的提示以及在PPO和DPO中使用的偏好排序的质量,对排列模型的性能有着极大的影响。

另外,通过PPO和DPO学习偏好排名也大大提高了Llama 3在推理和编码任务中的性能。他们发现,如果向模型提出一个它难以回答的推理问题,模型有时会生成正确的推理轨迹:模型知道如何得出正确答案,但不知道如何选择答案。对偏好排序的训练能让模型学会如何选择答案。

Meta官方表示,Llama 3 8B和70B模型只是Llama 3系列模型的一部分,他们后续还将推出更多版本,包括模型参数超过400B的Llama 3版本(目前仍在训练中)。Meta官方表示,在接下来的几个月中,他们预计将推出新功能(如多模态)、更长的上下文窗口、更多不同大小版本的模型和更强的性能,以及Llama 3研究论文。

另外,Llama 3模型将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、Dell、Intel、NVIDIA和Qualcomm硬件平台的支持。此外,基于Llama 3,Meta也发布了他们的全新AI助手Meta AI。

Meta表示,“得益于我们在Llama 3上取得的最新进展,Meta AI比以往任何时候都更智能、更快速、更有趣。”

UUID: eff5cffd-1f74-41cf-9a4b-84969c35449a

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-04-19_刚刚,全球最强开源大模型 Llama 3 发布:使用 15T 数据预训练,最大模型参数将超 4000 亿.txt

是否为广告: 否

处理费用: 0.0057 元