# 2024 Grattafiori et al.

The Llama 3 Herd of Models

Llama 3 模型家族 Llama Team, AI @ Meta $^1$ $^1$详细贡献者名单可在本文附录中找到。 现代人工智能 (AI) 系统由基础模型驱动。本文介绍了一套新的基础模型,称为 Llama 3。这是一个原生支持多语言、编码、推理和工具使用的语言模型家族。我们最大的模型是一个具有 405B 参数和高达 128K token 上下文窗口的稠密 Transforme...

精粹译文

Llama 3 模型家族

Llama Team, AI @ Meta1^1 1^1详细贡献者名单可在本文附录中找到。

现代人工智能 (AI) 系统由基础模型驱动。本文介绍了一套新的基础模型,称为 Llama 3。这是一个原生支持多语言、编码、推理和工具使用的语言模型家族。我们最大的模型是一个具有 405B 参数和高达 128K token 上下文窗口的稠密 Transformer。本文对 Llama 3 进行了广泛的实证评估。我们发现,Llama 3 在大量任务上提供了与 GPT-4 等领先语言模型相当的质量。我们公开发布了 Llama 3,包括 405B 参数语言模型的预训练和后训练版本,以及用于输入和输出安全的 Llama Guard 3 模型。本文还介绍了通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果。我们观察到,这种方法在图像、视频和语音识别任务上表现出与最先进技术相当的竞争力。由此产生的模型尚未广泛发布,因为它们仍处于开发阶段。

日期: 2024 年 7 月 23 日 网站: https://llama.meta.com/


1 引言

基础模型是为支持各种 AI 任务而设计的语言、视觉、语音和/或其他模态的通用模型。它们构成了许多现代 AI 系统的基础。

现代基础模型的开发包括两个主要阶段:(1) 预训练阶段,在此阶段模型使用诸如“下一个词预测”或“字幕生成”等简单任务在大规模数据集上进行训练;(2) 后训练阶段,在此阶段模型经过微调以遵循指令、与人类偏好对齐,并提高特定能力(例如编码和推理)。

在本文中,我们介绍了一套新的语言基础模型,称为 Llama 3。Llama 3 模型家族原生支持多语言、编码、推理和工具使用。我们最大的模型是一个具有 405B 参数的稠密 Transformer,处理信息时上下文窗口高达 128K token。该家族的每个成员列于表 1 中。本文中呈现的所有结果均针对 Llama 3.1 模型,为简洁起见,全文统称为 Llama 3。

我们认为高质量基础模型的开发有三个关键杠杆:数据、规模和复杂性管理。我们在开发过程中寻求优化这三个杠杆:

  • 数据。与之前版本的 Llama (Touvron et al., 2023a,b) 相比,我们改进了用于预训练和后训练的数据的数量和质量。这些改进包括为预训练数据开发更仔细的预处理和整理流程,以及为后训练数据开发更严格的质量保证和过滤方法。我们在约 15T 多语言 token 的语料库上预训练了 Llama 3,而 Llama 2 为 1.8T token。
  • 规模。我们以远超以往 Llama 模型的规模训练模型:我们的旗舰语言模型使用 3.8×10253.8 \times 10^{25} FLOPs 进行预训练,几乎是 Llama 2 最大版本的 50 倍。具体而言,我们在 15.6T 文本 token 上预训练了一个具有 405B 可训练参数的旗舰模型。正如基础模型缩放定律所预期的那样,我们的旗舰模型优于使用相同流程训练的较小模型。虽然我们的缩放定律表明我们的旗舰模型对于我们的训练预算而言是近似计算最优的尺寸,但我们也对较小的模型进行了比计算最优时间长得多的训练。由此产生的模型在相同的推理预算下表现优于计算最优模型。我们使用旗舰模型在后训练期间进一步提高了这些较小模型的质量。
  • 复杂性管理。我们做出的设计选择旨在最大化我们扩展模型开发流程的能力。例如,我们选择了标准的稠密 Transformer 模型架构 (Vaswani et al., 2017) 并进行了微小的调整,而不是选择专家混合模型 (Shazeer et al., 2017),以最大化训练稳定性。同样,我们采用了一种相对简单的后训练流程,基于监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO; Rafailov et al. (2023)),而不是更复杂的强化学习算法 (Ouyang et al., 2022; Schulman et al., 2017),后者往往不太稳定且更难扩展。

我们的工作成果是 Llama 3:一个包含 8B、70B 和 405B 参数的三个多语言1^1语言模型家族。我们在涵盖广泛语言理解任务的大量基准数据集上评估了 Llama 3 的性能。此外,我们进行了广泛的人类评估,将 Llama 3 与竞争模型进行了比较。旗舰 Llama 3 模型在关键基准测试上的性能概述见表 2。我们的实验评估表明,我们的旗舰模型在各种任务上与 GPT-4 (OpenAI, 2023a) 等领先语言模型表现相当,并接近匹配最先进水平。我们的较小模型是同类产品中的佼佼者,优于具有相似参数数量的替代模型 (Bai et al., 2023; Jiang et al., 2023)。Llama 3 在有用性和无害性之间也比其前身 (Touvron et al., 2023b) 实现了更好的平衡。我们在 5.4 节中对 Llama 3 的安全性进行了详细分析。

我们正在根据更新版本的 Llama 3 社区许可公开发布所有三个 Llama 3 模型;请参阅 https://llama.meta.com。这包括我们 405B 参数语言模型的预训练和后训练版本,以及用于输入和输出安全的新版 Llama Guard 模型 (Inan et al., 2023)。我们希望旗舰模型的开放发布将激发研究界的创新浪潮,并加速通往通用人工智能 (AGI) 开发的负责任道路。

作为 Llama 3 开发过程的一部分,我们还开发了模型的多模态扩展,实现了图像识别、视频识别和语音理解能力。这些模型仍处于积极开发阶段,尚未准备好发布。除了我们的语言建模结果外,本文还介绍了我们使用这些多模态模型进行的初步实验结果。

1^1Llama 3 8B 和 70B 在多语言数据上进行了预训练,但当时旨在用于英语。

FinetunedMultilingualLong contextTool useRelease
Llama 3 8B1^1April 2024
Llama 3 8B InstructApril 2024
Llama 3 70B1^1April 2024
Llama 3 70B InstructApril 2024
Llama 3.1 8BJuly 2024
Llama 3.1 8B InstructJuly 2024
Llama 3.1 70BJuly 2024
Llama 3.1 70B InstructJuly 2024
Llama 3.1 405BJuly 2024
Llama 3.1 405B InstructJuly 2024

表 1 Llama 3 模型家族概述。 本文中的所有结果均针对 Llama 3.1 模型。


(后续内容将按原论文结构继续翻译,保持数学公式和表格格式)

硬核测试

正确率:0 / 5
1

根据文中描述,Llama 3 旗舰模型(405B)的上下文窗口大小是多少?

2

Llama 3 开发过程中提到的三个关键杠杆是什么?

3

Llama 3 在架构选择上做出了什么设计决策以最大化训练稳定性?

4

关于 Llama 3 的多模态功能(图像、视频、语音),目前的发布状态是怎样的?

5

Llama 3 的后训练流程主要基于哪些技术?