模型细节

Meta开发并发布了Llama 2系列的大型语言模型（LLMs），这是一系列预训练和微调的生成文本模型，参数规模从70亿到700亿不等。我们经过微调的LLMs称为Llama-2-Chat，专为对话场景进行了优化。在我们测试的大多数基准测试中，Llama-2-Chat模型表现优于开源的聊天模型，并且在我们的人类评估中在帮助性和安全性方面与一些流行的闭源模型（如ChatGPT和PaLM）相当。

模型开发者 Meta

变体 Llama 2有多种参数大小，包括7B、13B和70B，以及预训练和微调的变体。

输入模型只接受文本输入。

输出模型只生成文本输出。

模型架构 Llama 2是一个自回归语言模型，使用优化的Transformer架构。经过微调的版本使用有监督的精调（SFT）和基于人类反馈的强化学习（RLHF），以符合人们对于帮助性和安全性的偏好。

	训练数据	参数数量	内容长度	GQA	令牌数量	学习率
Llama 2	新组合的公开可得在线数据	7B	4k	✗	2.0T	3.0 x 10^-4
Llama 2	新组合的公开可得在线数据	13B	4k	✗	2.0T	3.0 x 10^-4
Llama 2	新组合的公开可得在线数据	70B	4k	✔	2.0T	1.5 x 10^-4

Llama 2模型系列。 令牌计数仅指预训练数据。所有模型使用全局批量大小为4M个令牌进行训练。70B版本使用Grouped-Query Attention (GQA)以提高推理的可扩展性。

模型训练日期 Llama 2的训练时间为2023年1月至2023年7月。

状态这是一个静态模型，是在离线数据集上训练的。随着社区反馈的改进模型安全性，我们将发布未来版本的微调模型。

许可证 可在以下网址获取定制的商业许可证：https://ai.meta.com/resources/models-and-libraries/llama-downloads/

研究论文 更多信息可以在论文 "Llama-2: Open Foundation and Fine-tuned Chat Models" 中找到，该论文可在https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/获取。

向哪里发送关于模型的问题或评论 提供反馈或评论的说明可以在模型的README中找到。

使用目的

预期使用案例 Llama 2适用于商业和研究用途，适用于英语。微调的模型适用于类似助手的聊天场景，而预训练的模型可以用于各种自然语言生成任务。

不包含在范围内的用途 任何违反适用法律或法规（包括贸易合规法律）的用途。用于非英语语言。用于任何违反Llama 2的可接受使用政策和许可协议的方式。

硬件和软件

训练因素 我们使用自定义训练库、Meta的研究超级计算集群和生产集群进行预训练。微调、标注和评估也在第三方云计算上进行。

碳足迹 预训练使用了总计330万GPU小时的计算，硬件类型为A100-80GB（TDP为350-400W）。估计的总排放量为539 tCO2eq，其中100%由Meta的可持续性计划抵消。

	时间（GPU小时）	功耗（瓦）	排放碳量（tCO₂eq）
Llama 2 7B	184320	400	31.22
Llama 2 13B	368640	400	62.44
Llama 2 70B	1720320	400	291.42
总计	3311616		539.00

预训练期间的二氧化碳排放量。 时间：训练每个模型所需的总GPU时间。功耗：用于使用的GPU设备的峰值功率容量，根据功耗使用效率进行调整。100%的排放量由Meta的可持续性计划直接抵消，由于我们公开发布这些模型，预训练成本不需要由他人承担。

训练数据

概述 Llama 2在公开可得的资源中预训练了2万亿个标记的数据。微调数据包括公开可得的指令数据集，以及超过一百万个新的人工标注示例。预训练数据和微调数据集都不包含Meta用户数据。

数据新鲜度

预训练数据截止至2022年9月，但一些调整数据更为新近，截至2023年7月。

评估结果

在这一部分，我们报告了Llama 1和Llama 2模型在标准学术基准测试中的结果。对于所有评估，我们使用了内部评估库。

模型	大小	代码	常识推理	世界知识	阅读理解	数学	MMLU	BBH	AGI评估
Llama 1	7B	14.1	60.8	46.2	58.5	6.95	35.1	30.3	23.9
Llama 1	13B	18.9	66.1	52.6	62.3	10.9	46.9	37.0	33.9
Llama 1	33B	26.0	70.0	58.4	67.6	21.4	57.8	39.8	41.7
Llama 1	65B	30.7	70.7	60.5	68.6	30.8	63.4	43.5	47.6
Llama 2	7B	16.8	63.9	48.9	61.3	14.6	45.3	32.6	29.3
Llama 2	13B	24.5	66.9	55.4	65.8	28.7	54.8	39.4	39.1
Llama 2	70B	37.5	71.9	63.6	69.4	35.2	68.9	51.2	54.2

在分组学术基准测试中的整体性能。 代码： 我们报告模型在HumanEval和MBPP上的平均pass@1分数。 常识推理： 我们报告PIQA、SIQA、HellaSwag、WinoGrande、ARC（easy和challenge）、OpenBookQA和CommonsenseQA的平均分数。对于CommonSenseQA，我们报告7-shot的结果，对于其他所有基准测试，我们报告0-shot的结果。 世界知识： 我们评估NaturalQuestions和TriviaQA上的5-shot性能，并报告平均分数。 阅读理解： 对于阅读理解，我们报告SQuAD、QuAC和BoolQ上的0-shot平均分数。 数学： 我们报告GSM8K（8 shot）和MATH（4 shot）基准测试的平均分数。

		TruthfulQA	Toxigen
Llama 1	7B	27.42	23.00
Llama 1	13B	41.74	23.08
Llama 1	33B	44.19	22.57
Llama 1	65B	48.71	21.77
Llama 2	7B	33.29	21.25
Llama 2	13B	41.86	26.10
Llama 2	70B	50.18	24.60

预训练LLMs在自动安全性基准测试上的评估。 对于TruthfulQA，我们报告了既真实又信息丰富的生成百分比（百分比越高越好）。对于ToxiGen，我们报告有毒生成的百分比（百分比越小越好）。

		TruthfulQA	Toxigen
Llama-2-Chat	7B	57.04	0.00
Llama-2-Chat	13B	62.18	0.00
Llama-2-Chat	70B	64.14	0.01

微调LLMs在不同安全性数据集上的评估。 与上面的度量标准定义相同。

伦理考虑和限制

Llama 2是一项带有风险的新技术。到目前为止的测试只针对英语进行了，并且没有涵盖所有情况，也无法涵盖所有情况。因此，与所有LLMs一样，Llama 2的潜在输出无法预测，并且在某些情况下，模型可能会对用户提示产生不准确、有偏见或其他令人反感的回答。因此，在部署Llama 2的任何应用之前，开发人员应该对其模型的具体应用进行安全性测试和调整。

请参阅可在https://ai.meta.com/llama/responsible-use-guide/找到的负责任使用指南。