摘要

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

1. 论文基本信息

1.1. 标题

神经语言模型的缩放定律 (Scaling Laws for Neural Language Models)

1.2. 作者

Jared Kaplan (约翰霍普金斯大学, OpenAI)
Sam McCandlish (OpenAI)
Tom Henighan (OpenAI)
Tom B. Brown (OpenAI)
Benjamin Chess (OpenAI)
Rewon Child (OpenAI)
Scott Gray (OpenAI)
Alec Radford (OpenAI)
Jeffrey Wu (OpenAI)
Dario Amodei (OpenAI)

1.3. 发表期刊/会议

该论文作为预印本 (pre-print) 发布于 arXiv。

发布状态：预印本
发布日期 (UTC)：2020-01-23T03:59:20.000Z

1.4. 发表年份

2020年

1.5. 摘要

本文研究了交叉熵损失 (cross-entropy loss) 下语言模型性能的经验缩放定律 (empirical scaling laws)。结果表明，模型的损失 (loss) 与模型规模 (model size)、数据集规模 (dataset size) 和训练所使用的计算量 (compute) 呈幂律 (power-law) 关系，有些趋势跨越了超过七个数量级。其他架构细节，如网络宽度 (width) 或深度 (depth)，在较宽泛的范围内影响微乎其微。简单的方程可以描述过拟合 (overfitting) 对模型/数据集规模的依赖性，以及训练速度 (training speed) 对模型规模的依赖性。这些关系使得我们能够确定固定计算预算 (compute budget) 的最优分配。更大的模型在样本效率 (sample-efficient) 方面显著更高，因此计算效率最优的训练涉及在相对适度的数据量上训练非常大的模型，并在模型完全收敛 (convergence) 之前停止训练。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2001.08361v1
PDF 链接: https://arxiv.org/pdf/2001.08361v1.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 深度学习在语言建模 (language modeling) 领域取得了快速进展，但对于语言模型性能与其关键因素（如模型规模、数据集规模和训练计算量）之间的定量关系，尤其是长期、大尺度下的关系，缺乏系统的经验性理解。研究人员通常凭直觉或试错来决定如何分配资源（例如，是增加模型参数还是增加训练数据），这种方式效率低下。因此，论文旨在通过大规模实证研究，揭示这些因素与模型性能之间是否存在可预测的、普适的缩放定律 (scaling laws)。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？ 理解缩放定律对于指导未来大规模语言模型的设计、训练和资源分配至关重要。当时，语言模型正变得越来越大，计算成本也越来越高，盲目地扩大规模可能导致资源浪费。现有研究通常关注特定模型或数据集，缺乏对横跨多个数量级变化的普遍规律的探索。特别是在模型规模、数据集规模和训练计算量这三个核心维度上，它们如何协同影响模型性能，以及如何最优地分配计算预算，这些都是未充分解答的问题。

这篇论文的切入点或创新思路是什么？ 本文的创新思路在于：

大规模实证研究： 通过训练大量不同规模（从 $10^3$ 到 $10^9$ 参数）、不同数据集大小、不同计算量的Transformer模型，系统性地收集性能数据。
关注交叉熵损失的幂律关系： 将模型在交叉熵损失上的表现作为核心指标，并探索其与关键因素之间的幂律缩放关系。这种关系在其他领域（如物理学）中常用于描述复杂系统的行为。
弱依赖于架构细节： 发现模型性能对网络宽度、深度等架构超参数的依赖较弱，而强依赖于总规模，这简化了研究焦点。
最优计算分配： 基于发现的缩放定律，推导出在固定计算预算下，如何最优地分配资源（模型大小、数据量、训练步数）以达到最佳性能的指导原则。

2.2. 核心贡献/主要发现

论文最主要的贡献是系统性地揭示了神经语言模型性能的普适经验缩放定律，并提供了优化资源分配的指导。具体关键发现包括：

性能与规模呈幂律关系： 语言模型的交叉熵损失与模型非嵌入层参数量 $N$ 、数据集词元数 $D$ 和训练计算量 $C$ 呈幂律下降关系。这些趋势在某些情况下跨越了超过七个数量级 (如图1)，表明性能随规模的增加而平滑且可预测地提升。
模型形状的弱影响： 在总参数量 $N$ 固定时，模型性能对网络深度、宽度、注意力头数等架构细节的依赖非常弱。这意味着只要总参数量足够，具体的模型“形状”并不那么重要。
过拟合的普适性与次线性数据需求： 模型的过拟合行为是可预测的，损失 L(N, D) 与 $N$ 和 $D$ 的函数关系可用一个统一的公式描述。为了避免过拟合，数据集规模 $D$ 可以次线性地随模型规模 $N$ 增长 ( $D \propto N^{0.74}$ )，即模型每增大8倍，数据仅需增大5倍。
训练曲线的普适性： 训练曲线也遵循可预测的幂律，其参数大致独立于模型大小。通过早期训练曲线即可大致预测长期损失。
大模型具有更高样本效率： 更大的模型达到相同性能水平所需的优化步骤更少，处理的数据点也更少，即具有更高的样本效率。
计算效率最优的训练策略： 在固定计算预算下，实现最优性能的策略是训练非常大的模型，使用相对适度的数据量，并在模型完全收敛之前停止训练。这意味着计算量应主要用于增加模型大小，而不是大幅增加训练步数或数据集大小。
临界批次大小 (Critical Batch Size) 的幂律： 最优批次大小与损失呈幂律关系，且与模型大小无关。

这些发现为语言模型的研究和开发提供了强大的经验性基础，使得研究人员可以更有效地规划计算资源，并预测更大规模模型的性能。

3. 预备知识与相关工作

本部分旨在为读者铺垫理解论文所需的前置知识。

3.1. 基础概念

为了理解这篇论文，读者需要了解以下核心概念：

语言模型 (Language Model - LM)：
- 概念定义： 语言模型是一种统计模型，用于预测给定一个词序列后，下一个词出现的概率。它通过学习大量文本数据中的模式来捕捉语言的结构和语义。
- 在本文中的应用： 本文研究的语言模型旨在对文本进行自回归建模 (autoregressive modeling)，即根据前面的词预测当前的词。
交叉熵损失 (Cross-Entropy Loss)：
- 概念定义： 交叉熵损失是衡量两个概率分布之间差异的指标。在分类任务或语言模型中，它量化了模型预测的概率分布与真实目标分布（通常是独热 (one-hot) 编码的真实标签或词元）之间的“距离”。损失值越小，表示模型的预测越接近真实情况。
- 在本文中的应用： 本文将交叉熵损失作为主要性能指标，它直接反映了模型预测下一个词元的准确性。
- 数学公式： 对于一个批次中的 $M$ 个词元，平均交叉熵损失 $L$ 可以表示为： $L = -\frac{1}{M} \sum_{i=1}^{M} \log P(token_i | token_{<i})$
- 符号解释：
  - $L$ : 平均交叉熵损失 (nats)。
  - $M$ : 批次中的词元总数。
  - $token_i$ : 第 $i$ 个真实词元。
  - $token_{<i}$ : 第 $i$ 个词元之前的上下文词元序列。
  - $P(token_i | token_{<i})$ : 模型在给定上下文 $token_{<i}$ 下，预测真实词元 $token_i$ 出现的概率。
Transformer 架构 (Transformer Architecture)：
- 概念定义： Transformer是一种基于自注意力 (self-attention) 机制的深度学习架构，由Vaswani等人于2017年提出，彻底改变了自然语言处理 (NLP) 领域。它摒弃了传统的循环神经网络 (RNN) 和卷积神经网络 (CNN) 结构，能够更有效地并行处理序列数据，尤其擅长处理长距离依赖关系。
- 核心组件：
  - 自注意力机制 (Self-Attention Mechanism)： 允许模型在处理序列中的某个词元时，同时考虑到序列中所有其他词元的重要性，并根据其相关性进行加权。这是Transformer捕捉长距离依赖的关键。其核心思想是通过查询 (Query)、键 (Key) 和值 (Value) 向量的交互来计算注意力权重。
  - 多头注意力 (Multi-Head Attention)： 将自注意力机制并行地执行多次，每个“头”学习不同的注意力表示，然后将它们拼接 (concatenate) 起来，增强模型的表示能力。
  - 前馈网络 (Feed-Forward Network)： 每个注意力层后都跟随一个简单的全连接前馈网络，独立地作用于序列中的每个位置。
  - 残差连接 (Residual Connections) 和层归一化 (Layer Normalization)： 帮助梯度在深层网络中有效传播，并加速训练。
- 在本文中的应用： 本文主要研究的是解码器-only (decoder-only) 的Transformer模型，这是许多生成式语言模型（如 GPT 系列）的基础。
模型规模 (Model Size - $N$ )：
- 概念定义： 指模型中可学习参数的数量。参数越多，模型通常具有越大的容量 (capacity)，能够学习更复杂的模式。
- 在本文中的应用： 本文特别强调“非嵌入层参数”的数量 $N$ ，发现这比包含嵌入层参数的“总参数量”能产生更清晰的缩放定律。
数据集规模 (Dataset Size - $D$ )：
- 概念定义： 指用于训练模型的文本数据总量，通常以词元 (token) 的数量来衡量。
- 在本文中的应用： 本文研究了 $D$ 从数千万到数百亿词元范围内的影响。
计算量 (Compute - $C$ )：
- 概念定义： 指训练模型所需的浮点运算 (floating-point operations - FLOPs) 总量。
- 在本文中的应用： 本文通常以“PF-days”作为单位，其中一个 PF-day 等于 $10^{15} \times 24 \times 3600 = 8.64 \times 10^{19}$ 次浮点运算。
幂律 (Power Law)：
- 概念定义： 描述了一个变量与另一个变量的幂次关系，形式为 $y = ax^b$ ，其中 $a$ 是比例常数， $b$ 是指数。在对数坐标轴上，幂律关系表现为一条直线。
- 在本文中的应用： 论文发现语言模型损失与 N, D, C 之间存在精确的幂律关系。
过拟合 (Overfitting)：
- 概念定义： 当模型在训练数据上表现非常好，但在未见过的新数据（测试数据）上表现显著变差时，就发生了过拟合。这意味着模型学习到了训练数据中的噪声和特定模式，而不是普适的规律。
样本效率 (Sample Efficiency)：
- 概念定义： 衡量模型在达到特定性能水平时，需要多少训练样本或训练步数。样本效率越高，说明模型学习速度越快，或能从更少的数据中提取更多信息。
Adam 优化器 (Adam Optimizer)：
- 概念定义： 一种常用的自适应学习率优化算法，结合了 AdaGrad 和 RMSProp 的优点。它通过计算梯度的一阶矩估计（均值）和二阶矩估计（未中心化的方差）来自适应地调整每个参数的学习率，从而在实践中表现出良好的收敛性能。
字节对编码 (Byte-Pair Encoding - BPE)：
- 概念定义： 一种常用的词元化 (tokenization) 算法，用于将文本拆分成子词单元 (subword units)。它通过迭代地查找文本中最常出现的字节对并将其替换为新的、未使用的符号来构建词表。这样可以有效地处理生词 (out-of-vocabulary words)，并平衡词表大小和序列长度。

3.2. 前人工作

论文引用了多项前人工作，这些工作为本文的研究奠定了基础或提供了对比：

早期的语言模型和Transformer架构：
- [RNSS18] (GPT-1), [DCLT18] (BERT), $[YDY+19]$ (XLNet), $[LOG+19]$ (RoBERTa), $[RSR+19]$ (T5)：这些是当时（2019-2020年）最先进的语言模型，展示了深度学习在语言建模上的快速进展，有的甚至接近人类水平性能。它们都是本文研究的背景和对象，特别是Transformer架构的成功是本文能够进行大规模实验的基础。
- $[RWC+19]$ (GPT-2)：这是OpenAI自己的工作，本文使用的 WebText2 数据集就是 WebText 的扩展版本，并且模型训练方法也与GPT-2有相似之处。它展示了生成连贯多段文本的能力。
- $[VSP+17]$ (Attention Is All You Need)：Transformer架构的开山之作，是本文所有模型的基础。Transformer架构的提出使得并行化训练成为可能，从而能够训练更大规模的模型。
关于批次大小和训练效率：
- [MKAT18] (An empirical model of large-batch training)：这篇工作提出了批次大小对训练影响的经验模型，引入了“临界批次大小 (critical batch size)”的概念。本文沿用了这一思想，并将其应用于语言模型训练，以调整计算量和训练步数。
- $[SLA+18]$ 和 $[ZLN+19]$ ：也探讨了数据并行 (data parallelism) 对神经网络训练的影响，与 [MKAT18] 有关联。
关于模型规模和数据规模的缩放：
- [BB01] 和 [Goo01]：早期的工作已经发现性能与数据集规模之间存在幂律缩放关系。
- $[HNA+17]$ 和 [HAD19]：这些工作也研究了模型规模和数据规模之间的缩放关系，并且与本文的研究最为接近。然而，本文指出 $[HNA+17]$ 发现的是数据集规模随模型规模超线性 (super-linear) 缩放，而本文发现的是次线性 (sub-linear) 缩放（即 $D \propto N^{0.74}$ ），这是一个重要的差异。
- [RRBS19b]：在本文发表前后，也有其他工作开始研究多种数据集的规模缩放，并使用了与本文相似的假设。
关于模型架构和泛化：
- [TL19] (EfficientNet)：在图像模型中倡导通过指数缩放深度和宽度来实现最优性能，也暗示了模型规模与性能的幂律关系。本文则发现语言模型中，具体的宽度/深度比例不如总规模重要。
- [VWB16] (Residual networks behave like ensembles of relatively shallow networks)：提出深度网络可以看作是浅层网络的集成，这可能解释了为什么本文发现语言模型性能对模型形状依赖性较弱。
- [AS17] 和 [BHMM18]：研究了高度过参数化 (overparameterized) 模型中的泛化 (generalization) 问题，提到了“阻塞相变 (jamming transition)”现象。本文则未观察到这种现象，并发现训练数据可以次线性缩放。

如果先前工作中包含对理解本文至关重要的核心公式，即使本文未复述，也应主动补充并加以解释，以扫清读者的理解障碍。

一个对理解本文Transformer部分至关重要的核心公式是自注意力机制的计算公式：

自注意力机制 (Self-Attention Mechanism) 的核心计算： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- 符号解释：
  - $Q$ (Query)：查询矩阵，由输入序列中的每个词元的查询向量组成。
  - $K$ (Key)：键矩阵，由输入序列中的每个词元的键向量组成。
  - $V$ (Value)：值矩阵，由输入序列中的每个词元的值向量组成。
  - $QK^T$ : 查询与键的点积，表示查询和键之间的相似度。
  - $\sqrt{d_k}$ : 缩放因子，其中 $d_k$ 是键向量的维度。用于防止点积结果过大，导致 softmax 函数的梯度过小。
  - $\mathrm{softmax}(\cdot)$ : 归一化函数，将点积结果转换为注意力权重，使它们的和为1。
  - $V$ : 值矩阵，注意力权重会乘以值矩阵，从而加权聚合所有词元的信息。

3.3. 技术演进

语言模型领域的技术演进经历了从早期基于统计（如 N-gram 模型）到浅层神经网络（如前馈神经网络、循环神经网络）再到基于深度学习（特别是 Transformer 架构）的巨大飞跃。

统计语言模型 (Statistical LMs)： 早期主要是 N-gram 模型，通过统计词语序列出现的频率来预测下一个词。简单但难以捕捉长距离依赖。
循环神经网络 (RNNs) 和长短期记忆网络 (LSTMs)： 引入了循环结构，使模型能够处理序列信息并捕捉一定程度的上下文依赖。LSTMs 解决了 RNN 的梯度消失问题，成为序列建模的主流。本文也将LSTM作为对比基线。
注意力机制 (Attention Mechanism)： 在RNN-Encoder-Decoder模型中引入，允许解码器在生成每个输出词时，能够“关注”编码器输出序列中相关的部分。这是 Transformer 架构的灵感来源。
Transformer 架构 (2017)： 彻底颠覆了序列建模范式，完全依赖自注意力机制，实现了并行化计算和更长距离的依赖捕捉能力。这一突破使得训练更大、更深的模型成为可能。
预训练语言模型 (Pre-trained LMs)： 随着 Transformer 的成功，BERT、GPT 等大规模预训练模型出现，它们在海量无标注文本上进行预训练，学习通用的语言表示，然后在特定任务上进行微调 (fine-tuning)，取得了革命性进展。本文研究的模型就是这一范式下的产物。

本文的工作正处于这一技术脉络的顶端，它不是提出新的模型架构，而是系统性地研究和量化了当前主流的 Transformer 架构在持续扩大规模时的性能表现规律，为未来超大规模模型的研发提供了经验法则。

3.4. 差异化分析

本文的工作与相关工作的核心区别和创新点在于：

研究的系统性和规模： 尽管前人（如 $[HNA+17]$ ）也研究了缩放关系，但本文进行了更为系统和大规模的实证研究，涵盖了模型参数、数据集大小和计算量三个维度的多个数量级（有些趋势跨越七个数量级），从而揭示了更普适、更精确的幂律缩放定律。
次线性数据缩放的发现： 一个重要的差异是， $[HNA+17]$ 发现数据集规模随模型规模超线性增长，而本文发现的是次线性 (sub-linear) 增长（即 $D \propto N^{0.74}$ ），这大大降低了训练大模型所需的数据量，对资源分配具有根本性影响。
强调非嵌入层参数： 本文发现，将模型规模定义为“非嵌入层参数”的数量 $N$ 比包含所有参数（包括嵌入层）能得到更清晰、更准确的缩放定律。
计算预算的最优分配策略： 本文不仅描述了缩放定律，更进一步利用这些定律推导出了在固定计算预算下，如何最优地分配资源（主要增加模型规模，适度增加数据，并在收敛前停止训练）以最大化性能的实用指导原则。这为实际研发提供了明确的路线图。
模型形状的弱依赖： 强调了模型性能对具体架构超参数（如深度、宽度比例）的依赖很弱，这与 EfficientNet 等在图像领域中强调特定形状缩放的工作形成对比。

4. 方法论

4.1. 方法原理

本文的核心思想是通过大规模的受控实验，系统性地探索神经语言模型在交叉熵损失 (cross-entropy loss) 上的性能与三个关键因素——模型非嵌入层参数量 $N$ 、数据集词元数 $D$ 以及训练计算量 $C$ ——之间的经验性定量关系。其背后的直觉是，在足够大的尺度上，复杂系统往往会展现出简洁的普适规律，这些规律可以通过幂律 (power-law) 形式来描述。通过精确拟合这些幂律，可以预测模型性能，并指导在有限资源下如何进行最优的资源分配。

论文不追求提出新的模型架构或优化算法，而是专注于理解现有架构（特别是 Transformer）在不同规模下的行为。这种方法论类似于科学中的“实验物理学”，即通过系统实验发现现象规律，而非从第一性原理出发推导。

4.2. 核心方法详解

4.2.1. 实验设计与模型参数化

本文通过训练大量的解码器-only (decoder-only) Transformer 模型来收集数据。

模型架构： 主要采用 Transformer 架构 $[VSP+17]$ ，是主流的生成式语言模型的基础。
训练目标： 优化自回归对数似然 (autoregressive log-likelihood)，即交叉熵损失，并在1024词元 (token) 的上下文 (context) 上进行平均。
关键变量：
- 模型大小 ( $N$ )： 定义为非嵌入层参数的数量。论文发现，排除词汇和位置嵌入层 (vocabulary and positional embeddings) 的参数后，缩放定律会更清晰。
  - Transformer 架构的非嵌入层参数 $N$ 近似计算公式如下： $N \approx 2 d_{\mathrm{model}} n_{\mathrm{layer}} (2 d_{\mathrm{attn}} + d_{\mathrm{ff}})$ 当采用标准配置 $d_{\mathrm{attn}} = d_{\mathrm{ff}} / 4 = d_{\mathrm{model}}$ 时，简化为： $N = 12 n_{\mathrm{layer}} d_{\mathrm{model}}^2$
  - 符号解释：
    - $N$ : 非嵌入层参数数量。
    - $d_{\mathrm{model}}$ : 残差流 (residual stream) 的维度，即模型宽度。
    - $n_{\mathrm{layer}}$ : Transformer 层的数量，即模型深度。
    - $d_{\mathrm{attn}}$ : 注意力输出的维度。
    - $d_{\mathrm{ff}}$ : 中间前馈层 (intermediate feed-forward layer) 的维度。
  - 注意： 论文排除了偏置项 (biases) 和其他次要项 (sub-leading terms)。
- 数据集大小 ( $D$ )： 以训练数据中的词元总数来衡量。
- 训练计算量 ( $C$ )： 训练过程中执行的浮点运算 (FLOPs) 总数。
  - 前向传播 (forward pass) 的计算量 $C_{\mathrm{forward}}$ 近似为： $C_{\mathrm{forward}} \approx 2N + 2n_{\mathrm{layer}} n_{\mathrm{ctx}} d_{\mathrm{model}}$ 其中 $n_{\mathrm{ctx}}$ 是输入上下文的词元数量。
  - 考虑到模型主要关注 $d_{\mathrm{model}} \gg n_{\mathrm{ctx}}/12$ 的情况，上下文相关的计算成本相对较小。
  - 估计总训练计算量 $C$ 约为前向传播计算量的 3 倍（因为反向传播 (backward pass) 大致是前向传播的两倍），即： $C \approx 6NBS$
  - 符号解释：
    - $C$ : 估计的总非嵌入层训练计算量。
    - $N$ : 非嵌入层参数数量。
    - $B$ : 批次大小 (batch size)，即每个训练步 (training step) 处理的词元数量。
    - $S$ : 训练步数 (number of training steps)，即参数更新的次数。
  - 单位： 计算量以 PF-days 衡量，其中 1 PF-day $= 10^{15} \times 24 \times 3600 = 8.64 \times 10^{19}$ 次浮点运算。
模型形状与超参数： 变动包括层数 ( $n_{\mathrm{layer}}$ )、维度 ( $d_{\mathrm{model}}$ )、前馈维度 ( $d_{\mathrm{ff}}$ ) 和注意力头数 ( $n_{\mathrm{heads}}$ ) 等，以测试其对性能的独立影响。

4.2.2. 基本幂律缩放关系 (Basic Power Laws)

论文通过大量实验，观察到损失 $L$ 与 $N, D, C_{\mathrm{min}}$ 之间存在以下幂律关系。这些关系在其他因素不受限制时（即不构成瓶颈时）成立。

损失与模型参数 $N$ 的关系： 对于参数数量有限、在足够大的数据集上训练至收敛的模型： $L(N) = (N_c / N)^{\alpha_N}$
- 符号解释：
  - L(N): 损失作为参数数量 $N$ 的函数。
  - $N_c$ : 比例常数 (scaling constant)，与词汇表大小和词元化 (tokenization) 有关，没有基本物理意义。
  - $\alpha_N$ : 幂律指数，约 0.076。
- 含义： 随着模型参数数量 $N$ 的增加，损失 $L$ 以幂律形式下降。
损失与数据集大小 $D$ 的关系： 对于使用有限数据集、并进行早停 (early stopping) 训练的大模型： $L(D) = (D_c / D)^{\alpha_D}$
- 符号解释：
  - L(D): 损失作为数据集大小 $D$ 的函数。
  - $D_c$ : 比例常数，约 $5.4 \times 10^{13}$ 词元。
  - $\alpha_D$ : 幂律指数，约 0.095。
- 含义： 随着数据集大小 $D$ 的增加，损失 $L$ 以幂律形式下降。
损失与计算量 $C_{\mathrm{min}}$ 的关系 (优化分配)： 在有限计算量下，使用足够大数据集、最优模型大小和足够小批次大小（即最优利用计算资源）进行训练时： $L(C_{\mathrm{min}}) = (C_c^{\mathrm{min}} / C_{\mathrm{min}})^{\alpha_C^{\mathrm{min}}}$
- 符号解释：
  - $L(C_{\mathrm{min}})$ : 损失作为最优分配计算量 $C_{\mathrm{min}}$ 的函数。
  - $C_c^{\mathrm{min}}$ : 比例常数，约 $3.1 \times 10^8$ PF-days。
  - $\alpha_C^{\mathrm{min}}$ : 幂律指数，约 0.050。
- 含义： 随着最优分配计算量 $C_{\mathrm{min}}$ 的增加，损失 $L$ 以幂律形式下降。

4.2.3. 过拟合模型与数据限制

为了描述模型在同时受模型大小 $N$ 和数据集大小 $D$ 限制时的性能，论文提出了一个统一的公式 (1.5)： $L(N, D) = \left[ \left( \frac{N_c}{N} \right)^{\frac{\alpha_N}{\alpha_D}} + \frac{D_c}{D} \right]^{\alpha_D}$

符号解释：
- L(N, D): 损失作为模型参数 $N$ 和数据集大小 $D$ 的函数。
- $N_c, D_c, \alpha_N, \alpha_D$ : 来自上述独立缩放定律的参数。
构建原则：
1. 词汇表和词元化无关性： 允许 $N_c, D_c$ 随词汇表或词元化方法而重新缩放。
2. 极限行为： 当 $D \to \infty$ 时， $L(N, D) \to L(N)$ ；当 $N \to \infty$ 时， $L(N, D) \to L(D)$ 。
3. $1/D$ 展开： 假设 L(N, D) 在 $D = \infty$ 处是解析的，即可以展开为 $1/D$ 的整数次幂。这与过拟合通常与数据集的方差（ $1/D$ 缩放）有关的直觉相符。
含义： 该公式描述了在 $N$ 和 $D$ 同时变化时损失的平滑变化，特别是在过拟合区域（当 $N$ 增大但 $D$ 不足时，性能提升减缓）。由此推导出，为避免过拟合，数据集大小应次线性地随模型大小增长： $D \propto N^{\frac{\alpha_N}{\alpha_D}} \approx N^{0.74}$ 。

4.2.4. 训练曲线与批次大小调整

为了更精确地建模训练过程，论文引入了批次大小对训练效率的影响。

临界批次大小 ( $B_{\mathrm{crit}}$ )： 根据 [MKAT18] 的工作，存在一个临界批次大小 $B_{\mathrm{crit}}$ 。当批次大小 $B \le B_{\mathrm{crit}}$ 时，可以高效地增加 $B$ 而不损失每计算周期的效率；当 $B > B_{\mathrm{crit}}$ 时，继续增加 $B$ 会导致回报递减。 $B_{\mathrm{crit}}$ 独立于模型大小，仅依赖于当前达到的损失 $L$ 。 $B_{\mathrm{crit}}(L) = \frac{B_*}{L^{1/\alpha_B}}$
- 符号解释：
  - $B_{\mathrm{crit}}(L)$ : 损失为 $L$ 时的临界批次大小。
  - $B_*$ : 比例常数，约 $2 \times 10^8$ 词元。
  - $\alpha_B$ : 幂律指数，约 0.21。
- 含义： 随着损失 $L$ 的降低（性能提升），临界批次大小 $B_{\mathrm{crit}}$ 增加。
训练步数与数据示例关系： 批次大小 $B$ 、训练步数 $S$ 和处理数据示例数 $E = BS$ 满足以下关系，用于达到任何固定的损失 $L$ ： $\left( \frac{S}{S_{\mathrm{min}}} - 1 \right) \left( \frac{E}{E_{\mathrm{min}}} - 1 \right) = 1$
- 符号解释：
  - $S$ : 实际训练步数。
  - $S_{\mathrm{min}}$ : 达到损失 $L$ 所需的最小训练步数（在 $B \gg B_{\mathrm{crit}}$ 情况下）。
  - $E$ : 实际处理的数据示例数 ( $B \times S$ )。
  - $E_{\mathrm{min}}$ : 达到损失 $L$ 所需的最小数据示例数。
- 临界批次大小的定义： $B_{\mathrm{crit}}(L) \equiv \frac{E_{\mathrm{min}}}{S_{\mathrm{min}}}$
- 调整训练步数 $S_{\mathrm{min}}(S)$ ： 由于实验通常在固定批次大小 $B = 2^{19}$ 词元进行，而这可能与当前损失的 $B_{\mathrm{crit}}(L)$ 不匹配，因此需要将实际训练步数 $S$ 调整为等效的“最小步数” $S_{\mathrm{min}}(S)$ （假设在 $B \gg B_{\mathrm{crit}}$ 下训练）： $S_{\mathrm{min}}(S) \equiv \frac{S}{1 + B_{\mathrm{crit}}(L) / B}$ 这使得不同批次大小训练下的结果可以标准化。
- 调整计算量 $C_{\mathrm{min}}(C)$ ： 类似地，定义“最小计算量” $C_{\mathrm{min}}(C)$ （假设在 $B \ll B_{\mathrm{crit}}(L)$ 下训练）： $C_{\mathrm{min}}(C) \equiv \frac{C}{1 + B / B_{\mathrm{crit}}(L)}$
损失与模型大小 $N$ 和最小训练步数 $S_{\mathrm{min}}$ 的关系： 在无限数据限制下，经过初始瞬态期 (transient period) 后，损失可以由 $N$ 和调整后的 $S_{\mathrm{min}}$ 准确拟合： $L(N, S_{\mathrm{min}}) = \left( \frac{N_c}{N} \right)^{\alpha_N} + \left( \frac{S_c}{S_{\mathrm{min}}} \right)^{\alpha_S}$
- 符号解释：
  - $S_c$ : 比例常数，约 $2.1 \times 10^3$ 步。
  - $\alpha_S$ : 幂律指数，约 0.76。
- 含义： 性能同时受模型容量（由 $N$ 决定）和训练程度（由 $S_{\mathrm{min}}$ 决定）的限制。

4.2.5. 最优计算预算分配

基于 $L(N, S_{\mathrm{min}})$ 的公式，论文推导了在固定计算预算 $C$ 下，如何最优地分配资源（N, B, S, D）以实现最小损失。

推导过程：
- 从 $L(N, S_{\mathrm{min}})$ 出发，代入 $S_{\mathrm{min}} = C_{\mathrm{min}} / (6N B_{\mathrm{crit}}(L))$ 。
- 通过对 $N$ 求导并设为零，找到在给定 $C_{\mathrm{min}}$ 下的损失 $L$ 的最小值。
- 这导致了以下关于 $L(C_{\mathrm{min}})$ 的幂律关系： $L(C_{\mathrm{min}}) = \left( \frac{C_c^{\mathrm{min}}}{C_{\mathrm{min}}} \right)^{\alpha_C^{\mathrm{min}}}$ 其中，组合幂律指数 $\alpha_C^{\mathrm{min}}$ 为： $\alpha_C^{\mathrm{min}} = \frac{1}{1/\alpha_S + 1/\alpha_B + 1/\alpha_N} \approx 0.054$ 这个理论值与经验观察值 $\alpha_C^{\mathrm{min}} \approx 0.050$ 非常吻合。
最优参数增长趋势： 当计算预算 $C_{\mathrm{min}}$ 增加时，最优的模型大小 $N$ 、批次大小 $B$ 、训练步数 $S$ 和数据集大小 $D$ 应该如何增长：
- 最优模型大小 $N$ ： $N \propto C_{\mathrm{min}}^{\alpha_C^{\mathrm{min}} / \alpha_N} \approx C_{\mathrm{min}}^{0.71}$ 这意味着计算量应主要用于增加模型大小。
- 最优批次大小 $B$ ： 批次大小应随临界批次大小 $B_{\mathrm{crit}}$ 增长。由于 $B_{\mathrm{crit}} \propto L^{-1/\alpha_B}$ 且 $L \propto C_{\mathrm{min}}^{-\alpha_C^{\mathrm{min}}}$ ，可得： $B \propto C_{\mathrm{min}}^{\alpha_C^{\mathrm{min}} / \alpha_B} \approx C_{\mathrm{min}}^{0.24}$
- 最优训练步数 $S$ ： $S \propto C_{\mathrm{min}}^{\alpha_C^{\mathrm{min}} / \alpha_S} \approx C_{\mathrm{min}}^{0.03}$ 这个指数非常小，甚至可能接近零。这意味着训练步数可以保持相对恒定，或者增长非常缓慢。
- 最优数据集大小 $D$ ： 由于 $D = BS$ ，因此： $D \propto C_{\mathrm{min}}^{0.24} \times C_{\mathrm{min}}^{0.03} = C_{\mathrm{min}}^{0.27}$
- 核心结论： 随着计算量增加，大部分计算量应投入到更大的模型中，而训练步数和数据集大小的增长相对缓慢。这表明大模型比大数据更重要，且在收敛之前停止训练是计算效率最高的策略。

5. 实验设置

5.1. 数据集

实验主要使用了 WebText2 数据集，并辅以其他数据集进行泛化能力测试。

WebText2：
- 来源： 原始 WebText 数据集是 Reddit 上通过外部链接抓取的文本（2017年12月之前，至少3 Karma）。WebText2 在此基础上增加了2018年1月至10月期间的 Reddit 外部链接文本，同样要求至少3 Karma（作为衡量链接有趣或有用程度的启发式指标）。文本内容通过 Newspaper3k Python 库提取。
- 规模： 总计 20.3 百万 (M) 文档，包含 96 GB 文本，约 $1.62 \times 10^{10}$ 个词（按 wc 统计）。
- 词元化 (Tokenization)： 使用 $[RWC+19]$ 中描述的可逆词元化器，生成 $2.29 \times 10^{10}$ 个词元。
- 划分： 保留了 $6.6 \times 10^8$ 个词元作为测试集 (test set)。
- 特点： 这是一个大型、多样化的网络文本数据集，被认为是高质量的无监督学习数据源。
其他测试数据集： 用于测试模型在不同数据分布上的泛化能力 (generalization)。
- Books Corpus $[ZKZ+15]$ ： 图书文本语料库。
- Common Crawl [Fou]： 一个巨大的网络爬取数据集。
- English Wikipedia： 英文维基百科内容。
- Internet Books： 公开可用的互联网书籍集合。
为什么选择这些数据集： WebText2 提供了足够大的规模来验证缩放定律，并且其高质量特性保证了模型学习的有效性。其他数据集用于验证模型性能的普遍性，即发现的缩放定律是否适用于其他文本分布。

5.2. 评估指标

论文主要使用交叉熵损失 (Cross-Entropy Loss) 作为性能指标。

交叉熵损失 (Cross-Entropy Loss)：
- 概念定义 (Conceptual Definition)： 交叉熵损失是一种常用的衡量两个概率分布之间差异的指标，在机器学习中常用于分类问题和生成模型（如语言模型）。在语言模型中，它量化了模型预测的下一个词元概率分布与真实下一个词元（通常表示为独热 (one-hot) 向量）之间的一致性。一个较低的交叉熵损失值表示模型的预测更准确、更接近真实数据分布。它本质上是真实分布下对预测分布的负对数似然的期望。
- 数学公式 (Mathematical Formula)： 对于一个给定的词元序列 $x = (x_1, x_2, \dots, x_M)$ ，模型预测其对数似然 (log-likelihood) 如下： $L = -\frac{1}{M} \sum_{t=1}^{M} \log P(x_t | x_1, \dots, x_{t-1})$
- 符号解释 (Symbol Explanation)：
  - $L$ : 报告的平均交叉熵损失，单位是 nats (自然对数)。
  - $M$ : 序列中的词元总数（在本文中通常是 1024 词元的上下文长度）。
  - $x_t$ : 序列中的第 $t$ 个真实词元。
  - $x_1, \dots, x_{t-1}$ : 第 $t$ 个词元之前的上下文词元序列。
  - $P(x_t | x_1, \dots, x_{t-1})$ : 模型在给定上下文 $x_1, \dots, x_{t-1}$ 下，预测真实词元 $x_t$ 出现的概率。

5.3. 对比基线

论文将自己的方法（不同规模的 Transformer 模型）与以下基线模型进行了比较：

不同规模的 Transformer 模型：
- 这是主要的比较对象，论文通过改变 Transformer 模型的非嵌入层参数 $N$ （从768到15亿）以及模型形状（深度、宽度等）来观察其性能变化。这些模型本身作为互相的基线，用于构建幂律缩放关系。
LSTM 模型：
- 代表性： LSTM (Long Short-Term Memory) 是在 Transformer 出现之前，处理序列数据（包括语言建模）的领先循环神经网络架构。将其作为基线可以展示 Transformer 架构在缩放方面的优势，尤其是在捕捉长距离依赖方面的改进。
- 比较方式： 论文比较了在相同数据集和上下文长度下训练的 LSTM 模型与 Transformer 模型的性能，特别是在不同上下文位置上的表现。
循环 Transformer (Recurrent Transformers) $[DGV+18]$ ：
- 代表性： 循环 Transformer 是一种通过参数重用 (parameter re-use) 来提高效率的 Transformer 变体。将其作为基线，可以探索参数重用对模型性能和计算效率的影响，并与标准 Transformer 进行对比。
- 比较方式： 论文在附录中比较了循环 Transformer 与标准 Transformer 在相同参数量 $N$ 和相同计算量 $C$ 下的性能。
  
  这些基线模型具有代表性，因为它们涵盖了不同时代和不同效率考量的语言模型架构。通过与它们的比较，本文能够突出 Transformer 架构在规模化方面的独特优势和效率。

5.4. 训练程序

论文详细描述了模型的训练程序，以确保实验的可复现性 (reproducibility) 和结果的可靠性。

优化器 (Optimizer)：
- 主要使用 Adam 优化器 [KB14]。
- 对于最大的模型（超过10亿参数），由于内存限制，使用了 Adafactor [SS18] 优化器。
训练步数 (Training Steps)：
- 除非另有说明，模型通常训练固定步数 $2.5 \times 10^5$ 步。
批次大小 (Batch Size)：
- 大多数运行使用 512 序列，每个序列包含 1024 词元的批次大小。
- 也通过改变批次大小来测量临界批次大小 (critical batch size)。
学习率调度 (Learning Rate Schedule)：
- 实验了多种学习率和调度策略。
- 除非另有说明，所有训练运行都采用 3000 步线性预热 (linear warmup)，然后 余弦衰减 (cosine decay) 到零的学习率调度。
- 对于不同模型规模，学习率会根据一个经验法则进行调整： $\operatorname{LR}(N) \approx 0.003239 + -0.0001395 \log(N)$ 。
正则化 (Regularization)：
- 所有模型都使用 10% 的丢弃 (dropout) 进行正则化。
早停 (Early Stopping)：
- 通过跟踪测试损失 (test loss)，一旦测试损失不再下降，则停止训练，以避免过拟合。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 性能与规模的幂律缩放

论文最核心的发现是语言模型性能（交叉熵损失）与模型规模 $N$ 、数据集规模 $D$ 和训练计算量 $C$ 之间存在平滑且精确的幂律缩放关系。这在 Figure 1 中得到了清晰的展示。

以下是原文 Figure 1 的图像：

Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute used for training.For optimal performance all three factors must be scal… 该图像是三幅折线图组成的图表，展示了语言模型测试损失（Test Loss）与训练计算量（Compute）、数据集大小（Dataset Size）以及模型参数数量（Parameters）之间的关系。图中均采用对数坐标，测试损失随着这三者的增加呈现出明显的幂律下降趋势。对应的幂律关系用公式表示为： $L = (C_{\min}/2.3 \cdot 10^8)^{-0.050}$ ， $L = (D/5.4 \cdot 10^{13})^{-0.095}$ ， $L = (N/8.8 \cdot 10^{13})^{-0.076}$ ，其中 $L$ 是测试损失， $C$ 是计算量， $D$ 是数据集大小， $N$ 是模型参数量。图表反映出在其他因素不成为瓶颈时，这三者均对模型性能有平滑且持续的提升作用。

Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute used for training.For optimal performance all three factors must be scaled up in tandem. Empirical performance has a power-law relationship with each individual factor when not bottlenecked by the other two.

分析： Figure 1 展示了在对数-对数坐标下，损失 $L$ $L$ 随计算量 (Compute)、数据集大小 (Dataset Size) 和模型参数数量 (Parameters) 的增加而线性下降，这正是幂律关系的特征。这些趋势跨越了多个数量级（Compute 超过七个，Parameters 超过六个，Dataset Size 超过两个），且未显示出偏离幂律的迹象，直到性能接近零损失才可能趋于平缓。这意味着通过简单地增加规模，语言模型的性能可以持续、可预测地提升。
- 与计算量的关系： $L \propto C_{\mathrm{min}}^{-\alpha_C^{\mathrm{min}}}$ ，其中 $\alpha_C^{\mathrm{min}} \approx 0.050$ 。
- 与数据集大小的关系： $L \propto D^{-\alpha_D}$ ，其中 $\alpha_D \approx 0.095$ 。
- 与模型参数数量的关系： $L \propto N^{-\alpha_N}$ ，其中 $\alpha_N \approx 0.076$ 。
意义： 这些幂律为语言模型的发展提供了一个“指南针”，表明扩大规模是提高性能的有效且可预测的途径。

6.1.2. 模型形状和超参数的弱影响

论文发现，在总非嵌入层参数 $N$ 固定时，模型性能对网络深度、宽度、注意力头数等架构超参数的依赖非常弱。

以下是原文 Figure 5 的图像：

$Figure 5 Performance depends very mildly on model shape when the total number of non-embedding parameters $N$ is held fixed. The loss varies only a few percent over a wide range of shapes. Small diff…$ 该图像是图表，展示了不同模型结构参数对损失增加的影响。图中通过三个子图比较了在固定参数量下，前馈网络比例、层宽比和注意力头数维度变化对损失的轻微影响，表明结构变化对性能影响较小。

Figure 5 Performance depends very mildly on model shape when the total number of non-embedding parameters $N$ is held fixed. The loss varies only a few percent over a wide range of shapes. Small differences in parameter counts are compensated for by using the fit to L ( N ) as a baseline. Aspect ratio in particular can vary by a factor of 40 while only slightly impacting performance; an $( n _ { \\mathrm { l a y e r } } , \\bar { d } _ { \\mathrm { m o d e l } } ) = ( 6 , 4 \\bar { 2 8 } 8 )$ reaches a loss within $3 \\%$ of the (48, 1600) model used in $[ \\mathrm { R W C ^ { + } } 1 9 ]$ .

分析： Figure 5 表明，即使深度与宽度比 (aspect ratio) 变化高达40倍，模型性能的损失也仅在几个百分点之内。这与 Figure 6 的发现进一步印证。以下是原文 Figure 6 的图像：

该图像是论文中图6的对比图，展示了包含与不包含embedding参数时，不同层数模型的测试损失随参数数量变化的曲线。左图显示包含embedding时，层数对性能影响显著；右图排除embedding后，多层模型性能趋于一致，只有极端深宽比或层数少于2时偏离趋势。

Figure 6 Left: When we include embedding parameters, performance appears to depend strongly on the number of layers in addition to the number of parameters. Right: When we exclude embedding parameters, the performance of models with different depths converge to a single trend. Only models with fewer than 2 layers or with extreme depth-to-width ratios deviate significantly from the trend.

分析： Figure 6 左图显示，如果将嵌入层参数计入总参数量，则不同层数的模型性能趋势会显得混乱。然而，右图清晰地表明，当只考虑非嵌入层参数 $N$ 时，不同层数的模型（只要层数不小于2且深度-宽度比不极端）其性能曲线会收敛到一条统一的幂律趋势上。
意义： 这大大简化了模型设计。研究人员可以将主要精力放在扩大模型总参数量上，而不必过于纠结于具体的深度、宽度或注意力头数比例。

6.1.3. Transformer 优于 LSTM

论文对比了 Transformer 和 LSTM 模型的性能。

以下是原文 Figure 7 的图像：

该图像是两个折线图，展示了Transformer和LSTM模型在不同参数规模及上下文长度下的测试损失变化。左图显示了随模型参数增大，Transformer测试损失显著低于LSTM。右图展示Transformer在上下文中后续Token的测试损失下降趋势，模型参数从40万到3亿不等。

Figure 7 Transformers asymptotically outperform LSTMs LSTM plateaus after $< 1 0 0$ tokens

分析： Figure 7 展示了 Transformer 随着模型参数增加，其性能持续提升，并逐渐超越 LSTM。特别是，Transformer 在处理长上下文时表现出更强的能力，而 LSTM 在处理超过100个词元后性能趋于平稳。
意义： 再次确认了 Transformer 在长序列建模方面的优势，解释了其在语言模型领域的主导地位。

6.1.4. 泛化能力与数据分布

模型的泛化能力与训练集性能高度相关，且对训练时长不敏感。

以下是原文 Figure 8 的图像：

Figure 8 Left: Generalization performance to other data distributions improves smoothly with model size, with only a small and very slowly growing offset from the WebText2 training distribution. Righ… 该图像是论文中图8的图表，左侧显示不同数据分布上测试损失随着模型参数数量增加而平滑下降，WebText2测试集表现稍优。右侧展示其他分布的损失仅依赖于训练分布的测试损失，且与训练阶段无关，比较了收敛模型与单个大模型训练过程中的泛化性能。

Figure 8 Left: Generalization performance to other data distributions improves smoothly with model size, with only a small and very slowly growing offset from the WebText2 training distribution. Right: Generalization performance depends only on trainig distribution performance, and not on the phase of trainng. We compare generalization of converged models (points) to that of a single large model (dashed curves) as it trains.

分析： Figure 8 左图显示，在 WebText2 上训练的模型，在其他数据分布（如 Books Corpus、Wikipedia）上的测试损失也随着模型参数量的增加而平滑下降，且与 WebText2 上的性能趋势并行，仅有恒定的偏移。右图进一步表明，泛化性能仅依赖于模型在训练分布上的验证损失，与训练阶段（是否完全收敛）或模型深度无关。
意义： 这意味着提升模型在训练分布上的性能，可以直接转化为在其他相关数据分布上的泛化性能提升，而无需针对特定任务进行过多调优。

6.1.5. 过拟合的普遍性与数据需求

论文提出了一个统一的公式 L(N, D) 来描述过拟合现象，并指出数据需求可以次线性地随模型规模增长。

以下是原文 Figure 9 的图像：

$Figure 9 The early-stopped test loss `L ( N , D )` depends predictably on the dataset size $D$ and model size $N$ EY according to Equation (1.5). Left: For large $D$ , performance is a straight power…$ 该图像是论文中图9的图表，展示了早停测试损失L(N,D)关于数据集大小 $D$ 与模型大小 $N$ 的关系。左图表明大数据下损失随 $N$ 以幂律下降，小数据下过拟合导致性能停滞；右图显示过拟合程度主要取决于 $N^{\frac{\alpha_N}{\alpha_D}}/D$ ，并用曲线拟合该关系。

Figure 9 The early-stopped test loss L ( N , D ) depends predictably on the dataset size $D$ and model size $N$ EY according to Equation (1.5). Left: For large $D$ , performance is a straight power law in $N$ .For a smaller fixed $D$ , performance stops improving as $N$ increases and the model begins to overfit. (The reverse is also true, see Figure 4.) Right: The extent of overfitting depends predominantly on the ratio $N ^ { \\frac { \\alpha _ { N } } { \\alpha _ { D } } } / D$ , as predicted in equation (4.3). The line is our fit to that equation.

分析： Figure 9 左图展示了 L(N, D) 如何随 $N$ 和 $D$ 变化。当数据集 $D$ 足够大时，损失随 $N$ 呈幂律下降；但当 $D$ 较小时，随着 $N$ 的增加，性能提升会停滞，模型开始过拟合。右图显示，过拟合程度主要取决于 $N^{\alpha_N/\alpha_D} / D$ 这个比率，与理论预测吻合。
意义： 这一发现提供了避免过拟合的定量指导：为避免性能损失，数据集规模 $D$ 仅需次线性地随模型规模 $N$ 增长，具体为 $D \propto N^{0.74}$ 。这意味着大模型不一定需要同样庞大的数据集来避免过拟合。

6.1.6. 临界批次大小

临界批次大小 $B_{\mathrm{crit}}$ 独立于模型大小，仅依赖于当前达到的损失 $L$ 。

以下是原文 Figure 10 的图像：

$Figure 10 The critical batch size $B _ { \\mathrm { c r i t } }$ follows a power law in the loss as performance increase, and does not depend directly on the model size. We find that the critical batc…$ 该图像是图表，展示了图10中临界批量大小 $B_{crit}$ 与训练损失之间的关系。 $B_{crit}$ 随损失的降低呈幂律上升，约每降低13%的损失，临界批量大小翻倍。图中还包括基于梯度噪声规模的预测公式 $B_{crit} = 2.1 \times 10^8 \textrm{ tokens} \cdot L^{-4.8}$ 。

Figure 10 The critical batch size $B _ { \\mathrm { c r i t } }$ follows a power law in the loss as performance increase, and does not depend directly on the model size. We find that the critical batch size approximately doubles for every $1 3 \\%$ decrease in loss. $B _ { \\mathrm { c r i t } }$ is measured empirically from the data shown in Figure 18, but it is also roughly predicted by the gradient noise scale, as in [MKAT18].

分析： Figure 10 表明， $B_{\mathrm{crit}}$ 随损失 $L$ 的降低（性能提升）而以幂律形式增加，大约每降低13%的损失， $B_{\mathrm{crit}}$ 就会翻倍。这表明，当模型性能越来越好时，可以有效使用的批次大小也越大。
意义： 这为优化器参数（如批次大小）的选择提供了指导，使得训练过程可以在时间和计算效率之间找到最佳平衡。

6.1.7. 最优模型大小与训练时间分配

在固定计算预算下，存在一个最优的模型大小来最大化性能。

以下是原文 Figure 11 的图像：

Figure 11 When we hold either total compute or number of training steps fixed, performance follows `L ( N , S )` from Equation (5.6). Each value of compute budget has an associated optimal model size… 该图像是论文中图11的图表，展示了在固定总计算预算或训练步数时，测试损失与模型参数量的关系。左图显示不同计算预算下的测试损失，右图展示不同训练步数下的测试损失，体现了性能随模型规模和训练步数的变化趋势，符合公式 L ( N , S )。

Figure 11 When we hold either total compute or number of training steps fixed, performance follows L ( N , S ) from Equation (5.6). Each value of compute budget has an associated optimal model size that maximizes perormance. Mediocre ts at small $S$ curves breaks down very early in training.

分析： Figure 11 展示了当固定总计算量或训练步数时，损失 $L$ 随模型参数 $N$ 的变化。每条曲线都有一个最低点，对应着在该计算预算或训练步数下的最优模型大小。模型过小或过大都会导致性能下降。
意义： 这强调了在资源有限的情况下，需要谨慎选择模型大小，以避免浪费计算资源。

6.1.8. 计算效率最优的训练策略

论文调整了计算量评估方式（ $C_{\mathrm{min}}$ ），以模拟在远低于临界批次大小的条件下训练，并展示了在计算效率最优的情况下，资源应如何分配。

以下是原文 Figure 13 的图像：

$Figure 13 When adjusting performance to simulate training far below the critical batch size, we find a somewhat altered power law for $L ( C _ { \\mathrm { m i n } } )$ when compared with the fully em…$ 该图像是论文中图13的图表，展示了调整后训练远低于临界批量大小时的测试损失与计算量（PF-days）的关系。图中给出两个不同的拟合幂律公式，分别为 $L = (C_{min}/2.3 \cdot 10^{8})^{-0.050}$ 和 $L = (C/2.0 \cdot 10^{7})^{-0.057}$ ，显示了不同训练层数对损失趋势的影响。

Figure 13 When adjusting performance to simulate training far below the critical batch size, we find a somewhat altered power law for $L ( C _ { \\mathrm { m i n } } )$ when compared with the fully empirical results. The conspicuous lump at $1 0 ^ { - 5 }$ PF-days marks the transition from 1-layer to 2-layer networks; we exclude 1-layer networks in the power-law fits. It is the $L ( C _ { \\mathrm { m i n } } )$ trend that we expect to provide a reliable extrapolation for larger compute.

分析： Figure 13 对比了经验计算趋势和调整后的 $L(C_{\mathrm{min}})$ 趋势。调整后，幂律关系更为平滑和可靠，特别排除了单层网络带来的异常点。以下是原文 Figure 14 的图像：

$Figure 14 Left: Each value of the compute budget $C _ { \\mathrm { m i n } }$ has an associated optimal model size $N$ Optimal model size grows very rapidly with $C _ { \\mathrm { m i n } }$ , increasi…$ 该图像是两幅图表，展示了计算资源预算与模型参数规模及优化步数之间的关系。左图显示最优模型规模 $N$ 随计算预算 $C_{\min}$ 迅速增长，分别拟合为 $N=(1.3 \cdot 10^9) \cdot C_{\min}^{0.73}$ 和 $N=(1.6 \cdot 10^9) \cdot C_{\min}^{0.88}$ ；右图显示批量调整后的优化步数随计算预算增长缓慢，拟合公式为 $S_{\min}=(5.4 \cdot 10^3) \cdot C_{\min}^{0.03}$ ，且固定批量方案的步数增长较快。

Figure 14 Left: Each value of the compute budget $C _ { \\mathrm { m i n } }$ has an associated optimal model size $N$ Optimal model size grows very rapidly with $C _ { \\mathrm { m i n } }$ , increasing by 5x for each $1 0 \\mathrm { x }$ increase in compute. The number of data examples processed makes up the remainder of the increase, growing relatively modestly by only $2 \\mathbf { x }$ . Right: The batch-adjustednumbero optimization steps also grows very slowly, if at all, meaning that most of the growth in data examples processed can be used for increased batch sizes.

分析： Figure 14 左图展示，在计算效率最优的训练中，最优模型大小 $N$ 随计算量 $C_{\mathrm{min}}$ 迅速增长 ( $N \propto C_{\mathrm{min}}^{0.73}$ )，即每增加10倍计算量，模型大小增加5倍。而训练步数 $S$ 几乎不变 ( $S \propto C_{\mathrm{min}}^{0.03}$ )，数据量 $D$ 的增长也相对缓慢 ( $D \propto C_{\mathrm{min}}^{0.27}$ )。
意义： 这项发现至关重要：为了达到最佳性能，计算资源应主要用于训练更大的模型，而不需要大幅增加训练数据量或延长训练时间（即在收敛之前停止训练）。这直接支持了“大模型比大数据更重要”的观点。

6.1.9. 矛盾与推测

论文讨论了在非常大的计算规模下，当前缩放定律可能出现的矛盾点。

以下是原文 Figure 15 的图像：

$该图像是一个图表，展示了测试损失（Test Loss）随计算量（PF-days）变化的关系，横坐标为计算量，纵坐标为测试损失。图中两条曲线分别表示 $L(C_{min})$ 和 `L(D(C))`，揭示了在不同计算预算下模型性能的表现。$ 该图像是一个图表，展示了测试损失（Test Loss）随计算量（PF-days）变化的关系，横坐标为计算量，纵坐标为测试损失。图中两条曲线分别表示 $L(C_{min})$ 和 L(D(C))，揭示了在不同计算预算下模型性能的表现。

分析： Figure 15 展示了 $L(C_{\mathrm{min}})$ (计算效率最优的损失) 和 $L(D(C_{\mathrm{min}}))$ (由计算量驱动的数据量限制下的损失) 两条曲线的交点。由于计算效率最优的训练所需的数据量 $D$ 增长缓慢 ( $D \propto C_{\mathrm{min}}^{0.27}$ )，最终 $L(C_{\mathrm{min}})$ 预测的性能将低于 L(D) 预测的性能（因为 L(D) 受数据量限制）。这个交点（大约在 $C^* \sim 10^4$ PF-days, $N^* \sim 10^{12}$ 参数, $D^* \sim 10^{12}$ 词元, $L^* \sim 1.7$ nats/token）可能预示着缩放定律的失效点，或者更深层地，是语言模型性能的理论上限（即自然语言的熵）。
意义： 这提示了当前研究的极限，并为未来探索提供了方向，即当模型规模达到这个极限时，可能需要质变而非量变的方法来进一步提升性能。

6.1.10. 样本效率

大模型具有更高的样本效率。

以下是原文 Figure 12 的图像：

Figure 12 Left: Given a fixed compute budget, a particular model size is optimal, though somewhat larger or smaller models can be trained with minimal additional compute. Right: Models larger than th… 该图像是两个子图组成的图表，展示了在固定计算预算下模型大小的优化效果。左图显示模型大小偏离最优值时，所需额外计算量的变化范围；右图显示较小模型训练步骤多，较大模型训练步骤少的趋势，捕捉了训练步骤的超额情况。

Figure 2 We show a series of language model training runs, with models ranging in size from $1 0 ^ { 3 }$ to $1 0 ^ { 9 }$ parameters (excluding embeddings).

分析： Figure 2 展示了不同参数规模模型在训练过程中测试损失随处理词元数（数据量）和计算量（PF-days）的变化。明显地，参数量越大的模型，在相同的数据量或计算量下，能够达到更低的损失。这意味着大模型能够从更少的数据中学习到更多的信息，或者在更短的训练时间内达到相同的性能水平。以下是原文 Figure 19 的图像：

该图像是两个等高线图，展示了模型参数规模与达到固定测试损失值所需最小训练步骤数和最小训练样本数的关系。图中显示随着模型参数数量增加，所需步骤和样本数显著减少，表明更大的模型具有更高的样本效率。

Figure 19 The number of minimum serial steps needed to reach any fixed value of the test loss decreases precipitously with model size. Sample efficiency (show here for training far below the critical batch size) improves greatly as wel, improving by a factor of almost 100 when comparing the smallest possible model to a very large one.

分析： Figure 19 进一步强调了样本效率。达到相同损失所需的最小串行步数 (minimum serial steps) 随模型大小的增加而急剧减少。从最小模型到最大模型，样本效率提高了近100倍。
意义： 这一发现强化了投资于大模型的重要性，因为它们能更高效地利用数据和计算资源。

6.1.11. 上下文依赖性

模型在处理上下文中的不同位置时，性能表现不同。

以下是原文 Figure 20 的图像：

$Figure 20 This figure provides information about the performance per token as a function of model size and training time. Left: Loss per token as a function of its position $T$ in the 1024-token cont…$ 该图像是图表，展示了图20中模型规模和训练时间对每个Token损失的影响。左图显示在1024-token上下文中，损失随Token位置 $T$ 的幂律下降，右图展示训练步数增加时，测试损失的变化趋势。

Figure 20 This figure provides information about the performance per token as a function of model size and training time. Left: Loss per token as a function of its position $T$ in the 1024-token context. Loss scales predictably as a power-law in $T$ Right:Test loss per token as a function of training step. 以下是原文 Figure 21 的图像：

$Figure 21 In addition to the averaged loss, individual tokens within the 1024-token context also improve smoothly as model size increases. Training runs with shorter context \$n _ { \\mathrm { c t x }…$ 该图像是论文中图21的图表，展示了随着模型参数数量增加，不同位置的单词在测试损失上的表现变化。图中实线代表1024长度上下文的单词损失，虚线表示长度为8的短上下文训练，短上下文在前面单词上的损失更低。

Figure 21 In addition to the averaged loss, individual tokens within the 1024-token context also improve smoothly as model size increases. Training runs with shorter context $n _ { \\mathrm { c t x } } = 8$ (dashed lines) perform better on early tokens, since they can allocate all of their capacity to them.

分析： Figure 20 左图显示，每个词元的损失 (loss per token) 随其在上下文中的位置 $T$ 呈幂律关系。Figure 21 展示了所有词元位置的损失都随模型大小的增加而平滑下降。更大的模型不仅在长上下文末尾表现更好，在早期词元上改进也更快，表明它们能更有效地利用有限的上下文信息来检测模式。Figure 20 右图显示，模型在训练初期倾向于学习短距离依赖，随后才学习长距离关联。
意义： 这揭示了语言模型学习语言结构的方式，并暗示了进一步通过增大模型和上下文长度来提升性能的潜力。

6.1.12. 学习率调度

学习率调度的选择对最终收敛结果的影响较小。

以下是原文 Figure 22 的图像：

Figure 2 We tet avarietyof learning rate schedules including cosine decay, linear decay, as wel s er faster/slower decays schedules on a 3 million parameter model, shown on the left. For these experi… 该图像是两部分组成的图表，左侧展示了不同学习率衰减调度曲线随训练步数变化，右侧为累计学习率与损失的散点关系，反映学习率调度对模型性能的影响。

Figure 2 We tet avarietyof learning rate schedules including cosine decay, linear decay, as wel s er faster/slower decays schedules on a 3 million parameter model, shown on the left. For these experiments we do not decay to zero, since we find that this tends to give a fixed improvement close to the end of training. We find that, as long as the learning rate is not too small and does not decay too quickly, performance does depe sg learg u-o va h multiple runs is necessary to validate performance changes smaller than this level.

分析： Figure 22 左图展示了不同的学习率调度策略（余弦衰减、线性衰减等）对3百万参数模型的损失影响。结果表明，只要学习率不过小，且衰减不过快，最终的测试损失结果差异不大。右图进一步证实，学习率调度对累计学习率和损失的关系影响有限。
意义： 这意味着研究人员在进行大规模实验时，可以相对灵活地选择学习率调度，更重要的是确保学习率总和足够大，并包含预热和最终衰减阶段。

6.1.13. 幂律拟合质量

幂律拟合比其他函数形式（如对数）能更好地描述性能趋势。

以下是原文 Figure 23 的图像：

Figure 23 The trend for performance as a function of parameter count, `L ( N )` , is fit better by a power law than by other functions such as a logarithm at a qualitative level. 该图像是一个图表，展示了参数数量与测试损失（收敛时）的关系，图中表明性能趋势更符合幂律关系，公式为 $L = (N/8.8 imes 10^{13})^{-0.076}$ ，相比对数函数拟合更优。

Figure 23 The trend for performance as a function of parameter count, L ( N ) , is fit better by a power law than by other functions such as a logarithm at a qualitative level.

分析： Figure 23 定性地展示了幂律拟合（黑色实线）比对数拟合（灰色虚线）更能准确地描述损失随参数数量 $N$ 的变化趋势，尤其是在趋势的末端。
意义： 验证了论文选择幂律作为核心描述工具的合理性。

6.1.14. 泛化与架构无关性

泛化性能不依赖于网络深度，主要取决于训练分布上的性能。

以下是原文 Figure 24 的图像：

Figure 24 We show evaluations on a series of datasets for models with approximately 1.5 Billion parameters. We observe no effect of depth on generalization; generalization performance depends primari… 该图像是图表，展示了约15亿参数模型在不同数据集上随网络深度变化的测试损失。结果表明深度对泛化影响不大，泛化主要依赖训练分布性能。12层模型在Internet Books数据集上过拟合，并显示了早停性能。

Figure 24 We show evaluations on a series of datasets for models with approximately 1.5 Billion parameters. We observe no effect of depth on generalization; generalization performance depends primarily on training distribution performance. The 12-layer model overfit the Internet Books dataset and we show the early-stopped performance; we have not seen this surprising result in other experiments.

分析： Figure 24 展示了对于约15亿参数的模型，在不同数据集上的泛化性能与模型深度无关。泛化性能主要取决于模型在训练分布（WebText2）上的表现。
意义： 再次强化了总规模的重要性，而具体架构细节（如深度）对泛化能力的影响微乎其微。

6.2. 数据呈现 (表格)

以下是原文的关键表格内容。

以下是原文 Table 1 的结果：

Operation	Parameters	FLOPs per Token
Embed	(nvocab + nctx) dmodel	4dmodel
Attention: QKV	nlayerdmodel3dattn	2nlayerdmodel3dattn
Attention: Mask		2nlayernctxdattn
Attention: Project	nlayerdattndmodel	2n1ayerdattndembd
Feedforward	nlayer2dmodeldff	2nlayer2dmodeldff
De-embed		2dmodelnvocab
Total (Non-Embedding)	N = 2dmodelnlayer (2dattn + df)	Cforward = 2N + 2nlayernctxdattn

分析： Table 1 详细列出了 Transformer 模型中各操作的参数数量和每词元 (per token) 的浮点运算 (FLOPs) 估计。这对于理解论文中如何计算模型总参数 $N$ 和训练计算量 $C$ 至关重要。特别地，它明确区分了嵌入层 (Embed) 的参数和FLOPs，并给出了非嵌入层 (Non-Embedding) 的总参数 $N$ 和前向传播 (forward pass) 计算量 $C_{\mathrm{forward}}$ 的近似公式。这支持了论文中将 $N$ 定义为非嵌入层参数的决策，因为它在缩放定律中表现出更强的规律性。

以下是原文 Table 2 的结果：

Parameter	αN	αD	Nc	D
Value	0.076	0.103	6.4 × 10^13	1.8 × 10^13

分析： Table 2 展示了对 L(N, D) 公式 (1.5) 的拟合参数。这些参数值（如 $\alpha_N=0.076$ , $\alpha_D=0.103$ ）略微不同于独立拟合 L(N) 和 L(D) 时的值，因为这里是同时拟合了 $N$ 和 $D$ 两个变量。这些拟合参数是理解模型过拟合行为和数据需求次线性增长（例如 $D \propto N^{0.74}$ ）的关键。

以下是原文 Table 3 的结果：

Parameter	αN	αS	Nc	S
Value	0.077	0.76	6.5 × 10^13	2.1 × 10^3

分析： Table 3 展示了对 $L(N, S_{\mathrm{min}})$ 公式 (1.6) 的拟合参数。这些参数值（如 $\alpha_N=0.077$ , $\alpha_S=0.76$ ）在建模损失与模型大小 $N$ 和调整后的训练步数 $S_{\mathrm{min}}$ 之间关系时至关重要。特别是 $\alpha_S$ 较大的值（0.76）反映了训练步数对性能的强烈影响。

以下是原文 Table 4 的结果：

Parameters	Data	Compute	Batch Size	Equation
N	∞	∞	Fixed	L (N ) = (Nc/N )αN
∞	D	Early Stop	Fixed	L (D) = (/D)αD
Optimal	Dopt	Cmin	B < Bcrit	L (Cmin) = (Cmin /Cmin)) αCmin
N	D	Early Stop	Fixed	L (N, D) =	αN αD(Nc )αD+D
N	∞	S steps	B	L (N, S) = ( N )a + Sc αSmin(S,B)

分析： Table 4 提供了论文中描述的所有关键缩放定律方程的总结，方便读者查阅。它清晰地列出了不同场景下（例如，当数据无限时、当计算量最优分配时等）损失 $L$ 与模型参数 $N$ 、数据集大小 $D$ 、计算量 $C$ 或训练步数 $S$ 之间的函数关系。这反映了论文所建立的综合预测框架。

以下是原文 Table 5 的结果：

Power Law	Scale (tokenization-dependent)
αN = 0.076	Nc = 8.8 × 10^13 params (non-embed)
αD = 0.095	D = 5.4 × 10^13 tokens
αC = 0.057	C = 1.6 × 10^7 PF-days
αCmin = 0.050	C min = 3.1 × 10^8 PF-days
αB = 0.21	B* = 2.1 × 10^8 tokens
αS = 0.76	Sc = 2.1 × 10^3 steps

分析： Table 5 总结了论文中各种幂律拟合的经验参数值。这些数值是定量预测模型性能和指导资源分配的基础。例如， $\alpha_N=0.076$ 表明每增加一倍的模型参数，损失会乘以 $2^{-0.076} \approx 0.95$ ，即降低约5%。 $\alpha_S=0.76$ 很高，表明训练步数对性能有很强的影响。

以下是原文 Table 6 的结果：

Compute-Efficient Value	Power Law	Scale
Nopt = Ne · CpNmin	pN = 0.73	Ne = 1.3 · 10^9 params
B < Bcrit = B*L1/αB= BC pBnmin	pB = 0.24	Be = 2.0 · 10^6 tokens
Smin= SeCpsmin(lower bound)	ps = 0.03	S = 5.4 · 10^3 steps
Dmin(1 epoch)	pD = 0.27	D = 2 · 10^10 tokens

分析： Table 6 总结了在计算效率最优 (compute-efficient) 训练下，各种关键参数随计算预算 $C_{\mathrm{min}}$ 增长的幂律趋势。这些是论文最实用的发现之一。例如， $p_N = 0.73$ 意味着大部分计算量应用于扩大模型大小，而 $p_S = 0.03$ 则表明训练步数几乎不随计算量增加，即应该在收敛之前停止训练。这为大规模语言模型的研究和开发提供了明确的资源分配策略。

6.3. 消融实验/参数分析

论文虽然没有进行严格意义上的消融实验，但通过系统性地改变模型架构和训练超参数，有效分析了它们对性能的影响。

模型形状（深度、宽度、注意力头数）的影响：
- 结果： 如 Figure 5 和 Figure 6 所示，在总非嵌入层参数 $N$ 固定时，模型性能对这些架构超参数的变化非常不敏感。例如，深度与宽度比变化40倍，性能损失仅几个百分点。
- 分析： 这表明对于 Transformer 来说，模型的“容量”或“规模”远比其具体的“形状”更重要。这简化了模型设计的复杂性，研究人员可以更专注于扩大总参数量。
嵌入层参数的影响：
- 结果： Figure 6 显示，若将嵌入层参数计入总参数，则性能曲线会变得混乱；而排除嵌入层参数后，性能与 $N$ 的幂律关系变得非常清晰。
- 分析： 这暗示嵌入层参数可能不遵循与 Transformer 主体层相同的缩放规律，或者其对性能的边际贡献递减，因此将其排除能更好地揭示核心缩放规律。
学习率调度的影响：
- 结果： Figure 22 表明，多种学习率调度策略（如余弦衰减、线性衰减）在最终测试损失上差异不大，只要学习率不过小且衰减不过快，并且包含预热和衰减阶段。
- 分析： 学习率调度对最终收敛的微小影响，意味着其对大规模缩放定律的普适性不构成显著威胁。
  
  通过这些分析，论文有效地验证了其核心主张：语言模型的性能主要由其规模决定，而对许多其他超参数的依赖较弱。

7. 总结与思考

7.1. 结论总结

本文通过对神经语言模型进行大规模、系统性的实证研究，揭示了其性能（以交叉熵损失衡量）与模型非嵌入层参数量 $N$ 、数据集词元数 $D$ 和优化训练计算量 $C_{\mathrm{min}}$ 之间存在的精确幂律缩放关系。这些关系在对数坐标下表现为清晰的直线趋势，有些跨越超过七个数量级。

主要结论包括：

规模至上，形状次之： 模型性能最强烈地依赖于其总规模（由 N, D, C 决定），而对网络深度、宽度等具体架构细节以及学习率调度等优化超参数的依赖非常弱。
普适的幂律缩放： 损失与 $N, D, C_{\mathrm{min}}$ 均呈幂律关系，这些关系可以量化预测模型的性能。
过拟合的可预测性： 模型过拟合的程度与 $N$ 和 $D$ 之间存在一个统一的函数关系，并发现为避免过拟合，数据集规模可以次线性地随模型规模增长 ( $D \propto N^{0.74}$ )。
高样本效率的大模型： 更大的模型具有显著更高的样本效率，能以更少的训练步数和数据量达到相同的性能水平。
最优计算分配策略： 在固定计算预算下，实现计算效率最优的训练应主要将资源投入到训练非常大的模型上，同时使用相对适度的数据量，并在模型完全收敛之前停止训练。这意味着计算量应主要用于增加模型大小，而不是大幅增加训练步数或数据集大小。

这些发现为语言模型的研发提供了强大的经验性框架，使得研究人员能够更有效地规划计算资源，预测更大规模模型的性能，并指导未来模型设计和训练策略。

7.2. 局限性与未来工作

论文作者指出了以下局限性，并提出了未来的研究方向：

理论理解的缺乏：
- 局限性： 论文中提出的所有缩放定律都是经验性的，缺乏坚实的理论基础来解释其产生机制。特别是模型大小和计算量缩放关系的理论依据仍是谜团。
- 未来工作： 寻找能够从理论上推导出这些缩放关系的框架，类似于物理学中的“统计力学”来理解“热力学”现象。这有助于更深入地理解定律的适用范围和局限性。
$B_{\mathrm{crit}}(L)$ 预测范围的限制：
- 局限性： 临界批次大小 $B_{\mathrm{crit}}(L)$ 的预测在远离已探索的损失范围时可能不可靠。
- 未来工作： 更广泛地探索不同的损失区间，以验证和完善 $B_{\mathrm{crit}}(L)$ 的预测。
小数据制度和正则化未充分探索：
- 局限性： 论文未彻底研究小数据量下的训练制度，且对最小数据集（每个 epoch 仅40步）的拟合效果不佳。此外，正则化（如丢弃概率）和数据增强 (data augmentation) 策略也未被系统性地改变和优化。
- 未来工作： 探索小数据制度下的缩放定律，并研究不同正则化和数据增强策略对缩放规律的定量或定性影响。
计算量估计的局限性：
- 局限性： 估计的训练计算量 $C \approx 6NBS$ 未包含与上下文长度 $n_{\mathrm{ctx}}$ 相关的贡献。
- 未来工作： 在 $n_{\mathrm{ctx}}$ 非常大，特别是 $n_{\mathrm{ctx}} \gtrsim 12 d_{\mathrm{model}}$ 的情况下，需要重新评估计算量估计。
超参数调优的完备性：
- 局限性： 尽管调优了学习率和调度，但可能存在其他未被充分探索的关键超参数（如初始化尺度、动量等），它们可能对缩放关系产生重要影响。
- 未来工作： 进一步探索其他超参数对缩放定律的影响。
泛化到其他生成任务：
- 局限性： 本文主要关注语言模型。
- 未来工作： 验证这些缩放定律是否适用于其他生成式建模任务，如图像、音频和视频生成模型，以及随机网络蒸馏 (random network distillation) 等。这有助于确定哪些结果是语言数据特有的，哪些是普适的。
损失改进与实际任务表现的关联：
- 局限性： 损失的平滑定量改进是否能转化为实际语言任务（如问答、摘要）中的质变，仍需进一步研究。
- 未来工作： 探索损失下降与下游任务性能提升之间的深层联系，以及可能出现的“更多即不同 (more is different)”的质变时刻。
模型并行化策略：
- 局限性： 随着模型规模的持续扩大，单设备训练将不可行。
- 未来工作： 深入研究模型并行化策略（如流水线并行、宽网络并行、稀疏性、动态增长网络）以支持更大模型的训练，并使其保持在计算效率最优的前沿。

7.3. 个人启发与批判

个人启发：

“大模型比大数据更重要”的范式转变：论文最颠覆性的发现是，在优化计算效率时，大部分计算预算应投入到增大模型规模上，而非无限增加数据或训练步数。这与过去“数据为王”的理念形成对比，为大型人工智能系统的资源分配提供了明确且反直觉的指导。这解释了近年来大型语言模型（如 GPT-3）成功的背后逻辑，即通过巨大的模型容量在相对有限（但仍庞大）的数据上进行高效学习。
普适定律的存在： 复杂系统（如深度神经网络）在足够大的尺度下会展现出简洁的幂律规律，这本身就是一种深刻的科学洞察。它暗示了深度学习系统可能存在一些底层的“物理学”或“统计力学”原理，等待被发现和理论化。
工程实践的指导意义： 这些缩放定律为研究者和工程师提供了强大的预测工具。在启动一个昂贵的大规模训练任务之前，可以通过这些定律大致预测所需的计算资源、模型规模以及预期性能，从而避免盲目试错和资源浪费。
架构设计的简化： 发现模型性能对诸多架构细节（深度、宽度比）不敏感，使得模型设计者可以将更多精力放在总规模的提升上，而不必陷入细枝末节的超参数调优。

批判与可以改进的地方：

理论解释的缺失是硬伤： 尽管论文提供了非常有价值的经验规律，但缺乏对这些幂律背后机制的理论解释是其最大的局限。例如，为什么损失会以特定的幂律指数下降？这些指数与模型、数据或任务的内在特性有何关联？如果能有理论支撑，这些经验定律将更具说服力，也能更好地指导新模型和新任务的设计。
“矛盾与推测”部分的不确定性：论文在讨论未来超大规模下可能出现的矛盾点时，承认其数值高度不确定。这个“理论极限”或“熵值”的估计对未来的研究方向至关重要，但当前的推测性较强，需要更坚实的理论或实验证据来支持。
未探索的超参数和正则化： 尽管论文声称对模型形状的依赖较弱，但训练过程中的其他超参数（如学习率的精确函数形式、不同类型的正则化、数据增强）可能在某些情况下对缩放规律产生量化甚至定性影响。论文对此的探索相对有限。例如，更强的正则化或更多样的数据增强是否能改变数据缩放的指数？
“收敛之前停止训练”的平衡点：论文强调在收敛之前停止训练是计算效率最优的。但在实际应用中，如何精确判断这个“之前”的最佳时机，以及这是否会牺牲一些潜在的微小性能提升，是一个值得深入研究的工程问题。
模型内部可解释性的缺失： 论文关注的是宏观输入-输出关系，而没有深入探讨为什么大模型具有高样本效率，或者它们如何更快地学习模式。对模型内部机制的理解将有助于设计更智能、更高效的学习算法。

总而言之，这篇论文为大规模语言模型的研究奠定了重要的经验基础，其发现对当前及未来的 AI 发展具有深远的指导意义。但从长远来看，将这些经验规律提升为具有理论基础的科学定律，将是该领域进一步发展的关键。

Scaling Laws for Neural Language Models

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 42 分钟读完 · 24,270 字