1. 论文基本信息

1.1. 标题

JENGA: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity (Jenga：通过上下文词元稀疏性增强大型语言模型长上下文微调)

1.2. 作者

Tuowei Wang 和 Xingyu Chen (清华大学); Kun Li 和 Ting Cao (微软研究院); Ju Ren 和 Yaoxue Zhang (清华大学)

1.3. 发表期刊/会议

2025 USENIX Annual Technical Conference (ATC '25)。USENIX 是一个在系统领域享有盛誉的学术会议，发表在此处的论文通常代表了该领域的高质量研究。

1.4. 发表年份

2025

1.5. 摘要

随着对长上下文应用 (long-context applications) 需求的不断增长，扩展大型语言模型 (LLM) 上下文窗口 (context windows) 的必要性也随之增加。尽管最近的微调 (fine-tuning) 方法成功地扩展了上下文长度，但其高内存占用 (memory footprints)，尤其是激活值 (activations) 的内存占用，构成了关键的实际限制。当前的参数高效微调 (parameter-efficient fine-tuning, PEFT) 方法优先减少参数更新开销，而不是解决激活值内存限制。类似地，现有的稀疏机制 (sparsity mechanisms) 提高了计算效率 (computational efficiency)，但由于“影子激活 (Shadowy Activation)”现象而忽略了激活值内存优化。

本文提出了 Jenga，这是第一个探索并利用长上下文场景中固有的新型词元级别稀疏机制（称为上下文词元稀疏性 (Contextual Token Sparsity)）的 LLM 微调系统。Jenga 通过评估词元嵌入 (token embeddings) 的信息量 (informativeness) 来最小化冗余词元 (redundant token) 的参与，同时保持模型准确性。具体而言，Jenga 引入了三项关键技术：(1) 词元消除 (Token Elimination)，动态识别并排除不同输入和层中的冗余词元。(2) 模式预测 (Pattern Prediction)，利用训练有素的预测器以最小开销近似词元稀疏模式。(3) 核优化 (Kernel Optimization)，采用无置换 (permutation-free) 和基于分段 (segment-based) 的策略来提升系统性能。Jenga 被实现为一个端到端的微调系统，兼容各种 LLM 架构和其他优化技术。全面的评估表明，Jenga 将内存消耗降低了高达 $1.93 \times$ ，并实现了高达 $1.36 \times$ 的加速，优于最先进的微调系统。

1.6. 原文链接

https://www.usenix.org/system/files/atc25-wang-tuowei.pdf

2. 整体概括

2.1. 研究背景与动机

随着对复杂文档分析、多轮对话和复杂代码库处理等应用的需求日益增长，具备更大上下文窗口 (context windows) 的大型语言模型 (LLMs) 变得不可或缺。然而，LLMs 通常使用固定上下文窗口进行预训练，例如 Llama2 的 4K 词元 (token) 限制。当模型遇到超出此限制的输入时，其性能会显著下降。尽管最近的研究表明可以通过在更长序列上进行微调 (fine-tuning) 来扩展预训练 LLMs 的上下文窗口，但这带来了巨大的资源挑战，特别是内存消耗。

论文指出，在长上下文微调中，主要的内存瓶颈并非模型参数 (model parameters)，而是激活值 (activations)，这些中间结果和梯度 (gradients) 的大小与序列长度成比例增长。尽管已有的参数高效微调 (PEFT) 方法（如 LoRA）可以减少参数更新的内存需求，但它们并未优化激活值内存。同样，现有的稀疏机制 (sparsity mechanisms)（如 LongLoRA）虽然提高了计算效率，但由于“影子激活 (Shadowy Activation)”现象，它们未能提供额外的内存减少。影子激活指的是，一旦一个词元参与了计算，无论其被使用的程度如何，其激活值都会保留在内存中，导致内存浪费。

因此，论文的核心动机在于解决 LLM 长上下文微调中激活值内存消耗过大的问题，以实现更高效、更长上下文的支持。

2.2. 核心贡献/主要发现

本文提出了 Jenga 系统，其核心贡献和主要发现包括：

提出并利用了新型的上下文词元稀疏性 (Contextual Token Sparsity) 机制： Jenga 是第一个利用长上下文场景中固有的词元级别稀疏性的 LLM 微调系统。它通过识别并保留信息量最高的词元，直接减少词元参与，从而缓解了“影子激活”现象，优化了激活值内存和计算效率。
开发了三项关键技术以有效实现词元稀疏性：
- 信息驱动的词元消除 (Information-driven Token Elimination)： 通过分析词元交互定义信息量，并采用块级和层特定阈值动态消除冗余词元，同时保持模型准确性。
- 上下文感知模式预测 (Context-aware Pattern Prediction)： 使用轻量级神经网络作为预测器，以最小的开销准确地预测词元稀疏模式，避免了昂贵的完整注意力分数计算。引入弹性尺寸变换 (Elastic Size Transformation) 进一步优化预测器大小。
- 高性能核优化 (High-performance Kernel Optimization)： 采用无置换 (permutation-free) 策略来减少词元选择和填充过程中的全局内存数据移动，并通过基于分段 (segment-based) 的梯度计算方法有效缓解激活值内存峰值。
实现了兼容性与可扩展性： Jenga 作为端到端微调系统，兼容各种 LLM 架构，并可与现有优化技术（如二维稀疏性 (Two-dimensional Sparsity) 和稀疏敏感卸载 (Sparsity-sensitive Offload)）无缝集成，进一步提升性能。
显著的性能提升： 全面评估表明，Jenga 在保持模型准确性的前提下，将内存消耗降低了高达 $1.93 \times$ ，并实现了高达 $1.36 \times$ 的加速，超越了最先进的微调系统。它能支持更长的序列长度（例如，在单张 A800 GPU 上将序列长度从 $16\mathrm{K}$ 提升到 $32\mathrm{K}$ ）。

3. 预备知识与相关工作

3.1. 基础概念

大型语言模型 (Large Language Models, LLMs)： 指的是参数量巨大、在海量文本数据上进行预训练的深度学习模型，如 GPT 系列、Llama 系列等。它们在理解、生成和处理人类语言方面表现出色，是当前人工智能领域的热点。
上下文窗口 (Context Window)： LLMs 在处理文本时能够“看到”或“记住”的最大文本长度（通常以词元 (token) 数量表示）。超出这个长度的信息通常会被模型忽略或无法有效利用。
微调 (Fine-tuning)： 在预训练 (pre-training) 之后，将 LLM 在特定任务或特定领域的数据集上进行额外的训练，以使其适应下游任务或扩展其能力（例如，扩展上下文长度）。
激活值 (Activations)： 在神经网络的前向传播 (forward pass) 过程中，每个神经元或层计算出的中间输出。这些激活值在反向传播 (backward pass) 计算梯度时需要被存储，因此它们会占用大量的内存。
梯度 (Gradients)： 在神经网络训练过程中，用于更新模型参数的方向和大小的向量。梯度计算依赖于激活值，因此也需要内存来存储。
词元 (Token)： 文本被分割成的基本单位。可以是单词、子词或字符，具体取决于分词器 (tokenizer)。
注意力机制 (Attention Mechanism)： Transformer 架构的核心组件。它允许模型在处理序列的某个词元时，能够权衡输入序列中所有其他词元的重要性，并选择性地关注相关信息。
自注意力 (Self-Attention)： 注意力机制的一种特殊形式，其中查询 (query)、键 (key) 和值 (value) 都来自同一个输入序列。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- $Q$ (Query)：查询矩阵，代表当前词元如何去“寻找”其他词元。
- $K$ (Key)：键矩阵，代表序列中其他词元如何“响应”查询。
- $V$ (Value)：值矩阵，代表序列中其他词元所包含的实际信息。
- $d_k$ ：键向量的维度，用于缩放点积，防止梯度过大。
- $\mathrm{softmax}$ ：将注意力分数转换为概率分布，确保权重和为1。
参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)： 一类微调技术，旨在减少在微调过程中需要更新的参数数量，从而降低计算和内存开销。
低秩适配 (Low-Rank Adaptation, LoRA)： 一种流行的 PEFT 方法。它通过冻结预训练模型的权重，并在每个 Transformer 块中注入小的、可训练的低秩 (low-rank) 矩阵来适应模型。这显著减少了训练参数的数量和优化器状态的内存。

3.2. 前人工作

上下文窗口扩展： 现有的研究（例如 Position Interpolation [10]、YARN [53]）通过修改位置编码或微调算法来扩展 LLMs 的上下文窗口。这些方法虽然有效，但通常导致巨大的内存消耗，尤其是在处理长序列时，激活值成为主要瓶颈。
参数高效微调 (PEFT)： LoRA [29] 等方法通过只更新模型参数的一个子集（例如注入低秩矩阵）来减少优化器状态 (optimizer states) 的内存需求和计算量。然而，这些方法并未直接减少激活值内存。
稀疏机制 (Sparsity Mechanisms)：
- 注意力稀疏化： 一些工作（例如 Longformer [6]、Big Bird [77]）通过设计各种稀疏注意力模式来近似标准密集注意力 (dense attention)，从而减少计算量。
- LongLoRA [12]： 结合了 LoRA 和一种新型的转移稀疏注意力 ( $S^2$ -Attn) 机制。它将输入词元分成两组，并在每组中独立执行注意力，并通过位移操作在组间交换信息。LongLoRA 在计算上比 LoRA 更高效，但论文指出，它和其他稀疏方法一样，主要在隐藏维度 (hidden dimension) 上引入稀疏性，未能解决激活值内存问题。
词元利用优化 (Optimizations for Token Utilization)： 许多研究也探索了自然语言中的冗余性，以优化数据工程、提示压缩和推理优化。一些工作（例如 Token Merging [7]、PowerBERT [25]）在推理阶段通过消除词元来减少模型延迟。

3.3. 技术演进

LLM 的效率优化经历了一个从参数到计算，再到激活值内存的演进过程：

模型参数和优化器状态： 最初的挑战是训练大型模型的巨大参数量和优化器状态占用的内存。PEFT 方法（如 LoRA）通过减少可训练参数，有效缓解了这一问题。
计算量： 随着上下文长度的增加，注意力机制的计算复杂度呈二次方增长。稀疏注意力机制（如 LongLoRA）通过减少需要计算的注意力对数量，降低了计算开销。
激活值内存： 尽管前两类方法有所进展，但激活值内存问题在长上下文场景中依然突出，成为新的瓶颈。这是因为即使引入了稀疏性，如果词元仍然参与计算，其激活值依然会被存储，形成了论文中提出的“影子激活”现象。

3.4. 差异化分析

本文提出的 Jenga 方法与现有工作的核心区别在于：

关注点： Jenga 专注于解决激活值内存瓶颈，而现有 PEFT 方法主要优化参数和优化器状态内存，现有稀疏机制主要优化计算量。
稀疏级别： Jenga 引入并利用词元级别稀疏性 (token-level sparsity)，即直接减少参与计算的词元数量。这与现有稀疏机制在隐藏维度级别（例如，每个词元与更少的其他词元交互，但所有词元都参与）引入稀疏性形成对比。
“影子激活”问题： Jenga 是第一个直接通过最小化词元参与来解决“影子激活”问题的微调系统。通过直接减少冗余词元，Jenga 能够同时优化内存和计算效率，而现有稀疏方法因影子激活的存在，其计算节省未能有效转化为内存节省。
动态性和上下文敏感性： Jenga 的词元消除和模式预测是动态且上下文感知的，能够适应不同输入和模型层级的稀疏模式，这是现有词元消除方法（通常在推理时固定剪枝）所不具备的。

4. 方法论

4.1. 方法原理

Jenga 的核心思想是利用自然语言固有的冗余性，尤其是在长上下文场景中，识别并消除那些信息量较低的冗余词元。通过直接减少参与计算的词元数量，Jenga 旨在同时优化激活值内存和计算效率，从而解决现有微调方法未能有效处理的“影子激活”问题。该方法基于一个直觉：标准的完整注意力 (full attention) 可以通过关注一小部分信息量最高的词元之间的交互来有效近似。

Jenga 系统由三个主要技术组成，协同工作以实现和利用这种上下文词元稀疏性 (Contextual Token Sparsity)：

信息驱动的词元消除 (Information-driven Token Elimination)： 负责动态地识别和排除冗余词元。
上下文感知模式预测 (Context-aware Pattern Prediction)： 负责以低开销预测词元稀疏模式，避免昂贵的完整注意力计算。
高性能核优化 (High-performance Kernel Optimization)： 负责解决因动态稀疏性带来的系统级挑战，如数据移动和内存峰值。

以下是 Jenga 的整体概览图 (原文 Figure 5)：

图：Jenga 概览。在每一层，词元嵌入首先被分区成块并输入模式预测器 ( $\Theta$ )。利用这些预测器预测的信息量分数，词元消除算法 ( $\bullet$ ) 有效地识别并保留最具信息量的词元进行处理。优化的核 ( $\bullet$ ) 随后高效地执行词元选择、计算、残差相加和填充。

4.2. 信息驱动的词元消除 (Information-driven Token Elimination)

为了充分利用上下文词元稀疏性，准确识别不同输入和层中的冗余词元至关重要。Jenga 提出了一种信息驱动的算法，旨在动态识别和消除冗余词元，同时保持模型准确性。

4.2.1. 词元信息量 (Token Informativeness)

Jenga 基于词元与其在嵌入空间中其他词元的交互来定义词元的信息量。在注意力机制中，注意力分数 $S_{\text{attn}}$ 通常用于量化词元之间的交互。具体而言，词元 $i$ 和词元 $j$ 之间的交互通过 $S_{ij} = Q_i K_j$ 计算。受此启发，Jenga 通过考虑词元与其在长上下文序列中所有其他词元的交互来定义词元 $T_j$ 的信息量：

$I(T_{j}) = \sum_{i\neq j}S_{ij} = \sum_{i\neq j}Q_{i}K_{j} \quad (1)$ 其中：

$I(T_j)$ 表示词元 $j$ 的信息量。
$S_{ij}$ 表示词元 $i$ 和词元 $j$ 之间的注意力分数，量化了它们的交互强度。
$Q_i$ 是词元 $i$ 的查询向量。
$K_j$ 是词元 $j$ 的键向量。
求和 $\sum_{i\neq j}$ 聚合了序列中除词元 $j$ 自身外的所有词元 $i$ 的注意力分数。

4.2.2. 块级消除 (Block-wise Elimination)

为了优化与硬件特性的对齐，Jenga 以块级 (block-wise) 方式执行词元消除。以下是词元消除算法示意图 (原文 Figure 6)：

fig 6 图：词元消除算法。注意力分数首先在不同的注意力头之间聚合，并分区成多个分数块。每个分数块中的最大值被定义为其信息量得分，然后沿列聚合。这些结果分数与层特定阈值进行比较，以确定是否应保留相应的词元。

如图 6 所示，Jenga 沿词元维度将注意力分数分区成多个分数块 $\mathscr{B}^S$ 。在跨注意力头聚合后，每个块中的最大值被选作其信息量分数 $I(\mathscr{B}^S)$ 。值得注意的是，在聚合过程中，Jenga 仅对正的注意力分数求和。这是因为注意力分数经过 Softmax 操作，负值对最终结果的影响可以忽略不计，但如果包含在内可能会抵消正值的影响。通过排除负分数，聚合过程保留了信息量的完整性，并确保了稳健的词元消除。整个过程可以形式化为：

$I(\mathscr{B}_{nm}^S) = \max_{S_{ij}\in \mathscr{B}_{nm}^S}S_{ij} = \max_{S_{ij}\in \mathscr{B}_{nm}^S}\frac{\sum_{h,S_{ij}^t > 0}S_{ij}^t}{N_{\mathrm{head}}} \quad (2)$ 其中：

$I(\mathscr{B}_{nm}^S)$ 是第 $n$ 行、第 $m$ 列分数块的信息量。
$S_{ij} \in \mathscr{B}_{nm}^S$ 表示属于分数块 $\mathscr{B}_{nm}^S$ 的注意力分数。
$S_{ij}^{t}$ 表示词元 $i$ 和词元 $j$ 在注意力头 $h$ 中的注意力分数。
$N_{\mathrm{head}}$ 是注意力头的总数，作为缩放因子。
求和 $\sum_{h,S_{ij}^t > 0}$ 仅聚合正的注意力分数。

这种块级词元消除保留了长上下文序列的原始信息量，原因有二：

与长上下文输入序列相比，Jenga 使用的块大小相对较小。由于重要词元在长上下文序列中稀疏分布，大多数词元块不包含重要词元，可以安全消除而不影响准确性。
当重要词元确实落入某个块时，Jenga 为词元块设计的 $I(\mathscr{B}^S)$ 信息量分数能有效识别和保留这些块。因为重要词元和非重要词元之间的信息量分数差异足够大，重要词元不会被块中其他非重要词元平均掉。

4.2.3. 层特定阈值 (Layer-specific Threshold)

词元块的信息量分数 $\mathcal{B}^T$ 通过聚合相应的分数块计算得到，即 $\mathcal{B}_n^T = \sum_m\mathcal{B}_{nm}^S$ 。这些分数随后与一个阈值进行比较，以确定块内的词元是否应被消除。Jenga 通过采用层特定阈值进一步优化词元消除算法。关键在于 LLM 内部不同层表现出不同的稀疏模式。图 7 (原文 Figure 7) 展示了不同模型层中词元块的平均信息量分数差异很大，表明统一阈值并非最优。

fig 7 图：不同层中词元块的平均信息量分数（归一化）。

算法 1 (原文 Algorithm 1) 概述了 Jenga 的方法，该方法基于分数分析为所有层初始化一个默认阈值，然后对这些值进行微调，以适应每个层独特的稀疏特性。

算法 1: 层特定阈值优化 (Layer-Specific Threshold Optimization)

输入: 模型层 $L = \{L_1, L_2, \dots, L_n\}$
输出: 层阈值 $T = \{T_1, T_2, \dots, T_n\}$

步骤 1: 阈值初始化 (Threshold Initialization)
- 对于每个层 $L_i \in L$ $L_{i} \in L$ 执行：
  - $T_i \leftarrow \text{avg}(I(\theta^T) \text{for all } B^T \in L_i)$ (平均词元块的得分)
步骤 2: 阈值微调 (Threshold Fine-Tuning)
- 对于每个层 $L_i \in L$ $L_{i} \in L$ 执行：
  - $G_i \leftarrow (\text{acc}(T_i + \epsilon) - \text{acc}(T_i - \epsilon)) / (2\epsilon)$ (使用有限差分计算梯度)
  - $T_i \leftarrow T_i + \eta \cdot G_i$ (根据梯度更新阈值)

返回: $T$

4.2.4. 扩展到 MLP 块 (Extend to MLP Block)

Jenga 还将词元消除扩展到多层感知机 (MLP) 块。类似于注意力分数，Jenga 利用 MLP 块中的中间激活值来评估每个词元的信息量。这种扩展可以被视为 MLP 块中广泛研究的神经元稀疏性 (neuron sparsity) [37, 41, 48] 的变体，确保与各种 MLP 块结构兼容：

对于基于 ReLU (Rectified Linear Unit) 的结构 [2]，激活值是 ReLU 层的输出。
对于基于 SiLU (Sigmoid Linear Unit) 的结构 [20]，激活值对应于门控投影 (gate projection)（在 SiLU 之后）和上投影 (up projection) 的逐元素乘法。这些技术使 Jenga 能够无缝地在不同模型组件和配置之间适应词元消除。

4.3. 上下文感知模式预测 (Context-aware Pattern Prediction)

虽然准确的稀疏模式可以直接从完整的注意力分数中导出，但计算和存储这些分数过于昂贵，其复杂度与序列长度呈二次方关系。此外，由于上下文词元稀疏性的动态性质，最优稀疏模式只能在运行时确定，并且随不同输入和层而变化。为了解决这些挑战，Jenga 采用一组轻量级神经网络作为预测器。通过将上下文嵌入作为输入，这些预测器能够准确高效地推断稀疏模式。

4.3.1. 基于神经网络的预测器 (Neural-network-based Predictor)

如图 8 (原文 Figure 8) 所示，Jenga 在每一层部署一对预测器，分别近似查询 $Q$ 和键 $K$ 的信息量分数。每个预测器由三个可训练的低秩 (low-rank) 矩阵组成，并在连续矩阵之间应用 ReLU 激活函数。预测器的输入是包含上下文信息的词元嵌入 $X$ ，这些嵌入被组织成块以与块级消除对齐。通过从每个块中提取代表性嵌入，预测器输出近似的信息量分数 $\hat{I}(Q)$ 和 $\hat{I}(K)$ 。然后，这些分数相乘，以近似注意力分数的信息量 $\hat{I}(S_{\mathrm{attn}})$ ：

$\hat{I} (S_{\mathrm{attn}}) = \hat{I} (Q)\hat{I} (K)^T,\hat{I} (B_{mn}^S) = \hat{I} (B_m^Q)\hat{I} (B_n^K)^T \quad (3)$ 其中：

$\hat{I}(S_{\mathrm{attn}})$ 是近似的注意力分数信息量。
$\hat{I}(Q)$ 和 $\hat{I}(K)$ 分别是预测器输出的查询和键的信息量分数。
$\hat{I}(B_{mn}^S)$ 是第 $n$ 行、第 $m$ 列分数块的近似信息量。
$\hat{I}(B_m^Q)$ 是第 $m$ 个查询块的近似信息量。
$\hat{I}(B_n^K)$ 是第 $n$ 个键块的近似信息量。当 $Q$ 和 $K$ 预测器训练良好时， $\hat{I}(S_{\mathrm{attn}})$ 可以提供准确信息量分数 $I(S_{\mathrm{attn}})$ 的一个接近估计。

以下是模式预测过程示意图 (原文 Figure 8)：

图：模式预测过程。每一层都配备了两个预测器，分别近似 $Q$ 和 $K$ 。以词元嵌入作为输入（组织成词元块），每个预测器输出每个词元块的信息量分数 $\hat{I}(B_m^Q)$ 和 $\hat{I}(B_n^K)$ 。然后将这些分数相乘，计算阻塞注意力分数的 $\hat{I}(B_{mn}^S)$ 。此外，采用弹性尺寸变换独立地最小化每一层的预测器尺寸。

这些预测器在有限的训练数据集上可以快速收敛并表现出良好的预测性能。Jenga 中的预测器首先单独处理每个词元，然后将这些单独的预测聚合为统一的结果。这种策略将预测器的尺寸限制为单个词元块的维度，而不是整个长上下文序列，从而简化了设计并减轻了预测开销。

4.3.2. 弹性尺寸变换 (Elastic Size Transformation)

为了进一步减小预测器的尺寸，Jenga 利用了一种弹性尺寸变换技术，该技术根据预测器中神经元的个体稀疏特性动态修剪神经元。受激活值剪枝研究的启发，此设计利用了 ReLU 激活函数的特性，该函数在预测器中间激活中引入了大量的零元素。当激活元素为零时，其对应的神经元（即模型权重的行或列）变得不活跃，可以安全地被忽略。Jenga 将此机制集成到其自定义设计的预测器中。具体而言，Jenga 在训练期间跟踪中间激活元素的零频率，并定期修剪与最高零频率相关的神经元。弹性尺寸变换无需任何先验假设，自适应地确定每个预测器的最佳尺寸，有效降低了计算和内存开销。

4.3.3. 综合开销分析 (Comprehensive Overhead Analysis)

Jenga 对预测器在训练和推理过程中引入的开销进行了分析：

离线训练开销： 主要瓶颈在于获取注意力分数的信息量 $I(S_{\mathrm{attn}})$ 。得益于块级处理方式，Jenga 将其自定义训练核无缝集成到最先进的 FlashAttention [15, 16] 中。这种集成消除了对完整注意力分数进行显式计算和存储的需要。相反， $I(S_{\mathrm{attn}})$ 是在线导出的，导致内存复杂度与序列长度呈线性增长。
在线推理开销：
- 给定序列长度 $s$ 、头维度 $h$ 和块大小 $b$ ：
- 计算开销包括两部分：(1) 预测 I(Q) 或 I(K) 的复杂度为 $O(sh^2)$ ；(2) 预测 $I(S_{\mathrm{attn}})$ 的复杂度为 $O(s^2/b^2)$ 。在长上下文场景中，第二部分成为主导因素。然而，通过增加块大小 $b$ 可以有效缓解这种开销。
- 内存开销：主要来自于预测器中的线性权重，复杂度为 $O(bh^2)$ 。重要的是，这种复杂度相对于模型配置保持不变。
- 由于弹性尺寸变换，计算和内存复杂度都通过稀疏因子进一步降低，平均减少了 $50\%$ 。

4.4. 高性能核优化 (High-performance Kernel Optimization)

Jenga 专注于词元级别稀疏性，对原始微调动力学只做了最小修改，从而能够无缝重用现有的优化计算流程。然而，Jenga 中隐藏的两个关键挑战会影响其性能。首先，层间稀疏模式的变化需要迭代的词元选择和填充，导致大量的昂贵全局内存移动。其次，LLMs 巨大的词汇量需要大量的激活值内存来计算每个词元的输出损失梯度，尤其是在长上下文场景中。Jenga 结合了几种硬件高效技术在核级别有效地缓解了这些瓶颈。

4.4.1. 无置换词元移动 (Permutation-free Token Movement)

上下文词元稀疏性的动态性导致不同层中稀疏模式的变化，涉及不同的词元子集。以下是朴素词元移动与 JENGA 的比较图 (原文 Figure 9)：

图：朴素词元移动与 JENGA 的比较。红线突出显示，朴素核导致大量全局内存移动开销。JENGA 通过核融合开发了一种无置换策略。

如图 9 所示，在每一层，一组信息量较低的词元被消除，剩余的词元被重新置换以作为注意力块的输入。然后，注意力输出用零填充以保持维度一致性，并最终残差添加到原始输入中。词元选择、词元填充和残差相加的过程涉及全局内存中大量的数据移动，这会导致高内存访问延迟。

Jenga 开发了一种无置换策略 (permutation-free strategy)，将所有不必要的置换操作与注意力计算融合。Jenga 不会实例化循环词元 (recurrence tokens)，而是直接从原始输入中加载选定的词元。此外，Jenga 将注意力输出原地添加到原始输入中，在一步中同时完成词元填充和残差相加。在反向传播 (backpropagation) 期间，当计算注意力权重的梯度时，会重新计算原始输入。由于输入嵌入矩阵可以通过从输出嵌入矩阵中减去自注意力输出来恢复，因此开销最小。这种简化的方法消除了不必要的内存分配和昂贵的全局内存移动，显著提高了系统性能。

4.4.2. 基于分段的峰值削减 (Segment-based Peak Cutting)

LLMs 通常是自回归的 (autoregressive)，根据所有前导词元预测下一个词元的概率分布。在微调期间，对于输入序列中的每个词元，模型会生成下一个词元的概率分布，并计算预测值与真实值之间的损失。对于具有大词汇量 (vocabulary size) 和长上下文窗口的 LLMs，这个过程会导致激活值内存使用量急剧增加。以下是损失梯度计算期间的内存峰值图 (原文 Figure 10)：

图：损失梯度计算期间的内存峰值，因大词汇量和长上下文而加剧。X 轴表示微调周期的时间线。

如图 10 所示，这些激活值虽然是瞬态的，但由此产生的内存峰值提高了 LLM 微调的上限，对 GPU 内存资源提出了更严格的要求。现有的实现通常使用列式并行 (column-wise parallelism) 来将词汇量分布在多个 GPU 上。然而，这种优化仅在多 GPU 配置中有效，对单 GPU 设置没有益处。

为了解决这个问题，Jenga 采用了一种基于分段的峰值削减策略 (segment-based peak-cutting strategy)，该策略在最终损失计算期间将词元序列分区成更小、更易于管理的片段。Jenga 不会对整个序列进行前向传播并保留所有中间激活值，而是独立处理每个片段，然后聚合它们的梯度。每个片段的激活值在相应的梯度计算完成后立即被丢弃。因此，当序列被分成 $N$ 个片段时，激活值内存峰值会减少到 $1/N$ 。这种方法极大地缓解了单个 GPU 上的内存压力，并且与现有的多 GPU 优化兼容。

5. 实验设置

5.1. 数据集

长上下文微调 (Long-context Fine-tuning)： 使用 RedPajama [14] 数据集，遵循 LongLoRA 的设置。
困惑度 (Perplexity, PPL) 评估： 在书本语料库数据集 PG19 [57] 和经过清理的 Arxiv Math proof-pile [3] 数据集上评估微调模型的困惑度，以评估长上下文建模性能。
LongBench 基准测试： 在 LongBench [5] 基准测试上评估 Jenga 方法，遵循在 LongAlign-10k [4] 数据集上进行指令微调 (instruction-tuning) 的设置。这些任务涵盖了多个关键的长文本应用领域。

5.2. 评估指标

对论文中出现的每一个评估指标，进行以下说明：

内存占用 (Memory Footprint)：
- 概念定义： 指模型在运行时（通常是前向传播结束后，内存峰值时）所消耗的 GPU 显存总量。这个指标直接反映了模型在给定硬件上的可运行性。
- 数学公式： 该指标通常以物理单位（如 GB）直接测量，没有普适的数学公式。它由模型参数、优化器状态、激活值、梯度以及其他临时缓冲区内存之和构成。
- 符号解释： 通常以 Gigabytes (GB) 为单位表示。
执行时间 (Execution Time)：
- 概念定义： 指模型完成一个微调步骤（包括前向传播、反向传播和参数更新）所需的总时间。它是衡量模型训练效率的关键指标。
- 数学公式： 该指标通常以物理单位（如秒或毫秒）直接测量，没有普适的数学公式。
- 符号解释： 通常以秒 (s) 为单位表示。论文中也使用“加速比 (speedup)”来表示效率提升，即基线方法的时间除以 Jenga 的时间。
困惑度 (Perplexity, PPL)：
- 概念定义： 困惑度是衡量语言模型好坏的常用指标，尤其是在生成和预测任务中。它量化了语言模型预测样本的能力。PPL 越低，表示模型对文本序列的预测能力越强，模型越好。
- 数学公式： 对于一个给定的词元序列 $W = w_1 w_2 \dots w_N$ ，其困惑度计算公式为： $\mathrm{PPL}(W) = \sqrt[N]{\prod_{i=1}^N \frac{1}{P(w_i|w_1,\dots,w_{i-1})}} = \exp\left(-\frac{1}{N}\sum_{i=1}^N \log P(w_i|w_1,\dots,w_{i-1})\right)$
- 符号解释：
  - $W$ ：一个由 $N$ 个词元组成的序列。
  - $w_i$ ：序列中的第 $i$ 个词元。
  - $N$ ：序列中的词元总数。
  - $P(w_i|w_1,\dots,w_{i-1})$ ：在给定前 i-1 个词元的情况下，模型预测下一个词元是 $w_i$ 的概率。
  - $\prod_{i=1}^N$ ：从 $i=1$ 到 $N$ 的连乘。
  - $\exp$ ：自然指数函数。
  - $\log$ ：自然对数。
准确率 (Accuracy)：
- 概念定义： 在 LongBench 基准测试中，准确率是衡量模型在特定任务（如问答、摘要等）上表现的指标。对于不同任务，其具体计算方式可能略有不同（例如，精确匹配、F1 分数等），但通常高准确率表示模型性能好。
- 数学公式： LongBench 包含多种任务，其准确率可能由具体的任务评估指标决定，如对于分类任务是 (正确预测样本数 / 总样本数)，对于问答任务可能是 F1 分数或精确度等。论文中未提供统一的通用公式，而是直接给出各项任务的得分。
- 符号解释： 具体含义取决于 LongBench 中各子任务的定义。

5.3. 对比基线

Jenga 与以下两种最先进的微调方法进行了比较：

LoRA [29]： 参数高效微调 (PEFT) 方法的代表。它通过注入小的、可训练的低秩矩阵来减少可训练参数的数量。
LongLoRA [12]： 稀疏性微调方法的代表。它基于 LoRA，并引入了一种新的转移稀疏注意力机制以进一步提高效率。

选择这些基线的原因是它们分别代表了当前 LLM 微调效率优化的两个主要方向：参数高效和稀疏化。这有助于全面评估 Jenga 在内存和计算效率方面的优势。对于加速比分析，主要与 LoRA 进行比较，LongLoRA 作为参考，因为两者关注的稀疏性维度不同，直接公平比较具有挑战性。

5.4. 硬件和模型配置

硬件平台 (Table 4)：

Platform GPUs Memory FP32 TFLOPS BF16 TFLOPS
Platform A 1 x A800 80GB 19.5 312
Platform B 1 x A40 48GB 37.4 150
Platform C 4 x 4090 24GB 82.6 82.6
- Platform A (1 x A800, 80GB): 主要用于内存测量，因为它提供最大的 GPU 内存容量。
- Platform B (1 x A40, 48GB): 也是数据中心工作站常用 GPU。
- Platform C (4 x 4090, 24GB): 用于可扩展性实验，代表桌面专业级 GPU。
- 所有评估均采用混合精度 (mixed-precision) 技术 (BF16 和 FP32)。
模型配置 (Table 5)：

Model # params. Def Len. Seq Len.
OPT [81] 350M/1.3B/2.7B/6.7B 2K 2K-64K
Llama2 [67] 7B 4K 4K-64K
Llama3 [19] 8B 8K 4K-64K
- 选择了两个最受欢迎的 LLM 家族：OPT 和 Llama。
- 模型参数量从 350M 到 8B 不等，默认上下文长度也不同。
- 评估的序列长度范围从 2K 到 64K。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 内存占用 (Memory Footprint)

以下是不同微调方法的内存占用比较 (原文 Table 1)：

Model	Llama-2-7B	Llama3-8B	Mistral-7B	OPT-6.7B
Naive	67.9	78.4	73.4	63.8
LoRA	39.2	43.4	39.3	36.1
LongLoRA	41.3	43.9	39.3	38.1
Jenga	31.3	34.5	31.4	30.0

下表展示了 GPT-3 175B 的激活值内存使用情况（与模型状态相比）在不同序列长度下的数据 (原文 Table 2)：

Model States	s=4K	s=8K	s=16K	s=32K	s=64K
16×175B=2.8T	937G	3.42T	13.0T	50.8T	201T
-	0.34×	1.22×	4.65×	18.14×	71.6×

以下是 A800 上的内存占用比较图 (原文 Figure 12)：

图：A800 上的内存占用比较。

图 12 展示了 Jenga 在不同模型和序列长度下的内存效率。结果表明，在 $4\mathrm{K}$ 和 $8\mathrm{K}$ 序列长度下，Jenga 相较于 LoRA 在六个不同模型上平均实现了 $38.2\%$ 和 $50.5\%$ 的内存节省。与 LongLoRA 相比也观察到类似的好处，因为“影子激活”的存在使得 LongLoRA 的稀疏机制在内存使用方面无效（甚至略有增加）。此外，结果显示，对于固定模型，Jenga 的内存效率随着序列长度的增加而提高。这与长文本序列通常表现出更大冗余的观察结果一致。Jenga 增强的效率极大地扩展了在 GPU 内存限制下可实现的微调序列长度。在没有激活值重计算和卸载的情况下，LoRA 和 LongLoRA 在微调 OPT 1.3B (350M) 时，序列长度分别限制在 $16\mathrm{K}$ ( $32\mathrm{K}$ )。相反，Jenga 将此容量翻倍，在单个 A800 GPU 上支持高达 $32\mathrm{K}$ ( $64\mathrm{K}$ ) 的序列长度。

6.1.2. 执行时间 (Execution Time)

以下是 A800 和 A40 上 Jenga 的端到端加速比图 (原文 Figure 13)：

图：A800 和 A40 上 JENGA 的端到端加速比。

图 13 展示了 Jenga 在 $4\mathrm{K}$ 序列长度下微调不同模型时的执行时间和相应的加速比。结果显示，Jenga 实现了与 LongLoRA 相当的计算效率，在两个平台上，相对于 LoRA 平均加速比分别为 $10.8\%$ 和 $8.6\%$ 。观察到 LongLoRA 在某些情况下可能比 LoRA 慢，这主要是因为当序列长度不足时，稀疏操作难以充分利用硬件计算能力。相比之下，Jenga 对原始计算流程的修改最少，使其能够有效地将计算节省转化为实际的加速。对更长序列长度（带重计算）的 Jenga 进一步评估显示了额外的性能增益，最高达到了 $1.36 \times$ 的加速比。

6.1.3. 准确性评估 (Accuracy Evaluation)

Jenga 在 LongBench 基准测试上的模型准确性比较 (越高越好) (原文 Table 6)：

Tasks	mfqa_zh	mfqa_en	gov_report	triviaqa	vcsum	qmsum	musique	2wikimqa	repon重
Origin	23.45	23.22	27.44	84.60	13.30	22.64	4.63	9.01	52.00
Ours	23.53	24.74	25.92	82.59	13.02	20.33	5.73	10.14	48.32
Tasks	qasper	hotpotqa	multi_news	pr_zh	pr_en	trec	Isht	dureader	lcc
Origin	15.94	9.40	24.43	10.0	20.0	68.0	21.0	23.69	71.28
Ours	17.68	9.55	22.53	8.00	22.0	68.0	25.0	21.37	70.32

注：Origin 指的是原始 LoRA 方法。

下表展示了 Jenga 对模型准确性的影响，通过与原始 LoRA 比较。首先，测量了在两个代表性长上下文数据集 PG19 和 Proof-Pile 上微调后的 Llama2 7B 的测试困惑度 (PPL) (原文 Table 7)：

Model	Llama2-7B (PG19)		Llama2-7B (Proof-Pile)
Sequence Length	4K	8K	4K	8K
LoRA	15.2	14.8	18.5	18.2
Jenga	15.4	15.0	18.7	18.4

表 7 显示，Jenga 在不同序列长度下，相比原始 LoRA，困惑度分数仅有微小增加。此外，表 6 表明 Jenga 在 LongBench 基准测试上实现了与原始 LoRA 相当的准确率。这些评估共同证实，长上下文序列中固有的冗余性可以有效地用于提高性能效率，而不会损害模型准确性。

6.2. 消融实验与参数分析

6.2.1. 细粒度性能分解 (Fine-grained Performance Breakdown)

以下是 Llama2 微调的性能分解图 (原文 Figure 14)：

图：Llama2 微调的性能分解：(a) 内存占用和 (b) 执行时间。

图 14 提供了 Jenga 的详细性能分解，涵盖内存和计算方面。

内存方面： 结果表明，Jenga 相较于 LoRA 和 LongLoRA 有效降低了激活值内存消耗。尽管引入的预测器会产生额外的内存使用，但其开销很小，确保了整体内存减少。此外，这种减少在不同序列长度下保持一致，激活值内存的减少与序列长度呈线性关系。
计算方面： Jenga 也实现了相对于 LoRA 的计算增益，因为减少的词元参与导致前向和反向阶段的计算量减少。同样，预测器的计算开销在整个过程中可以忽略不计。

6.2.2. 技术 1: 词元消除 (Token Elimination)

以下是 Llama2 7B (上) 和 OPT 6.7B (下) 在不同层间的内存占用和对应阈值图 (原文 Figure 15)：

图：Llama2 7B (上) 和 OPT 6.7B (下) 在不同层间的内存占用和对应阈值。

图 15 展示了 Jenga 的信息驱动词元消除算法在层级上的有效性。评估在 Llama2 和 OPT 模型上进行，考虑到它们各自使用 SiLU 和 ReLU 作为激活函数的不同 MLP 块架构。结果表明，词元消除算法在注意力块上平均节省了 $38.3\%$ ( $38.0\%$ ) 的内存，在 MLP 块上平均节省了 $51.1\%$ ( $54.8\%$ ) 的内存（Llama2 为括号外，OPT 为括号内）。此外，层特定阈值的应用允许在不同层之间进行不同程度的减少，最大限度地利用词元级别稀疏性，同时保持模型准确性。

以下是无重要词元块的比例图 (a) 和词元块内注意力分数的分布图 (b) (原文 Figure 16)：

图：(a) 无重要词元块的比例和 (b) 词元块内注意力分数的分布。

图 16(a) 说明了不同层中非重要块的比例。如果一个块的信息量分数低于同一层中最大值（不包括异常值）的 $10\%$ ，则被认为是非重要块。结果显示，大量词元块不包含任何重要词元，尤其是在模型的深层。这归因于所使用的块大小相对较小（例如，在评估设置中为 64），与长上下文输入序列的长度相比。随着模型深度的增加，重要词元分布变得更加稀疏，导致大多数词元块不包含重要词元。这些块可以在不损害模型准确性的情况下安全消除。

图 16(b) 展示了词元块内注意力分数的三个代表性分布。结果表明，当大多数词元都具有信息量时，词元块通常被归类为重要块；当没有词元具有信息量时，则被归类为非重要块。即使块中只有少数词元重要，该块仍被视为重要块。这是因为重要词元和非重要词元之间的信息量分数差异足够大，在 Jenga 的块选择策略下，重要词元不会被平均掉。

6.2.3. 技术 2: 模式预测 (Pattern Prediction)

以下是 LongAlign (LA)/Red-Pajama (RP) 上的训练损失曲线图 (a) 和预测器预测可视化图 (b) (原文 Figure 17)：

图：(a) LongAlign (LA)/Red-Pajama (RP) 上的训练损失曲线和 (b) 预测器的预测可视化。

图 17(a) 展示了预测器在两个模型和两个数据集上的训练损失。结果表明，预测器在离线训练期间快速收敛，所需周期少于 400 个，这对于后续昂贵的 LLM 微调来说是一个可接受的开销。通过计算预测器的召回率指标，达到了令人印象深刻的平均 $95.13\%$ 。图 17(b) 显示，预测的注意力分数与真实值非常接近，有效地识别了冗余词元，具有高准确性。

下表展示了预测器在不同模型层中的参数尺寸 (原文 Table 8)：

Model	Llama2-7B	OPT-6.7B
Average Reduction	64.6%

表 8 详细说明，通过利用预测器固有的稀疏性，它们的参数尺寸在各层之间可以统一减少，平均减少 $64.6\%$ 。这种预测器尺寸的减少最大限度地降低了预测开销，与性能分解中的发现保持一致。

6.2.4. 技术 3: 核优化 (Kernel Optimization)

以下是 Jenga 无置换核的性能图 (原文 Figure 18)：

图：JENGA 无置换核的性能。

图 18 比较了在不同序列长度下，经过无置换词元移动优化的核与朴素实现的性能。结果显示，选择性加载 (selective load) 和原地相加 (in-place addition) 这两种核融合策略都有效提升了性能。整体加速比随序列长度增加而增加，从 $10 \times$ 到超过 $50 \times$ 。这种改进主要源于全局内存移动和临时数据分配的减少。这些发现强调了高性能核设计的重要性，它为 Jenga 的算法框架奠定了坚实的基础。

以下是损失梯度计算中的内存使用峰值图 (原文 Figure 19)：

图：损失梯度计算中的内存使用峰值。X 轴表示微调周期的时间线。

图 19 展示了使用和不使用基于分段的峰值削减技术进行微调时的内存消耗。在朴素实现中，梯度计算需要大约 10GB 的临时激活值内存，导致内存峰值效率低下。通过将梯度计算分区成更小的片段，尖锐的峰值被分成多个小得多的内存峰值，额外节省了 $15\%$ 的内存。

6.3. 扩展评估 (Extension Evaluation)

以下是两个扩展的性能改进图 (原文 Figure 20)：

图：两个扩展的性能改进。

6.3.1. 扩展 1: 二维稀疏性 (Two-dimensional Sparsity)

在 Jenga 的基础上，进一步探索了在注意力计算期间对剩余词元应用现有隐藏维度级别稀疏性技术 [70]。图 20(a) 显示，这种二维稀疏性进一步提高了 Jenga 的计算效率，在 Llama2 上实现了高达 $2.04 \times$ 的加速比。

6.3.2. 扩展 2: 稀疏敏感卸载 (Sparsity-sensitive Offload)

比较了稀疏敏感卸载与朴素统一卸载策略的性能。与朴素方法不同，Jenga 考虑了不同层之间变化的稀疏比，从而允许卸载更多的激活值或减少数据传输延迟。图 20(b) 显示，这项技术在 Llama2 上平均实现了 $1.22 \times$ 的加速比。

6.4. 可扩展性分析 (Scalability Analysis)

以下是 Jenga 的强可扩展性评估图 (原文 Figure 21)：

图：JENGA 的强可扩展性评估。

图 21 展示了 Jenga 在 $4 \times 4090$ GPU 上的强可扩展性。结果显示，Jenga 的性能随着 GPU 数量的增加而按比例扩展，适用于不同的模型和序列长度。这种可扩展性之所以实现，是因为 Jenga 无缝地最小化了词元参与，并且没有引入额外的通信开销。这些结果突显了 Jenga 在大规模系统中部署的潜力。

6.5. 冗余词元比例 (Sparsity Ratios of Attention Scores)

下表展示了注意力分数在不同序列长度下的稀疏比（低于最大值 0.3 的比例）(原文 Table 3)：

Seq len. 4K	6K	8K	10K	12K	14K	16K
Llama2	38.6%	48.8%	48.1%	65.3%	69.5%	62.2%
Llama3	44.6%	46.0%	54.7%	52.3%	57.8%	58.9%

表 3 的数据支持了 Jenga 的核心洞察：自然语言存在显著冗余，且在长上下文场景中尤为明显。随着序列长度的增加，注意力分数中重要交互的比例下降，稀疏性比率（低于最大值 0.3 的比例）显著提高。例如，Llama2 在 $4\mathrm{K}$ 序列长度时稀疏比为 $38.6\%$ ，而在 $12\mathrm{K}$ 时上升到 $69.5\%$ 。这表明存在大量可以被安全消除的冗余词元，为 Jenga 的词元消除策略提供了基础。

7. 总结与思考

7.1. 结论总结

本文提出了 Jenga，一个旨在优化 LLM 长上下文微调的系统。Jenga 的核心贡献在于引入并利用了新型的上下文词元稀疏性 (Contextual Token Sparsity) 机制，这是一种在 LLM 长上下文微调中固有的词元级别稀疏性。为了系统地利用这一机制，Jenga 开发了三项关键技术：信息驱动的词元消除 (Information-driven Token Elimination) 用于识别冗余词元，上下文感知模式预测 (Context-aware Pattern Prediction) 用于以低开销预测稀疏模式，以及高性能核优化 (High-performance Kernel Optimization) 用于解决系统层面的性能瓶颈。

通过这些创新，Jenga 能够最小化冗余词元的参与，从而有效解决了长上下文微调中激活值内存消耗过大的问题（即“影子激活”现象）。全面的实验评估表明，Jenga 在保持模型准确性的前提下，将内存消耗降低了高达 $1.93 \times$ ，并实现了高达 $1.36 \times$ 的加速，优于现有的最先进微调方法。此外，Jenga 还展示了良好的可扩展性和与其他优化技术（如二维稀疏性和稀疏敏感卸载）的兼容性。

7.2. 局限性与未来工作

论文中并未明确指出 Jenga 的具体局限性，但可以从其设计和实现中推断出一些潜在方面：

预测器开销的平衡： 尽管 Jenga 努力最小化预测器的开销，并通过弹性尺寸变换进一步优化，但在极端长上下文或对延迟要求极高的场景下，预测器的计算和内存开销仍可能是一个需要仔细权衡的因素。
稀疏模式的普适性： 论文证明了在特定数据集和模型上的词元稀疏性。然而，这种稀疏模式在不同领域、语言或任务中是否具有普遍性，以及其变化规律如何，可能需要更广泛的研究。如果稀疏性模式不够稳定或可预测，预测器的训练和准确性可能会受到影响。
与更复杂的模型架构集成： 随着 LLM 架构的不断演进，例如引入新的注意力机制或混合专家 (MoE) 结构，Jenga 的词元消除和模式预测策略可能需要进一步调整和验证。
工程复杂性： Jenga 结合了算法层面的词元消除、ML 层面的模式预测以及系统层面的核优化，其端到端实现和维护的工程复杂性可能相对较高。

至于未来工作，作者明确表示 Jenga 的核心思想是“压缩体现智能，稀疏性是强有力的压缩形式”，并期望 Jenga 能启发对稀疏性更广泛的探索，以推动 LLMs 的发展。这暗示了以下研究方向：

更细粒度的稀疏性探索： 除了词元级别，是否能在更小的粒度（例如，词元内部的子部分）或更高抽象级别（例如，文档或章节级别）上发现并利用稀疏性。
自适应稀疏度控制： 开发更智能的机制，可以根据任务、数据特性或性能需求，动态调整稀疏度，实现性能与准确性的最佳平衡。
稀疏感知硬件设计： 结合 Jenga 等稀疏优化技术，设计更高效的专用硬件加速器，以原生支持动态稀疏计算，进一步提升效率。
将稀疏性应用于更广泛的 LLM 生命周期： 除了微调，将词元稀疏性应用于 LLM 的预训练、推理、甚至模型压缩和蒸馏等其他阶段。

7.3. 个人启发与批判

Jenga 论文提供了一个非常重要的视角，即在 LLM 的长上下文处理中，激活值内存而非模型参数或计算本身是主要瓶颈。它成功地将自然语言的冗余性这一语言学概念，转化为一个可操作的系统优化策略，直接针对这一瓶颈。

个人启发：

“影子激活”的洞察：论文提出的“影子激活”概念是理解当前 LLM 效率瓶颈的关键。它提醒我们，仅仅在理论上减少计算量（例如，稀疏注意力）并不总是能转化为实际的内存或性能收益，因为系统层面的内存管理和数据流同样重要。
多层次优化思维： Jenga 结合了算法（词元消除）、模型（模式预测）和系统（核优化）三个层面的优化，这是一种强大的解决复杂系统问题的范式。对于解决 AI 领域的实际工程问题，这种跨层面的协同优化至关重要。
信息量评估的精巧： 通过注意力分数来量化词元信息量，并采用块级和层特定阈值，这一设计既符合直觉，又考虑了计算和硬件效率。这提供了一个通用框架，可以启发其他需要动态剪枝或选择性处理的场景。
稀疏性作为通用优化手段： 论文再次强调了稀疏性作为一种强大的压缩形式。在 LLMs 越来越大、上下文越来越长的趋势下，找到并利用各种形式的稀疏性将是未来效率优化的核心方向。

潜在问题与批判：

预测器训练成本与泛化： 虽然论文提到预测器可以快速收敛，但其离线训练仍然需要计算真实注意力分数的信息量，这本身在长序列上是昂贵的。此外，预测器是在特定数据集上训练的，其在领域外或少样本场景下的泛化能力如何，可能需要进一步验证。
动态稀疏性的运行时开销： 尽管核优化减少了数据移动，但动态的词元选择和填充仍然引入了额外的控制流和可能的内存碎片化，这可能在某些极端硬件或软件栈上引入不可预测的延迟。如何确保这种动态性始终优于静态稀疏性或更简单的剪枝策略，是一个持续的挑战。
微观层面的准确性影响： 尽管整体准确率和 PPL 保持良好，但在某些对细节极其敏感的任务中（例如，法律文本分析、精确代码生成），微小的词元消除是否可能导致难以察觉但重要的信息损失？这需要更细致的错误分析。
更复杂的交互稀疏性： Jenga 主要关注单个词元的信息量。然而，在长上下文中，信息往往以更复杂的模式存在，例如跨越多个词元或长距离依赖的结构。目前的基于单个词元信息量的稀疏性是否能捕捉所有这些重要的交互，或是否能与其他形式的结构化稀疏性结合，是值得探索的方向。

总而言之，Jenga 为 LLM 长上下文微调的效率优化开辟了一条新路径，通过对“影子激活”现象的深刻洞察和多层次的技术栈整合，为未来的 LLM 研究提供了宝贵的经验和启发。

Platform	GPUs	Memory	FP32 TFLOPS	BF16 TFLOPS
Platform A	1 x A800	80GB	19.5	312
Platform B	1 x A40	48GB	37.4	150
Platform C	4 x 4090	24GB	82.6	82.6

Model	# params.	Def Len.	Seq Len.
OPT [81]	350M/1.3B/2.7B/6.7B	2K	2K-64K
Llama2 [67]	7B	4K	4K-64K
Llama3 [19]	8B	8K	4K-64K

Jenga: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 20,460 字