论文状态：已完成

Twilight: Adaptive Attention Sparsity with Hierarchical Top-$p$ Pruning

发表：2025/02/05

自适应注意力稀疏性 (1)长上下文大语言模型加速 (1)基于Top-$p$采样的稀疏注意力 (1)动态预算注意力机制 (1)自注意力操作加速 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了`Twilight`框架，通过引入`top-p`采样来实现自适应注意力稀疏性，旨在加速长上下文大语言模型（LLMs）。实验结果显示，该框架可自适应剪枝98%冗余词元，实现15.4倍自注意力操作加速和3.9倍的端到端延迟加速，同时不损失准确性。

摘要

Leveraging attention sparsity to accelerate long-context large language models (LLMs) has been a hot research topic. However, current algorithms such as sparse attention or key-value (KV) cache compression tend to use a fixed budget, which presents a significant challenge during deployment because it fails to account for the dynamic nature of real-world scenarios, where the optimal balance between accuracy and efficiency can vary greatly. In this paper, we find that borrowing top- $p$ sampling (nucleus sampling) to sparse attention can surprisingly achieve adaptive budgeting. Based on this, we propose Twilight, a framework to bring adaptive sparsity to any existing sparse attention algorithm without sacrificing their accuracy. Empirical results show that Twilight can adaptively prune at most 98% of redundant tokens, leading to $15.4\times$ acceleration in self-attention operations and $3.9\times$ acceleration in end-to-end per token latency in long context LLM decoding.

思维导图

论文精读

中文精读约 48 分钟读完 · 31,656 字

1. 论文基本信息

1.1. 标题

Twilight: Adaptive Attention Sparsity with Hierarchical Top- $p$ Pruning

1.2. 作者

Chaofan Lin, Jiaming Tang, Shuo Yang, Hanshuo Wang, Tian Tang, Boyu Tian, Ion Stoica, Song Han, Mingyu Gao 作者团队来自清华大学 (Tsinghua University)、麻省理工学院 (Massachusetts Institute of Technology) 和加州大学伯克利分校 (University of California, Berkeley)。

1.3. 发表期刊/会议

目前为预印本 (preprint)，发布于 arXiv。发布日期为 2025 年 2 月 4 日。虽然具体会议未注明，但此类研究通常会提交至机器学习 (Machine Learning) 或系统 (Systems) 领域的顶级会议，如 NeurIPS, ICLR, MLSys, OSDI 等。

1.4. 发表年份

2025

1.5. 摘要

该研究针对利用注意力稀疏性 (attention sparsity) 加速长上下文 (long-context) 大语言模型 (LLMs) 的热门课题。论文指出，现有算法（如稀疏注意力或键值 (KV) 缓存压缩）通常采用固定预算 (fixed budget)，这在实际部署中面临挑战，因为无法适应真实世界场景中准确性 (accuracy) 与效率 (efficiency) 之间动态变化的最佳平衡。本研究发现，将 top-p 采样 (top-p sampling，又称核采样 - nucleus sampling) 引入稀疏注意力 (sparse attention) 可以出人意料地实现自适应预算 (adaptive budgeting)。在此基础上，论文提出了 Twilight，一个能够为任何现有稀疏注意力算法带来自适应稀疏性 (adaptive sparsity) 而不牺牲准确性的框架。实验结果表明，Twilight 可以自适应地剪枝 (prune) 高达 98% 的冗余词元 (tokens)，从而使自注意力 (self-attention) 操作加速 15.4 倍，并在长上下文 LLM 解码 (decoding) 中实现端到端 (end-to-end) 每词元 (per-token) 延迟加速 3.9 倍。

1.6. 原文链接

https://arxiv.org/abs/2502.02770

1.7. PDF 链接

https://arxiv.org/pdf/2502.02770v5.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

长上下文大语言模型 (LLMs) 在自然语言处理 (NLP) 领域带来了革命性的变革，但在处理极长序列（如百万级词元 - 1M tokens）时，其计算和内存成本呈指数级增长，尤其是在注意力机制 (attention mechanism) 中，键值 (KV) 缓存 (KV cache) 的大小迅速膨胀，导致高延迟和高内存消耗。现有的稀疏注意力 (sparse attention) 和 KV 缓存压缩 (KV cache compression) 算法大多采用固定预算 (fixed budget) 来选择或保留词元 (tokens)，但这无法适应真实世界中注意力权重分布的动态变化，导致在准确性与效率之间难以找到最优平衡。

2.1.2. 为什么这个问题在当前领域是重要的

长上下文 LLMs 在检索增强 (retrieval-based tasks)、文档摘要 (document summarization)、代码生成 (code generation) 等应用中具有巨大潜力。随着上下文窗口 (context windows) 扩展到 1M 甚至 10M 词元，视频语言模型 (VLMs) 和大型推理模型 (Large Reasoning Models) 等新兴应用对处理超长序列的需求日益增长。解决其计算和内存瓶颈是推动这些应用广泛部署的关键。

2.1.3. 现有研究存在的挑战或空白 (Gap)

预算选择的动态性挑战： 最优的 KV 缓存预算 (KV cache budget) 在运行时是动态变化的。不同的注意力头 (attention heads) 可能关注局部信息或全局信息，导致其注意力权重分布差异巨大（例如，有的集中分布 - focused attention，有的平坦分布 - diffuse attention）。固定预算无法同时兼顾这两种情况，可能导致过度选择 (over-selection) 或选择不足 (under-selection)。
算法依赖性与校准成本： 不同的稀疏注意力算法需要不同程度的冗余选择来弥补其估计关键词元重要性时的不准确性，这需要进行耗时的离线校准 (offline calibration) 来为每个算法找到合适的预算。
缺乏普适的自适应机制： 现有针对动态预算的研究通常只关注某一特定层面（如层级、头级、提示级）的动态性，缺乏一个统一且普适的机制来应对注意力权重分布的内在动态性。

2.1.4. 这篇论文的切入点或创新思路

论文受到大语言模型文本生成阶段 top-p 采样 (nucleus sampling) 机制的启发。top-p 采样能够根据词元概率分布的动态变化来选择不同数量的词元，从而实现自适应采样。Twilight 将这一思想引入稀疏注意力，提出通过设定一个累积注意力权重 (accumulated attention weights) 阈值 $p$ 来动态确定需要保留的词元数量，而非固定数量的词元。这提供了一种更内在、更自适应的方式来管理稀疏注意力预算。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

深入分析 top-k 稀疏注意力的局限性： 详细阐述了 top-k 稀疏注意力在动态预算选择上的困境，并指出其与 LLM 采样中 top-k 的问题具有相似性。
引入 top-p 采样实现自适应预算： 创新性地将 top-p 采样 (top-p sampling) 引入稀疏注意力，以动态、适应性地决定 KV 缓存预算，从而解决了 top-k 固定预算的问题。
提出 Twilight 分层剪枝框架： 设计并实现了 Twilight，一个分层“选择-然后-剪枝 (Select-then-Prune)”架构，使其能够增强任何现有的稀疏注意力算法，赋予其自适应预算选择能力，而无需对其核心逻辑进行大幅修改。
高效的系统级实现： 开发了高效的核 (kernel) 实现，包括用于量化 KV 缓存的 SpGEMV (Sparse General Matrix-Vector Multiplication) 和基于二分搜索 (binary search) 的 top-p 算法，并解决了头部动态性 (head dynamism) 带来的负载均衡 (load balancing) 问题。

2.2.2. 论文得出了哪些关键的结论或发现

显著的效率提升： Twilight 能够自适应地剪枝高达 98% 的冗余词元，导致自注意力操作加速 15.4 倍，并在长上下文 LLM 解码中实现端到端每词元延迟加速 3.9 倍。与所应用的基础稀疏注意力方法相比，Twilight 额外提供了 1.4 倍的加速。
几乎无准确性损失： 在各种长上下文 (Longbench, RULER) 和中等上下文 (GSM8K, COQA, PG-19) 基准测试中，Twilight 在大幅提升效率的同时，几乎没有造成准确性损失，甚至在某些情况下略有提升。
top-p 作为更优的超参数： 相比于固定数量的 $k$ ，top-p 阈值 $p$ 是一个更合理、更易于调优的超参数，因为它直接关联到累积注意力权重，对不同注意力分布的动态性不那么敏感。
与现有系统和方法的兼容性： Twilight 的设计与 PagedAttention 等现有 LLM 服务系统兼容，并且可以与量化、线性注意力等其他 KV 缓存优化技术结合。
词元选择优于词元丢弃： 实验结果再次验证了词元选择 (token selecting) 方法（如 DS-Twilight）在准确性上优于词元丢弃 (token dropping) 方法（如 StreamingLLM 和 SnapKV），因为后者会造成不可逆的信息损失。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大（通常数十亿到数万亿）的深度学习模型，通过在海量文本数据上进行预训练，学习到丰富的语言规律和世界知识。它们能够执行多种复杂的自然语言处理任务，如文本生成、摘要、问答和翻译等。

3.1.2. 上下文窗口 (Context Window)

上下文窗口定义了 LLM 在生成输出时能够考虑的输入序列的最大长度。一个更大的上下文窗口允许模型处理更长的文本，理解更复杂的语境和更远的依赖关系，但也显著增加了计算和内存需求。

3.1.3. 注意力机制 (Attention Mechanism) 与自注意力 (Self-Attention)

注意力机制是 Transformer 模型的核心组成部分。它允许模型在处理序列中的每个词元时，动态地计算输入序列中其他词元与当前词元之间的相关性（或“注意力”），并根据这些相关性来加权聚合信息。自注意力 (Self-Attention) 是注意力机制的一种特殊形式，其中查询 (query)、键 (key) 和值 (value) 都来自同一个输入序列。其计算量通常与序列长度的平方成正比，是长上下文 LLMs 的主要性能瓶颈。标准的自注意力计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

符号解释:
- $Q$ (Query): 查询矩阵，表示当前词元对其他词元进行“查询”的信息。
- $K$ (Key): 键矩阵，表示输入序列中所有词元被查询的“键”信息。
- $V$ (Value): 值矩阵，表示输入序列中所有词元包含的实际“值”信息。
- $K^T$ : 键矩阵的转置。
- $d_k$ : 键向量的维度 (dimension of key vectors)，用于缩放点积，防止点积结果过大导致 softmax 梯度过小。
- $\mathrm{softmax}(\cdot)$ : 归一化指数函数，将注意力分数转换为概率分布，确保所有权重之和为 1。
- $QK^T$ : 查询和键的点积，表示查询与每个键之间的相似度。
- $\mathrm{Attention}(Q, K, V)$ : 最终的注意力输出，是值向量的加权和。

3.1.4. 键值缓存 (Key-Value Cache, KV Cache)

在 LLM 的解码 (decoding) 阶段，模型通常逐词元生成输出。为了避免在生成每个新词元时重复计算之前所有词元的键 (key) 和值 (value) 向量，这些向量会被缓存起来。这个缓存被称为 KV 缓存。随着生成序列的长度增加，KV 缓存的大小会迅速增长，成为内存消耗和内存带宽 (memory bandwidth) 的主要瓶颈。

3.1.5. 稀疏注意力 (Sparse Attention)

稀疏注意力是一种优化策略，它不是计算所有词元对当前词元的注意力，而是只计算输入序列中一个子集（即“关键词元”或“重击者 - heavy hitters”）的注意力。其目的是减少计算量和内存访问，从而提高长上下文 LLMs 的推理效率。

3.1.6. top-k 采样 (top-k sampling)

在 LLM 文本生成中，top-k 采样是指从模型预测的下一个词元概率分布中，选择概率最高的 $k$ 个词元进行采样。在稀疏注意力中，它指的是选择注意力分数最高的 $k$ 个词元来参与注意力计算。

3.1.7. top-p 采样 / 核采样 (top-p sampling / nucleus sampling)

top-p 采样（又称核采样）是一种在 LLM 文本生成中，比 top-k 采样更灵活的策略。它不是选择固定数量的 $k$ 个词元，而是选择一个最小的词元集合，使得这些词元的累积概率 (cumulative probability) 超过一个预设的阈值 $p$ 。这允许模型根据概率分布的尖锐程度动态调整采样空间的大小。在稀疏注意力中，top-p 意味着选择一个最小的词元集合，使得这些词元的累积注意力权重超过阈值 $p$ 。

3.1.8. 解码阶段 (Decoding Stage)

LLM 生成输出序列的阶段。在这个阶段，模型通常根据前面生成的词元和当前的输入提示 (prompt)，预测下一个词元的概率分布，然后通过采样或其他策略选择下一个词元，并将其添加到输出序列中，重复此过程直到生成结束标志或达到最大长度。

3.1.9. 困惑度 (Perplexity, PPL)

困惑度是衡量语言模型质量的一个常用指标。它量化了语言模型预测文本序列的“不确定性”或“惊奇度”。困惑度越低，表示模型对文本的建模能力越强，对下一个词元的预测越准确。

3.1.10. 量化 (Quantization)

量化是将模型参数（如权重、激活值）从高精度浮点表示（如 FP32 或 FP16）转换为低精度整数表示（如 INT8 或 INT4）的过程。其主要目的是减少模型存储大小、内存带宽需求和计算能耗，从而加速推理并降低部署成本。

3.1.11. SpGEMV (Sparse General Matrix-Vector Multiplication)

SpGEMV 是稀疏矩阵-向量乘法。在计算机科学和数值线性代数中，当矩阵中大部分元素为零时，将其存储为稀疏格式（只存储非零元素及其位置），并设计专门的算法进行乘法运算，可以显著提高计算效率和减少内存使用。

3.1.12. GQA (Grouped Query Attention)

分组查询注意力 (Grouped Query Attention, GQA) 是多头注意力 (Multi-Head Attention, MHA) 的一种变体，旨在减少 KV 缓存的内存消耗和内存带宽。在 GQA 中，多个查询头 (query heads) 共享同一个键头 (key head) 和值头 (value head)。这意味着虽然有多个查询向量独立计算注意力，但它们都使用同一组键值对。这降低了 KV 缓存的大小（因为 KV 头数量减少了），但仍然能从多个查询头中获得丰富的表示能力。

3.2. 前人工作

3.2.1. Top-k 稀疏注意力 (Top-k Sparse Attention)

大多数现有稀疏注意力算法属于这一类别。它们通过各种方法识别并选择固定数量的 $k$ 个“关键”词元进行注意力计算。

H2O [8], StreamingLLM [17], SnapKV [18]: 这些方法主要通过静态的、查询无关 (query-agnostic) 的方式驱逐非关键词元，被称为 KV 缓存压缩 (KV cache compression)。它们倾向于直接删除不重要的词元。
SparQ [19], Quest [9], Double Sparsity (DS) [12], HShare [20]: 这些方法通常将所有词元保留在 GPU 内存中，但在计算时只选择部分关键词元来减少数据访问和计算。它们的核心是通过 top-k 操作来识别最重要的词元。
RetrievalAttention [21], PQCache [22]: 采用了更先进的算法来更好地估计词元的重要性。
NSA [23], MoBA [24]: 探索了可训练的稀疏注意力机制。然而，这些 top-k 方法都需要预先设定和配置合适的预算 $k$ ，并面临过度/选择不足的问题。

3.2.2. 动态预算 (Dynamic Budget)

近期研究表明，最优预算在不同层、注意力头和提示之间显著不同。

层级动态性： PyramidKV [25] 和 PyramidInfer [26] 观察到不同层对上下文长度的需求不同，并相应地调整 KV 缓存。
头级动态性： Ada-KV [27] 和 RazorAttention [28] 发现不同注意力头具有不同的功能（例如“检索头”关注全局信息，其他头关注局部信息），因此需要不同的预算。
提示级动态性： DynamicKV [29] 提出不同任务（提示）对上下文的需求也不同。这些工作通常只关注其中一个维度的动态性。本文指出，注意力权重分布的不同是所有这些动态性的根本原因。

3.2.3. 非 Top-k 稀疏注意力 (Non-top-k Sparse Attention)

少数研究超越了传统的 top-k 方法。

MagicPIG [30]: 使用局部敏感哈希 (Locality-Sensitive Hashing, LSH) 采样来估计注意力权重，而不是直接丢弃词元，但需要复杂的算法-系统协同设计。
SampleAttention [31]: 引入了自适应稀疏性，但主要集中在预填充 (prefill) 阶段。
Tactic [32]: 与本文同期的一项工作，也探索了 top-p 稀疏性，但它通过函数拟合 (function fitting) 来估计权重分布，这可能导致预算过度估计。

3.2.4. 其他 KV 缓存优化 (Other KV Cache Optimizations)

除了稀疏化之外，还有其他优化 KV 缓存的方法。

量化 (Quantization): KVQuant [33], KIVI [34], GEAR [35], Dynamic Memory Compression [36] 等通过将 KV 缓存存储为低精度格式（如 INT4, INT8）来减少内存占用和带宽需求。
线性注意力 (Linear Attention): Linformer [37], Transformers are RNNs [38] 等将注意力机制的复杂度从二次方降为线性。
内存高效注意力机制： FlashAttention [39], SageAttention [40, 41] 等通过高效的核 (kernel) 实现来优化注意力计算的内存访问模式。本文的方法与这些方法是正交的，可以结合使用以获得更好的性能。

3.3. 技术演进

从最早的 Transformer 模型全注意力 (full attention) 机制的二次方复杂度，到 KV 缓存的引入以加速解码，再到为应对长上下文的挑战而出现的各种稀疏注意力技术，该领域的技术演进一直围绕着如何在保证模型性能的前提下，优化计算和内存效率。早期的稀疏方法多采用固定策略（如滑动窗口、块稀疏等）或 top-k 选择。随着对模型行为理解的深入，研究发现固定策略的局限性，从而转向探索动态稀疏性。Twilight 正是在这一背景下，通过引入 top-p 这种更细致、更自适应的动态预算机制，代表了稀疏注意力技术的一个重要演进方向。它不仅提供了一个新的自适应机制，更重要的是，它作为一个通用框架，能够提升现有稀疏注意力算法的效率，展现了其普适性和实用性。

3.4. 差异化分析

Twilight 与现有工作的核心区别和创新点在于：

自适应预算决策机制： 与大多数基于 top-k 的稀疏注意力方法（如 Quest、DS）不同，Twilight 不依赖于预设的固定预算 $B$ 。它采用 top-p 采样思想，根据注意力权重分布的实际情况动态调整保留的词元数量，确保累积注意力权重达到阈值 $p$ ，从而避免了 top-k 可能导致的过度选择或选择不足问题。
普适的增强框架： Twilight 不是提出一种全新的稀疏注意力算法，而是一个通用的分层选择-然后-剪枝 (Select-then-Prune) 框架。这意味着它可以作为现有任何 top-k 稀疏注意力算法的优化器，无需重新设计基础算法，即可为其赋予自适应预算能力。这大大降低了新技术的集成成本和风险。
从根本上解决动态性问题： 现有动态预算研究（如层级、头级、提示级动态性）通常只关注特定维度的动态调整。Twilight 则从注意力权重分布的内在动态性这一根本原因出发，通过 top-p 机制提供了一个统一的、适应性更强的解决方案。
系统级高效实现： 论文不仅提出了算法层面的创新，还针对 top-p 剪枝器 (Pruner) 的需求，设计并实现了高效的 GPU 核，包括 4 位量化 SpGEMV 和基于二分搜索的 top-p 算法，确保了理论优势能够在实践中转化为显著的性能提升。
与同期工作的对比： 虽然 Tactic [32] 也探索了 top-p 稀疏性，但它使用函数拟合来估计权重分布，可能导致预算过度估计。Twilight 则采用更直接的 top-p 阈值化，并且其“选择-然后-剪枝”架构使其成为一个更通用的增强工具。

4. 方法论

4.1. 方法原理

Twilight 的核心思想源于对现有 top-k 稀疏注意力 (sparse attention) 方法局限性的深刻洞察。这些方法面临一个根本性挑战：如何确定一个普适的固定预算 $B$ （即选择多少个词元 - tokens），才能在准确性 (accuracy) 和效率 (efficiency) 之间取得最佳平衡。论文指出，这个问题与大语言模型 (LLM) 文本生成阶段 top-k 采样 (top-k sampling) 的困境非常相似：固定的 $k$ 值无法适应不同词元 (token) 概率分布的动态变化。

为了解决这个问题，Twilight 借鉴了 top-p 采样 (nucleus sampling) 的思想。top-p 采样的目标是选择一个最小的词元集合，使其累积概率 (cumulative probability) 超过一个预设阈值 $p$ 。将此思想引入稀疏注意力，Twilight 的目标变为：选择一个最小的词元集合 $\mathcal{T}$ ，使得这些词元对当前查询的累积注意力权重 $\sum_{i \in \mathcal{T}} \mathbf{W}[i]$ 达到或超过一个预设的阈值 $p$ 。

其直觉是，注意力机制的输出误差与未被选择词元的累积注意力权重相关（如 Equation 2 所示）。通过设定一个累积注意力权重阈值 $p$ ，可以直接控制模型的准确性损失上限为 $(1-p) \cdot \lVert \mathbf{V} \rVert_F$ 。同时，top-p 机制能够自适应地调整被选择词元的数量，以应对注意力权重分布的动态变化（例如，当分布集中时选择较少词元，当分布平坦时选择较多词元），从而在保证准确性的前提下，最大化地剪枝冗余词元，降低计算成本。

4.2. 核心方法详解

4.2.1. 问题形式化 (Problem Formulation)

论文首先形式化了稀疏注意力机制。在 LLM 的解码 (decoding) 阶段，给定一个查询向量 (query vector) $\mathbf{q} \in \mathbb{R}^{1 \times d}$ ，以及键值缓存 (KV cache) $\mathbf{K}, \mathbf{V} \in \mathbb{R}^{n \times \breve{d}}$ 。这里 $d$ 是注意力头维度 (head dimension)， $n$ 是上下文长度 (context length)。

定义 3.1 (稀疏注意力 - Sparse Attention): 设 $\mathcal{T}$ 为选定词元索引的集合。稀疏注意力计算输出 $\hat{\mathbf{o}}$ 的公式为： $\hat{\mathbf{o}} = \mathrm{softmax}\bigg(\frac{\mathbf{q} \cdot \mathbf{K}^T}{\sqrt{d}}\bigg) \pmb{\Lambda}_{\mathcal{T}} \mathbf{V} = \mathbf{W} \pmb{\Lambda}_{\mathcal{T}} \mathbf{V} \in \mathbb{R}^{1 \times d}$ 其中，

$\mathbf{q} \cdot \mathbf{K}^T$ : 查询向量 $\mathbf{q}$ 与键矩阵 $\mathbf{K}$ 的转置 $\mathbf{K}^T$ 的点积，得到原始注意力分数。
$\sqrt{d}$ : 缩放因子，用于防止点积结果过大。
$\mathrm{softmax}(\cdot)$ : 归一化函数，将原始注意力分数转换为归一化的注意力权重分布 $\mathbf{W}$ 。 $\mathbf{W}$ 是一个行向量，其每个元素 W[i] 表示当前查询对第 $i$ 个词元的注意力权重。
$\pmb{\Lambda}_{\mathcal{T}}$ : 是一个对角矩阵，其对角线元素 $\pmb{\Lambda}_{\mathcal{T}}[i, i]$ 仅当索引 $i \in \mathcal{T}$ 时为 1，否则为 0。它起到了掩码 (mask) 的作用，只允许选定的词元参与注意力计算。
$\mathbf{V}$ : 值矩阵，包含所有词元的值向量。
$\hat{\mathbf{o}}$ : 稀疏注意力机制的输出向量，是选定词元值向量的加权和。

而全注意力 (full attention) 的输出 $\mathbf{o}$ （所有词元都参与计算）为： $\mathbf{o} = \mathrm{softmax}\bigg(\frac{\mathbf{q} \cdot \mathbf{K}^T}{\sqrt{d}}\bigg) \mathbf{V} \in \mathbb{R}^{1 \times d}$ 为了最小化稀疏注意力输出 $\hat{\mathbf{o}}$ 与全注意力输出 $\mathbf{o}$ 之间的误差 $\lVert \mathbf{o} - \hat{\mathbf{o}} \rVert$ ，论文指出可以利用弗罗贝尼乌斯范数 (Frobenius norm) 的次乘性 (sub-multiplicative property) 对误差进行绑定，如 Equation 2 所示： $\begin{aligned} \mathcal{L} &= \lVert \mathbf{o} - \hat{\mathbf{o}} \rVert = \lVert \mathbf{W} (\pmb{\Lambda}_{\mathcal{T}} - \mathbf{1}^{n \times n}) \mathbf{V} \rVert \\ &\leq \lVert \mathbf{W} (\pmb{\Lambda}_{\mathcal{T}} - \mathbf{1}^{n \times n}) \rVert \cdot \lVert \mathbf{V} \rVert_F \end{aligned}$
符号解释:
- $\mathcal{L}$ : 输出误差，用向量范数 $\lVert \cdot \rVert$ 表示。
- $\mathbf{1}^{n \times n}$ : 一个 $n \times n$ 的全 1 矩阵。在上下文 $\mathbf{W} (\pmb{\Lambda}_{\mathcal{T}} - \mathbf{1}^{n \times n})$ 中，它表示的是当所有词元都被选入时（即 $\mathcal{T}$ 包含所有 $n$ 个索引）， $\pmb{\Lambda}_{\mathcal{T}}$ 成为一个单位矩阵，那么 $\pmb{\Lambda}_{\mathcal{T}} - \mathbf{1}^{n \times n}$ 将是表示未被选择词元部分的矩阵。更确切地说，这部分误差可以简化为 $1 - \sum_{i \in \mathcal{T}} \mathbf{W}[i]$ ，即未被选择词元的总注意力权重。
- $\lVert \mathbf{V} \rVert_F$ : 值矩阵 $\mathbf{V}$ 的弗罗贝尼乌斯范数。论文指出 $\mathbf{V}$ 的分布相对平滑 [42]，因此 $\lVert \mathbf{V} \rVert_F$ 可以被视为一个常数。
  
  因此，最小化输出误差的目标可以近似地转化为最小化未被选择词元的累积注意力权重，即最小化 $1 - \sum_{i \in \mathcal{T}} \mathbf{W}[i]$ ，这等价于最大化 $\sum_{i \in \mathcal{T}} \mathbf{W}[i]$ 。

基于这一目标，论文提出了两种词元选择策略的理论定义：

定义 3.2 (Oracle Top-k 稀疏注意力 - Oracle Top-k Sparse Attention): 给定一个固定预算 $B$ （即选择 $B$ 个词元），Oracle Top-k 稀疏注意力选择词元集合 $\mathcal{T}$ 的方式为： $\mathcal{T} = \arg\max_{\mathcal{T}} \sum_{i \in \mathcal{T}} \mathbf{W}[i] \quad \mathrm{s.t.~} |\mathcal{T}| = B$

符号解释:
- $\mathcal{T}$ : 选定的词元索引集合。
- $\arg\max_{\mathcal{T}}$ : 使得函数 $\sum_{i \in \mathcal{T}} \mathbf{W}[i]$ 达到最大值的 $\mathcal{T}$ 。
- $\sum_{i \in \mathcal{T}} \mathbf{W}[i]$ : 选定词元集合的累积注意力权重。
- $\mathrm{s.t.~}$ : “受限于 (subject to)”的缩写。
- $|\mathcal{T}| = B$ : 约束条件，即选定词元集合的大小必须等于预算 $B$ 。这代表了在给定固定预算下，选择注意力权重最高的 $B$ 个词元的理想情况，是现有 top-k 稀疏方法的理论上限。

定义 3.3 (Oracle Top-p 稀疏注意力 - Oracle Top-p Sparse Attention): 给定一个累积注意力权重阈值 $p$ ，Oracle Top-p 稀疏注意力选择词元集合 $\mathcal{T}$ 的方式为： $\mathcal{T} = \arg\min_{\mathcal{T}} |\mathcal{T}| \quad \mathrm{s.t.~} \sum_{i \in \mathcal{T}} \mathbf{W}[i] \geq p$

符号解释:
- $\mathcal{T}$ : 选定的词元索引集合。
- $\arg\min_{\mathcal{T}}$ : 使得函数 $|\mathcal{T}|$ 达到最小值的 $\mathcal{T}$ 。
- $|\mathcal{T}|$ : 选定词元集合的大小。
- $\mathrm{s.t.~}$ : “受限于 (subject to)”的缩写。
- $\sum_{i \in \mathcal{T}} \mathbf{W}[i] \geq p$ : 约束条件，即选定词元集合的累积注意力权重必须至少达到阈值 $p$ 。 top-p 策略旨在选择满足给定误差要求（由 1-p 决定）所需的最少词元。它的优势在于能够根据注意力权重分布动态调整词元数量，并且从 Equation 2 可以看出，其理论误差上限为 $(1-p) \cdot \lVert \mathbf{V} \rVert_F$ 。

4.2.2. `Twilight` 框架 (Twilight Framework)

Twilight 框架的核心是其分层选择-然后-剪枝 (Select-then-Prune) 架构。该架构旨在为任何现有稀疏注意力算法提供自适应预算选择能力，而无需重新设计基础算法本身。图 5 展示了 Twilight 的整体架构。

$Figure 5: Twilight architecture. Twilight incorporates a certain existing base sparse attention algorithm and further optimizes it. It computes self-attention in three steps. First, the Token Selector selects critical tokens using the base algorithm under a conservative budget. Then, the Twilight Pruner prunes the selected token subset via top- $p$ thresholding. Finally, the pruned token indices are passed to the Sparse Attention Kernel to perform the attention computation.$ 该图像是示意图，展示了Twilight架构的自注意力计算过程。该过程分为三个步骤：首先，Token Selector使用基础算法在保守预算下选择关键token；接着，Twilight Pruner通过top- $p$ 阈值修剪选定的token子集；最后，将修剪后的token索引传递给稀疏注意力内核以执行注意力计算。

Figure 5: Twilight architecture. Twilight incorporates a certain existing base sparse attention algorithm and further optimizes it. It computes self-attention in three steps. First, the Token Selector selects critical tokens using the base algorithm under a conservative budget. Then, the Twilight Pruner prunes the selected token subset via top- $p$ thresholding. Finally, the pruned token indices are passed to the Sparse Attention Kernel to perform the attention computation.

Twilight 的工作流程可以分为三个主要步骤：

词元选择器 (Token Selector): 这一阶段利用一个现有的、成熟的稀疏注意力算法作为黑盒组件。该基础算法负责初步筛选出一批“关键”词元。为了确保不会遗漏重要的词元，Token Selector 通常会在一个相对保守（即预算较大，例如 $1/4$ 的稀疏度）的配置下运行。这意味着它会选择一个较大的词元子集，确保其中包含了真正重要的词元，即使其中可能存在一些冗余。
Twilight 剪枝器 (Twilight Pruner): 这是 Twilight 框架的核心创新点。Pruner 接收 Token Selector 产生的初步词元子集，并对其进行进一步的精炼。它应用了 top-p 阈值化 (top-p thresholding) 机制，其目标是：在这些初步选定的词元中，找出累积注意力权重超过预设阈值 $p$ 的最小词元集合。通过这种方式，Pruner 能够动态地、自适应地决定最终需要保留的词元数量，剔除掉 Token Selector 可能产生的冗余词元，从而实现更极致的稀疏性。
稀疏注意力核 (Sparse Attention Kernel): 经过 Twilight Pruner 优化后，最终确定的一组精简词元索引被传递给标准的稀疏注意力计算核。这个核只对这些选定的词元执行注意力计算，从而实现计算和内存访问的效率提升。

这种分层设计解决了将 top-p 引入现有稀疏注意力算法所面临的三个关键挑战：

C1 (并非所有算法都适合 top-p): Twilight 不要求基础算法直接实现 top-p。基础算法只需提供一个初步的、保守的词元子集即可。top-p 逻辑被封装在 Twilight Pruner 中，使其可以独立于具体的基础算法运行。
C2 ( top-p 对权重估计精度要求更高): top-p 需要一定程度的数值精度来准确计算累积权重。Twilight 通过在 Pruner 阶段引入 4 位量化 (4-bit quantization) 的键 (K) 缓存，在保持足够精度的同时，降低了内存访问成本。
C3 (需要系统级优化): Twilight 针对 top-p 的实现进行了系统级优化，包括高效的 SpGEMV (Sparse General Matrix-Vector Multiplication) 核、基于二分搜索的高效 top-p 算法，以及针对头部动态性 (head dynamism) 的负载均衡 (load balancing) 机制。

4.2.3. 高效核实现 (Efficient Kernel Implementations)

4.2.3.1. 键缓存的 4 位量化高效 SpGEMV (Efficient SpGEMV with 4-bit Quantization of Key Cache)

为了在不加载完整 FP16 键 (K) 缓存的情况下，快速估计词元的重要性（即计算 $\mathbf{q} \cdot \mathbf{K}$ ），Twilight 采用 4 位量化 (4-bit quantization) 的 K 缓存。论文经验性地发现，4 位精度在 top-p 的精度要求（介于 top-k 和全注意力之间）与计算效率之间取得了最佳平衡。图 6 展示了不同量化精度下，选定词元的累积注意力权重。2 位量化会导致累积权重显著下降，而 4 位和 8 位则能保持足够的稳定性。

$Figure 6: Sums of normalized attention weights for the selected tokens under different quantization precisions, with $p = 0 . 8 5$ .$ 该图像是图表，展示了在不同量化精度下选定令牌的注意力权重总和。横坐标表示层编号，纵坐标为注意力权重总和，数据点分别对应于2位、4位和8位量化精度，显示了不同层次的影响趋势。

Figure 6: Sums of normalized attention weights for the selected tokens under different quantization precisions, with $p = 0 . 8 5$ .

计算过程 (Calculation Process): Twilight 实现了一个高效的 SpGEMV 核，用于计算 FP16 查询向量与 INT4 量化键矩阵的乘积 (qfp16·Kint4)，并支持分页索引。该核适配了 FlashInfer [47] 的注意力解码核。其执行流程包含两个主要步骤：
1. 异步加载与解量化 (Asynchronously Loading and Dequantizing): 利用 cp.async 指令将量化的 K 缓存数据从全局内存异步加载到共享内存 (shared memory)，并同时进行解量化 (dequantization)。
2. 点积计算 (Dot Product Computation): 在共享内存中对解量化后的数据执行点积运算。为了缓解长内存延迟，采用了两阶段流水线 (two-stage pipeline) 技术，将后续数据块的加载与当前数据块的计算重叠，从而实现计算和内存传输的并行。解量化后的 K 缓存数据以 FP16 精度存储，以在可接受的精度损失下优化计算。
解量化 (Dequantization): Twilight 采用了 QServe [61] 的每头 (per-head) 动态 KV 量化方案。每个注意力头都会存储其对应的 FP16 比例因子 (scale) 和零点 (zero point)，这些参数与 K 缓存采用相同的分页内存布局。K 矩阵在运行时使用这些每头量化参数进行即时解量化。解量化例程基于 [62] 中的快速算法（在 NVIDIA 的 FasterTransformer [63] 中有实现），该算法利用定制的 PTX 汇编指令，实现 INT4 和 FP16 之间的高效类型转换。
位打包 (Bit-packing): INT4 K 元素被打包到 uint8_t 缓冲区中，即每个 8 位字节存储两个 4 位元素。为了简化解量化逻辑，首先将每个 INT4 元素增加一个 $+128$ 的偏移量，将其转换为无符号值，然后以交错 (interleaved) 方式打包。对这个打包缓冲区进行地址计算时，会将其重新映射为 4 位粒度 (4-bit granularity) 的步长，通过将有效字节偏移减半来实现 [42]。

4.2.3.2. 通过二分搜索实现高效 `Top-p` (Efficient Top-p via Binary Search)

对注意力权重进行暴力排序并累加直至达到阈值 $p$ 的方法在并行硬件（如 GPU）上效率低下。Twilight 借鉴了 FlashInfer [47] 中 top-p 采样的核实现，采用了并行友好的二分搜索算法来实现 top-p，如算法 1 所示。

算法 1 (通过二分搜索实现 Top-p - Top-p via Binary Search): 输入: 归一化注意力权重 $\mathbf{W} \in \mathbb{R}^{B \times H \times N}$ (其中 $B$ 为批量大小， $H$ 为头数量， $N$ 为序列长度)， top-p 阈值 $p$ ，超参数 $\epsilon$ 。输出: 索引 $\mathcal{I}$ ，掩码 $\mathcal{M} \in \{0, 1\}^{B \times H \times N}$ 。

初始化 $l = 0$ , r = \max(\mathbf{W}), $m = (l + r) / 2$ ;
- 符号解释:
  - $l$ : 二分搜索的下界 (lower bound)，初始化为 0。
  - $r$ : 二分搜索的上界 (upper bound)，初始化为注意力权重 $\mathbf{W}$ 中的最大值。
  - $m$ : 二分搜索的中间值 (midpoint)，用于划分搜索区间。
重复 (repeat): a. $\mathbf{W}_0 = \mathrm{where}(\mathbf{W} < m, ~0.0, ~\mathbf{W})$ ; * 符号解释: * $\mathbf{W}_0$ : 一个临时张量。where 操作将 $\mathbf{W}$ 中所有小于 $m$ 的元素置为 0.0，其他元素保持不变。这用于计算当前阈值 $m$ 下，所有大于等于 $m$ 的权重之和。 b. $\mathbf{W}_1 = \mathrm{where}(\mathbf{W} \leq l, ~\mathrm{INF}, ~\mathbf{W})$ ; * 符号解释: * $\mathbf{W}_1$ : 另一个临时张量。where 操作将 $\mathbf{W}$ 中所有小于等于 $l$ 的元素置为无穷大 (INF)，其他元素保持不变。这用于跟踪搜索区间的下界。 c. $\mathbf{W}_2 = \mathrm{where}(\mathbf{W} > r, ~-\mathrm{INF}, ~\mathbf{W})$ ; * 符号解释: * $\mathbf{W}_2$ : 另一个临时张量。where 操作将 $\mathbf{W}$ 中所有大于 $r$ 的元素置为负无穷大 (-INF)，其他元素保持不变。这用于跟踪搜索区间的上界。 d. 如果 (if) $\mathrm{sum}(\mathbf{W}_0) \geq p$ 则 (then) $l = m$ ; * 解释: 如果当前阈值 $m$ 下，所有大于等于 $m$ 的权重之和已经达到或超过了目标阈值 $p$ ，说明我们可能选择了过多的词元，或者当前 $m$ 值过低。为了找到满足条件的最小词元集合，我们需要尝试更高的权重阈值，所以将搜索下界 $l$ 更新为 $m$ 。 e. 否则 (else) $r = m$ ; * 解释: 如果当前阈值 $m$ 下，所有大于等于 $m$ 的权重之和未达到 $p$ ，说明 $m$ 值过高，需要降低权重阈值以包含更多词元。所以将搜索上界 $r$ 更新为 $m$ 。 f. 结束 (end if)
直到 (until) $\mathtt{max}(\mathbf{W}_2) - \mathtt{min}(\mathbf{W}_1) \ge \epsilon$
- 解释: 循环终止条件。当搜索区间 [l, r] 的宽度（通过 $\mathtt{max}(\mathbf{W}_2) - \mathtt{min}(\mathbf{W}_1)$ 近似）小于预设的精度超参数 $\epsilon$ 时，二分搜索结束。这保证了找到的阈值 $l$ 足够精确。
选择索引 $\mathcal{T}$ 并设置掩码 $\mathcal{M}$ ，其中 $\mathbf{W} \geq l$ ;
- 解释: 最终确定所有注意力权重大于等于最终搜索到的阈值 $l$ 的词元索引作为选定集合 $\mathcal{T}$ ，并生成相应的掩码 $\mathcal{M}$ 。
返回 (return) $\mathcal{I}, \mathcal{M}$ ;

算法中的元素级 (element-wise) 操作（如 max、where、sum）可以在 GPU 上被张量化 (tensorized) 并融合成一个循环，这避免了中间变量的实际物化 (materialization)，从而提高了效率。

4.2.3.3. 考虑头部动态性的负载均衡 (Load Balancing with Awareness of Head Dynamism)

top-p 剪枝器 (Pruner) 实现了头级 (head-wise) 的动态预算，即每个注意力头根据其自身的注意力权重分布选择不同数量的词元。然而，这种动态性可能导致在注意力核 (attention kernel) 中出现负载不均衡 (load imbalance) 问题，因为传统的实现为所有头分配统一的计算资源。 Twilight 重用了 FlashInfer [47] 中的负载均衡算法来解决头级动态性问题。FlashInfer 的算法最初是为处理请求动态长度 (dynamic lengths) 而设计的。Twilight 通过展平头部维度 (flattening the head dimension) 的方式，将不同头部的工作负载动态地分配给可用的计算资源，从而有效地平衡了由于头级动态预算引起的计算不均衡。

4.2.4. 开销分析与讨论 (Overhead Analysis and Discussion)

4.2.4.1. 执行时间 (Execution Time)

Twilight 的总执行时间由三部分组成，对应其分层架构： $T_{\mathrm{Twilight}} = T_{\mathrm{TokenSel}} + T_{\mathrm{Pruner}} + T_{\mathrm{SparseAttn}}$

$T_{\mathrm{TokenSel}}$ : Token Selector 执行初步词元选择的时间。
$T_{\mathrm{Pruner}}$ : Twilight Pruner 执行 top-p 阈值化和剪枝的时间。
$T_{\mathrm{SparseAttn}}$ : 最终 Sparse Attention Kernel 执行注意力计算的时间。

与不使用 Twilight 的基线稀疏注意力方法相比，Twilight 引入了额外的 $T_{\mathrm{Pruner}}$ 开销，但显著减少了 $T_{\mathrm{SparseAttn}}$ （因为剪枝器进一步减少了词元数量）。理论加速比可以近似为： $\text{Speedup} = \frac{\text{Baseline Execution Time}}{\text{Twilight Execution Time}} = \frac{N/S_0 + B_0}{N/S_0 + B_0/4 + B_1}$
符号解释:
- $N$ : 原始上下文长度。
- $S_0$ : Token Selector 所采用的稀疏度倒数（例如，如果稀疏度为 1/16，则 $S_0=16$ ）。
- $B_0 = |\mathcal{T}_0|$ : Token Selector 选择的词元数量。
- $B_1 = |\mathcal{T}_1|$ : 经过 Twilight Pruner 剪枝后，最终用于稀疏注意力核的词元数量。
- $B_0/4$ : 代表了 SpGEMV 中 4 位量化 K 缓存所带来的内存访问成本减少（相对 FP16 K 缓存）。
  
  如果假设 Token Selector 使用 $N/4$ 的保守预算（即 $B_0 = N/4$ ），而 Twilight Pruner 进一步将预算剪枝到 $N/64$ （即 $B_1 = N/64$ ），则理论加速比大约为 $2 \times$ 。论文指出，当 $B_0$ 在 $N/8$ 到 $N/4$ 范围内时，SpGEMV 操作在延迟中占主导地位，因此 top-p 核本身的开销相对可以忽略。

4.2.4.2. 内存开销 (Memory Overheads)

Twilight 引入了一个额外的 INT4 量化 K 缓存，这导致了 $1/2 \times 1/4 = 1/8$ 的额外 KV 缓存内存开销（FP16 占用 2 字节，INT4 占用 0.5 字节，因此 4 位量化 K 缓存是原始 FP16 K 缓存的 $0.5/2 = 1/4$ 大小；额外的 $1/2$ 可能指的是原始 K 和 V 各占一半）。然而，这种额外开销并非总是存在：

某些基础算法（如 DS [12]）本身就已经维护了 INT4 K 缓存。
如果使用 INT4 全注意力 (INT4 full-attention) [41]，可以直接重用 INT4 K 缓存来计算估计的注意力权重，无需维护原始的 FP16 K 缓存。
如果 GPU 内存成为瓶颈，可以通过卸载 (offloading)（将部分 KV 缓存移到 CPU 内存）和选择性量化 (selective quantization)（例如，只为“热”词元维护额外的 INT4 K 缓存）等技术来缓解，这些是未来的研究方向。

4.2.4.3. 与 LLM 服务系统的集成 (Integration with LLM Serving Systems)

Twilight 的系统设计与 PagedAttention [44] 机制天然兼容。PagedAttention 通过将 KV 缓存存储在非连续的物理内存页中，实现了高效的内存管理，并支持动态批处理 (dynamic batching) 和前缀共享 (prefix sharing)。Twilight 采用页级 (page-level) 或词元级 (token-level) 的稀疏操作，这与 PagedAttention 的内存管理方式高度一致。因此，Twilight 可以无缝集成到 vLLM [44] 和 SGLang [45] 等流行的 LLM 服务系统。此外，其他常用技术，如多阶段注意力 (multi-phase attention) [48, 45, 49, 50, 51] 也与 Twilight 兼容，因为它能够实现灵活的计算流。

4.3. 附录中的实现细节

4.3.1. 混合精度 SpGEMV 的实现 (Implementation of Mixed-Precision SpGEMV)

在附录 B.1 中，论文详细描述了混合精度 SpGEMV 的实现。

计算过程 (Calculation Process): Twilight 的 SpGEMV 核计算 FP16 查询向量 $\mathbf{q}$ 与 INT4 量化键矩阵 $\mathbf{K}$ 的点积 (qfp16·Kint4)，并支持分页索引。该实现基于 FlashInfer [47] 的注意力解码核。核心步骤包括：
1. 异步加载与解量化 (Asynchronously Loading and Dequantizing): 利用 cp.async 指令将 INT4 量化的 K 缓存数据从全局内存异步加载到共享内存 (shared memory)。
2. 点积计算 (Dot Product Computation): 在共享内存中执行点积运算。为了克服内存延迟，采用了两阶段流水线 (two-stage pipeline)，将下一个数据块的加载与当前数据块的计算重叠。解量化后的 K 缓存使用 FP16 存储，以在可接受的精度损失下优化计算。
解量化 (Dequantization): 采用每头 (per-head) 动态 KV 量化，FP16 的比例因子 (scale) 和零点 (zero point) 与 K 缓存采用相同的分页内存布局。K 矩阵在运行时使用这些参数进行动态解量化。解量化例程基于 [62] 的快速算法（NVIDIA 的 FasterTransformer [63] 中实现），该算法利用定制的 PTX 汇编指令实现 INT4 和 FP16 之间的高效类型转换。
位打包 (Bit-packing): INT4 K 元素被打包到 uint8_t 缓冲区中，每个 8 位字节存储两个 4 位元素。为了简化解量化逻辑，首先将每个 INT4 元素偏移 $+128$ 转换为无符号值，然后以交错方式打包。打包缓冲区的地址计算被重新映射为 4 位粒度 (4-bit granularity) 的步长 [42]。

图 12 展示了不同量化位数下 SpGEMV 操作符的延迟。可以观察到，量化显著降低了延迟，特别是从 FP16 到 INT8 或 INT4。

Figure 12: SpGEMV operator latency with different quantization bits. 该图像是一个图表，展示了不同量化位数（INT4、INT8、FP16）下，序列长度对延迟的影响。图中横坐标为序列长度，纵坐标为延迟（Latency），在批量大小为16的情况下，可以看到随着序列长度的增加，延迟显著上升。

Figure 12: SpGEMV operator latency with different quantization bits.

4.3.2. 处理分组查询注意力 (Tackling Grouped Query Attention)

在附录 B.2 中，论文讨论了如何处理分组查询注意力 (Grouped Query Attention, GQA) [54]。GQA 是 LLaMA 3 等模型中广泛采用的技术，它将一组查询头 (query heads) 映射到一个单一的键值头 (key-value head)。这种结构与查询感知 (query-aware) 稀疏注意力存在固有的不兼容性，因为查询感知稀疏注意力依赖于独立的查询向量来识别重要词元，而 GQA 在注意力头粒度上存在不匹配。

解决方案： Twilight 通过在查询组 (query group) 的粒度上进行操作来解决这个问题。对于给定的查询组，所选词元的集合是该组内所有查询头识别出的词元集合的并集。
头级动态性转变为组级动态性： Twilight 的 top-p 机制原生支持头级动态性。然而，当与 GQA 集成时，这种头级动态性会自然地转换为组级动态性，即同一组内的所有头共享一个共同的词元预算。这代表了一种在实现效率与现代注意力算法兼容性之间的权衡。
效率比较： 图 13 比较了三种注意力实现方式的效率：
- Padded: 将所有头填充到最大预算长度。
- Head Varlen: 在头粒度上加载 KV 缓存，可能导致重复加载。
- Group Varlen: 在组粒度上加载 KV 缓存，是 Twilight 在 GQA 下的折衷方案。可以看出，Group Varlen 在效率和保持动态性之间取得了平衡。
  
  该图像是示意图，左侧展示了使用头级动态性的多头注意力与展平的 KV 缓存的交互，右侧则比较了在真实预算分布下，三种注意力方法在不同批次大小下的时间消耗，其中“Padded”表示将所有头部填充到最大预算长度；“Head Varlen”在头粒度上加载 KV；“Group Varlen”在两者之间取得平衡。

Figure 13: Left: Head-wise/group-wise varlen attention with flattend paged KV cache in Twilight. Right: Comparison among the three attention methods on a real budget distribution of a LLaMA-3.1- 7B layer on a 16k retrieval task. Here "Padded" means padding all heads to the maximum budget legth; "Head Varlen" loads KV at the head granularity which causes repeated loading; and "Group Varlen" strikes a balance between the two methods.

5. 实验设置

5.1. 数据集

实验使用了多种数据集，涵盖了长上下文和中等上下文场景，以全面评估 Twilight 的准确性和效率。

5.1.1. 长上下文基准 (Long-Context Benchmarks)

Longbench [1]:
- 来源与特点: 这是一个双语、多任务的基准测试集，专门用于评估长上下文理解能力。它包含 12 种不同类型的任务，涵盖了问答 (QA)、摘要 (Summarization) 和代码生成 (Code Generation) 等多种应用场景。
- 选择原因: 用于综合评估 Twilight 在不同长上下文任务上的性能和泛化能力。
- 具体样本示例： 论文中未直接给出具体样本，但其任务类型包括 Qasper (QA), GovReport (Summarization), LCC (Coding) 等，通常包含数万到数十万词元的长文本作为输入。
RULER [16]:
- 来源与特点: 这是一个专门为评估长上下文语言模型而设计的基准，包含定制的测试，如因果世界探索 (CWE - Causal World Exploration) 和事实核查世界探索 (FWE - Fact-checking World Exploration)，专注于非检索准确性评估。
- 选择原因: 用于更细致地评估模型在理解和推理长上下文信息时的准确性，尤其是在非检索任务中的表现。

5.1.2. 中等上下文基准 (Medium-Context Benchmarks)

GSM8K [13]:
- 来源与特点: 一个由小学数学问题组成的文本数据集，通常需要多步推理才能解决。
- 选择原因: 用于评估模型在逻辑推理和问题解决方面的能力，特别是当上下文长度适中时。
COQA [14]:
- 来源与特点: 一个对话式问答 (Conversational Question Answering) 数据集，包含多轮对话，要求模型理解上下文、追踪对话历史并回答问题。
- 选择原因: 用于评估模型在对话理解和上下文保持方面的能力。
PG-19 [15]:
- 来源与特点: 一个包含大量图书文本的语料库，非常适合评估语言模型在长序列上的语言建模能力。
- 选择原因: 用于评估模型在文本生成和语言流畅性方面的性能，通过困惑度 (Perplexity) 指标来衡量。

5.2. 评估指标

对论文中出现的每一个评估指标，将提供其概念定义、数学公式和符号解释。

5.2.1. 分数/准确率 (Score/Accuracy)

概念定义: 这是一个广泛用于衡量模型性能的指标，具体含义可能因任务而异（例如，在问答任务中可能是精确匹配或 F1 分数，在其他任务中可能是准确率）。它量化了模型预测或生成结果与真实标注数据 (Ground Truth) 之间的匹配程度。通常越高越好。
数学公式:
- 准确率 (Accuracy): 在分类或简单判断任务中，准确率定义为正确预测的数量占总预测数量的比例。 $\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$
- 精确匹配 (Exact Match, EM): 在问答任务中，精确匹配衡量模型生成的答案与参考答案完全一致的比例。 $\text{EM} = \frac{\text{Number of predictions exactly matching the ground truth}}{\text{Total number of predictions}}$
- F1 分数 (F1 Score): 在问答、信息抽取等任务中，F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值，用于综合评估模型的性能。 $\text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$ 其中， $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$ $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$
符号解释:
- $\text{Number of correct predictions}$ : 正确预测的数量。
- $\text{Total number of predictions}$ : 总预测数量。
- $\text{Number of predictions exactly matching the ground truth}$ : 预测结果与真实值完全匹配的数量。
- $\text{Precision}$ : 精确率，衡量模型识别出的正例中有多少是真正的正例。
- $\text{Recall}$ : 召回率，衡量所有真正的正例中有多少被模型识别出来。
- $\text{True Positives}$ : 真阳性，模型正确地预测为正例的数量。
- $\text{False Positives}$ : 假阳性，模型错误地预测为正例的数量。
- $\text{False Negatives}$ : 假阴性，模型错误地预测为负例的数量（实际上是正例）。
- flexible/strict (GSM8K): 在 GSM8K 任务中，可能指对答案格式或数值误差的容忍度。
- $em/f1$ (COQA): 在 COQA 任务中，表示使用精确匹配和 F1 分数作为评估指标。

5.2.2. 困惑度 (Perplexity, PPL)

概念定义: 困惑度是评估语言模型性能的常用指标，衡量模型对一个文本序列预测能力的倒数几何平均值。它的值越低，表示模型对文本的预测或建模能力越强，即模型对数据分布的“困惑”程度越低。
数学公式: 对于一个测试集中的词元序列 $W = (w_1, w_2, \ldots, w_N)$ ，其困惑度计算为： $\text{PPL}(W) = P(w_1, w_2, \ldots, w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1, w_2, \ldots, w_N)}}$ 这等价于通过交叉熵 (cross-entropy) 计算： $\text{PPL}(W) = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log P(w_i | w_1, \ldots, w_{i-1})\right)$
符号解释:
- $W$ : 测试集中的词元序列。
- $N$ : 序列中词元的数量。
- $P(w_1, w_2, \ldots, w_N)$ : 语言模型预测整个序列的联合概率。
- $P(w_i | w_1, \ldots, w_{i-1})$ : 在给定前 i-1 个词元的情况下，语言模型预测第 $i$ 个词元的条件概率。
- $\exp(\cdot)$ : 自然指数函数。
- $\log(\cdot)$ : 自然对数函数。

5.2.3. 延迟 (Latency)

概念定义: 延迟衡量系统完成一项操作所需的时间。在 LLM 推理场景中，通常关注自注意力操作的延迟和端到端每词元生成 (per-token generation) 的延迟。延迟越低，系统响应速度越快，效率越高。
数学公式: 通常以微秒 ( $\mu s$ ) 或毫秒 (ms) 为单位直接测量。 $\text{Latency} = \text{Time taken for an operation}$
符号解释:
- $\text{Time taken for an operation}$ : 执行特定操作所需的时间。

5.2.4. 加速比 (Speedup)

概念定义: 加速比是衡量优化后系统性能相对于基线系统性能提升程度的指标。
数学公式: $\text{Speedup} = \frac{\text{Baseline Execution Time}}{\text{Optimized Execution Time}}$ 或 $\text{Speedup} = \frac{\text{Optimized Throughput}}{\text{Baseline Throughput}}$
符号解释:
- $\text{Baseline Execution Time}$ : 基线方法执行所需的时间。
- $\text{Optimized Execution Time}$ : 优化方法执行所需的时间。
- $\text{Optimized Throughput}$ : 优化方法的吞吐量（单位时间内完成的任务数）。
- $\text{Baseline Throughput}$ : 基线方法的吞吐量。

5.3. 对比基线

论文将 Twilight 与多种基线模型和方法进行比较，以全面评估其性能。

5.3.1. 模型 (Models)

Longchat-7B-v1.5-32k [52]: 一个具有 32k 词元长上下文能力的大语言模型。
LLaMA2-7B-Chat [53]: 7B 参数的 LLaMA2 模型，用于聊天对话场景。
LLaMA-3.1-8B-Instruct [54]: 8B 参数的 LLaMA-3.1 指令微调模型，支持高达 128k 词元上下文长度。这些模型涵盖了主流的注意力实现（MHA - Multi-Head Attention 和 GQA - Grouped Query Attention），提供了广泛的测试基础。

5.3.2. 稀疏注意力方法 (Sparse Attention Methods)

全注意力 (Full Attention): 作为性能上限和效率下限的基准，不进行任何稀疏化。
Quest [9]: 一种查询感知 (query-aware) 的 top-k 稀疏注意力方法，在现有稀疏注意力方法中取得了最先进 (SOTA) 的运行时性能。
DS (Double Sparsity) [12]: 另一种最先进的 top-k 稀疏注意力方法，其官方仓库提供了针对每个模型的优化配置。
MagicPIG [30]: 一种非 top-k 方法，使用局部敏感哈希 (LSH) 采样来估计注意力权重，而不是依赖于固定预算。它通过参数 $K$ 和 $L$ 控制准确性。
StreamingLLM [17]: 一种词元丢弃 (token dropping) 方法，通过静态、查询无关的方式驱逐非关键词元。
SnapKV [18]: 另一种词元丢弃方法，用于 KV 缓存压缩。

5.3.3. 高效核库/后端 (High-Performance Kernel Libraries/Backends)

PyTorch 的 scaled-dot-product-attention (SDPA): 使用 $FlashAttention2 (FA2)$ [39] 和 MemoryEfficient Attention [59] 作为后端。FlashAttention2 是目前最快的注意力实现之一。
FlashInfer [47]: 一个针对 LLM 服务设计的高性能核库，提供了优化的注意力计算核。

5.4. 实验实现细节

硬件平台: 所有效率评估均在单个 NVIDIA A100 GPU 上进行。
稀疏化跳过层: 为了公平比较，对模型的前两层不应用任何稀疏方法，这通常是稀疏注意力研究中的常见做法，因为前几层通常包含重要的全局信息。
DS 配置: DS 的配置采用了其官方仓库提供的、针对每个模型进行优化的配置。
Twilight 超参数 $p$ : LLaMA-2/3 模型族设置 $p=0.95$ ，Longchat 模型设置 $p=0.85$ 。这些值通过消融研究确定，以在准确性和效率之间取得平衡。
MagicPIG 配置: 采用原始 MagicPIG 论文中的两个标准配置： $K=8, L=75$ 和 $K=10, L=150$ 。
Quest 修改: 论文对 Quest 的核进行了修改，使其支持批量推理 (batch inference)，以适应 LLM 服务系统的常见场景。
Twilight 实现技术: Twilight 使用 CUDA 和 OpenAI Triton [60] 两种技术实现，这表明其核 (kernel) 实现注重高性能和可编程性。
效率评估场景: 效率评估着重于批量推理 (batch inference)，以模拟 LLM 服务系统中的真实工作负载。上下文长度范围从 10k 到 30k 词元。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 准确性评估 (Accuracy Evaluation)

6.1.1.1. `Longbench` 上的平均分数

以下是原文 Table 2 的结果，展示了 Twilight 在 Longbench 12 项任务上的平均分数。

	Budget	Longchat-7B -v1.5-32k		LLaMA-3.1-8B -Instruct
	Budget	Score	Relative Error Change	Score	Relative Error Change
Full	32k	36.78		52.01
	Twilight (Avg 141.4)	38.52	(+4.7%)	51.64	(-0.7%)
MagicPIG	K=8, L=75	-		51.70
MagicPIG	K=10, L=150	-		51.32
Quest	256	31.26		38.20
	1024	36.85		47.79
	4096	37.33		50.79
	8192	37.10		51.44
	Twilight (Avg. 131)	38.04	(+2.5%)	51.57	(+0.3%)
DS	256	35.32		45.74
	1024	35.96		49.43
	4096	36.31		50.98
	8192	36.62		51.14
	Twilight (Avg. 126)	38.71	(+5.7%)	51.73	(+1.2%)

对 Longchat-7B-v1.5-32k 模型： Twilight 框架在 Longchat 上表现出色。当与 Full attention 结合时，分数从 36.78 提升到 38.52 (+4.7%)，并且平均预算仅为 141.4。与 Quest 和 DS 等基础算法结合时，Twilight 带来了显著的准确率提升（Quest-Twi 提升 2.5%，DS-Twi 提升 5.7%），同时剪枝了高达 98% 的冗余词元 (例如，DS 原始预算 8192，DS-Twi 平均预算 126)。这表明 Twilight 不仅高效，还能通过精确选择关键词元来提升模型性能。
对 LLaMA-3.1-8B-Instruct 模型： 在 LLaMA-3.1 上，Twilight 实现了几乎零准确率损失（小于 1%）。例如，Full-Twilight 仅损失 0.7%，Quest-Twi 提升 0.3%，DS-Twi 提升 1.2%。论文推测 LLaMA-3.1 模型中的知识可能更紧凑，需要略微更多的词元来保持性能。即便如此，Twilight 依然能带来微小的准确率提升，并保持了其自适应剪枝的优势（例如，Quest-Twi 平均预算 427，而 Quest 原始预算高达 8192）。

6.1.1.2. `RULER` 上的平均分数

以下是原文 Table 3 的结果，展示了 Twilight 在 RULER 基准测试上的平均分数。

	Budget	LLaMA-3.1-8B-Instruct on RULER					Avg.
	Budget	16k	32k	64k	96k	128k	Avg.
Full	100%	92.88	89.42	93.13	89.10	84.64	85.17
	Twilight						88.18
MagicPIG	K=8, L=75	92.22	89.37	84.07	82.58	87.06	91.38
MagicPIG	K=10, L=150	88.20	83.34	82.02	86.23
Quest	4%	79.35	79.80	78.64	73.22	77.75	87.31
Quest	8%	83.06	80.82	75.28	81.62
DS	Twilight	91.53	87.97	84.12	82.96	86.65
	4%	92.04	88.11	84.43	82.56	86.79
	8%	92.89	88.70	84.39	82.72	87.18	93.54

在 RULER 基准测试中，标准 Quest 实现的性能不如非 top-k 方法（如 MagicPIG）。然而，当 Quest 与 Twilight 结合时（Quest-Twi 综合平均分 88.18），其性能与最先进的非 top-k 方法 MagicPIG (最高 91.38) 相当。
DS 在原始配置下已经表现出竞争力，但当 DS 与 Twilight 结合时（DS-Twi 综合平均分 93.54），它超越了所有现有方法，达到了新的记录，进一步验证了 Twilight 在提升稀疏注意力准确性方面的有效性。

6.1.1.3. 中等上下文任务上的结果

以下是原文 Table 4 的结果，展示了 Twilight 在 GSM8K、COQA 和 PG-19 等中等上下文任务上的结果。

	GSM8K(flexible/strict)↑	COQA(em/f1)↑	PG-19 Perplexity↓
LLaMA-2-7B-Chat
Full	0.2290/0.2282	0.5935/0.7511	7.503
Quest	0.0523/0.0508	0.5710/0.7425	14.15
DS	0.2191/0.2190	0.5855/0.7401	7.622
Twilight	0.2153/0.2115	0.6088/0.7642	7.600
(Twilight Avg. Budget)	90.82	91.86	102.58
LLaMA-3.1-8B-Instruct
Full	0.7726/0.7475	0.6363/0.7882	7.490
Quest	0.3639/0.3533	0.6007/0.7554	19.00
DS	0.6194/0.6027	0.6455/0.7964	7.967
Twilight	0.7771/0.7604	0.6325/0.7869	7.529
(Twilight Avg. Budget)	112.40	86.85	110.98

在中等上下文任务上，Twilight 剪枝器 (Pruner) 本身并未对性能产生负面影响。在 LLaMA-2-7B-Chat 模型上，Twilight 在 COQA 任务上甚至超越了 Full attention (+0.6088/0.7642 vs 0.5935/0.7511)，在 GSM8K 和 PG-19 上的表现也与 Full 接近，远优于 Quest。Twilight 在这些任务中的平均预算保持在较低水平（例如 PG-19 为 102.58）。
在 LLaMA-3.1-8B-Instruct 模型上，Twilight 在所有任务上的表现都与 Full 相当，并且在 GSM8K 甚至略有提升（0.7771/0.7604 vs 0.7726/0.7475），同时平均预算保持在较低水平。这些结果进一步证实了 Twilight 在保持准确性方面的有效性，即使上下文长度相对较短。

6.1.2. 效率评估 (Efficiency Evaluation)

6.1.2.1. 自注意力加速 (Self-Attention Speedup)

下图（原文 Figure 7）展示了在不同序列长度和批量大小下自注意力操作的延迟和加速比。

Figure 7: Latencies and speedups of self-attention at different sequence lengths and batch sizes. 该图像是一个图表，展示了在不同批大小和序列长度下自注意力的延迟时间。图中列出了四组不同批大小（8、16、32、64）对应的延迟（μs）以及各种方法的速度提升比率，包括FA2、FlashInfer、Quest、FlashInfer-Twi和Quest-Twi。

Figure 7: Latencies and speedups of self-attention at different sequence lengths and batch sizes.

与 FlashAttention2 (FA2) 相比： FlashInfer-Twi 和 Quest-Twi 在自注意力操作上实现了显著加速，与 FlashAttention2 相比，分别达到高达 6.5 倍和 15.8 倍的加速。这表明 Twilight 能够通过其自适应剪枝策略，显著降低自注意力操作的计算成本。
与基础算法相比： Twilight 与其各自的基础算法 FlashInfer 和 Quest 结合后，分别带来了 2.4 倍和 1.4 倍的额外加速。这突出显示了 Twilight 作为现有稀疏注意力方法优化器的有效性。

6.1.2.2. 端到端解码加速 (End-to-End Decoding Speedup)

下图（原文 Figure 8）展示了在端到端服务场景中，每输出词元时间 (Time-Per-Output-Token, TPOT) 的改进。

Figure 8: Time-Per-Output-Token (TPOT) improvements in end-to-end serving scenarios. 该图像是一个柱状图，展示了不同批量大小（32、64、128、256）下，各种序列长度（10k、20k、30k）对应的处理时间（ms）。图中的数据表明，通过使用不同的方法（FlashInfer、Quest、Quest-Twi），在多种场景下，处理时间表现出显著差异，显示出改进程度，部分方法在处理特定序列长度时实现了加速效果。

Figure 8: Time-Per-Output-Token (TPOT) improvements in end-to-end serving scenarios.

在批量大小从 32 到 256 的端到端解码场景中，Quest-Twi 实现了高达 3.9 倍的加速（与 FlashInfer 相比），以及 1.35 倍的加速（与未结合 Twilight 的 Quest 相比）。这些结果证明 Twilight 的优化在实际的 LLM 服务部署中，能够带来显著的性能提升，降低每词元生成延迟，从而提高吞吐量。

6.1.3. 消融研究 (Ablation Study)

6.1.3.1. 对阈值 $p$ 的敏感性 (Sensitivity to Threshold $p$ )

下图（原文 Figure 9）展示了在 PG-19 数据集上，困惑度（准确性）和稀疏注意力延迟（效率）随 top-p 阈值 $p$ 变化的曲线。

$Figure 9: PG-19 perplexity (accuracy) and sparse attention latency (efficiency) under different threshold $p$ values.$ 该图像是图表，展示了在不同阈值 $p$ 下，PG-19的困惑度（越低越好）和稀疏注意力延迟（以微秒为单位）的关系。数据呈现了困惑度随 $p$ 值的变化趋势，以及相应的延迟时间。

Figure 9: PG-19 perplexity (accuracy) and sparse attention latency (efficiency) under different threshold $p$ values.

平衡点： 随着 $p$ 值的增加，模型困惑度降低（准确性提高），但延迟也随之增加（效率降低），因为需要保留更多的词元。图 9 显示，在 $p \approx 0.85$ 处，准确性（困惑度）和效率（延迟）之间达到了一个良好的平衡点。
$p$ 的优势： 论文强调，尽管引入了阈值 $p$ 来取代预算 $k$ ，但 $p$ 是一个更合理、更易于调优的超参数。这是因为 $p$ 代表累积概率，它受不同头部/层/查询的注意力分布动态性的影响较小，因此一次校准就可以适用于更广泛的场景。

6.1.3.2. `Twilight` 的时间分解 (Time Breakdown for Twilight)

下图（原文 Figure 10）展示了在不同批量大小下，自注意力操作的时间分解。

$Figure 10: Time breakdown of self-attention. At batch size 64, Quest-Twi outperforms Quest by about $2 \\times$ .$ 该图像是图表，展示了不同批量大小下（16、32、64），Quest-Twi 与 Quest 的自注意力时间分解。可以看到，在批量大小为 64 的情况下，Quest-Twi 的性能约提高了 2 imes。

Figure 10: Time breakdown of self-attention. At batch size 64, Quest-Twi outperforms Quest by about $2 \\times$ .

图 10 展示了一个 32k 检索任务在不同批量大小下的自注意力时间分解。在此场景中，Quest 使用 8192 的预算（1/4 稀疏度），而 Twilight 进一步将其剪枝到 256 个词元。
显著减少 Sparse Attention Kernel 时间： Twilight 显著减少了稀疏注意力核所需的时间。这主要归因于其 top-p 剪枝策略大大减少了需要处理的词元数量。
可控的额外开销： Twilight Pruner 引入的额外开销（图中绿色部分）相对较小。
整体性能提升： 这种时间分解与方法论中提出的理论成本模型（第 4.2.4.1 节）高度一致。在批量大小为 64 时，Quest-Twi 比 Quest 性能提高了约 2 倍，进一步验证了 Twilight 在效率方面的优势。

6.1.4. 与词元丢弃方法 (Token Dropping Methods) 的准确性对比

以下是原文 Table 6 的结果，对比了 StreamingLLM、SnapKV 和 DS-Twilight 在 Longbench 上的表现。

Dataset	StreamingLLM (Budget=4096)	SnapKV (Budget=4096)	DS-Twilight
Qasper	26.39	29.44	32.34
MulQA-en	33.20	40.03	43.89
HotpotQA	24.29	33.67	34.67
2WikiMQA	20.10	24.13	25.43
Musique	10.87	13.45	13.84
GovReport	26.92	26.09	31.88
QMSum	20.80	22.53	23.01
MultiNews	26.46	25.61	26.32
TrivialQA	75.60	80.82	85.29
PR-en	24.17	30.25	35.50
LCC	52.47	52.62	55.03
Repobench-P	51.02	55.99	57.27
Avg.	32.69	36.22	38.71

DS-Twilight 在所有数据集上均显著优于 StreamingLLM 和 SnapKV。例如，平均得分 DS-Twilight 为 38.71，而 StreamingLLM 和 SnapKV 分别为 32.69 和 36.22。这进一步验证了论文的观点，即词元选择 (token selecting) 方法通常优于词元丢弃 (token dropping) 方法，因为后者不可避免地会导致不可逆的信息损失，从而影响准确性。

6.1.5. 卸载场景 (Offloading Scenarios) 下的效率评估

以下是原文 Table 7 的结果，展示了在卸载场景下，单个注意力操作的延迟。

	10k	20k	30k
Quest	3038.98	5990.75	8490.95
Quest-Twi	415.89	480.61	527.77

在 KV 缓存从 CPU 内存加载的卸载场景中，每词元加载 (per-token loading) 成本是主导因素。在这种情况下，Twilight 通过减少需要加载的词元数量，实现了更显著的性能提升。Quest-Twi 与 Quest 相比，加速比高达 16 倍，尤其是在较长的上下文长度下（例如 30k 词元时，延迟从 8490.95 微秒降至 527.77 微秒）。这强调了 Twilight 在内存密集型和成本敏感型场景中的巨大价值。

6.2. 数据呈现 (完整结果)

为确保完整性，此处不再重复 Table 2, Table 3, Table 4, Table 6, Table 7，它们已在上述分析中详细转录和解释。完整结果的原始表格可参考论文附录 C 中的 Table 5。

6.3. 消融实验/参数分析

论文通过对 top-p 阈值 $p$ 的敏感性分析（图 9）以及 Twilight 时间分解（图 10）进行了消融实验和参数分析。

$p$ 值的选择： 如图 9 所示，通过权衡 PG-19 困惑度（准确性）和稀疏注意力延迟（效率），论文为不同模型选择了合适的 $p$ 值（例如 Longchat 为 0.85，LLaMA-2/3 为 0.95）。这证明了 $p$ 作为一个可调超参数的有效性，它比固定预算 $k$ 更能适应不同注意力分布的动态性。
时间分解： 如图 10 所示，时间分解实验验证了 Twilight 引入的 Pruner 开销相对较小，而 Sparse Attention Kernel 的时间得到了显著减少，这与论文提出的理论成本模型一致。这表明 Twilight 的各个组件都能高效协同工作，实现了整体的性能提升。

7. 总结与思考

7.1. 结论总结

本文深入探讨了现有 top-k 稀疏注意力方法在长上下文大语言模型 (LLMs) 中面临的预算选择挑战。论文指出，由于注意力权重分布的动态性，固定预算策略难以在准确性与效率之间取得最佳平衡。受 top-p 采样 (nucleus sampling) 在 LLM 文本生成中的启发，论文提出了一种创新方法，将 top-p 采样引入稀疏注意力，以实现自适应的预算决策。

在此基础上，论文设计并实现了 Twilight 框架，其核心是一个分层“选择-然后-剪枝 (Select-then-Prune)”架构。Twilight 能够作为现有任何稀疏注意力算法的优化器，为其赋予自适应预算选择能力，而无需牺牲模型的准确性。通过高效的系统级实现，包括 4 位量化键 (K) 缓存的 SpGEMV (Sparse General Matrix-Vector Multiplication) 和基于二分搜索的 top-p 算法，Twilight 将理论优势转化为显著的实践性能提升。

实验结果强有力地证明了 Twilight 的有效性：它能够自适应地剪枝高达 98% 的冗余词元，从而使自注意力 (self-attention) 操作加速 15.4 倍，并在长上下文 LLM 解码 (decoding) 中实现端到端每词元 (per-token) 延迟加速 3.9 倍。与它所应用的基础稀疏注意力算法相比，Twilight 额外提供了 1.4 倍的加速。这些成就不仅凸显了自适应注意力稀疏性 (adaptive attention sparsity) 的重要性，也为未来稀疏注意力机制的研究开辟了新的方向。

7.2. 局限性与未来工作

论文作者指出了 Twilight 的一些局限性以及未来的研究方向：

估计开销 (Estimation Overheads)： 尽管 Twilight 带来了显著加速，但其 Pruner 阶段引入的估计开销并非完全可以忽略不计（如图 10 所示）。这使得 Twilight 在某些特定场景（如大批量处理或卸载场景，其中从 KV 缓存加载词元 (tokens) 的成本是主要瓶颈）下优势更明显。未来的研究可以专注于优化估计方法，以进一步降低这部分开销，从而在所有场景下提高端到端延迟和吞吐量。
与分组查询注意力 (Grouped Query Attention, GQA) 的兼容性： 论文提到，头级动态性 (head-wise dynamism) 与 GQA 存在不兼容之处，因为在 GQA 中，一组查询头 (query heads) 共享一个键值头 (key-value head)，导致所有属于同一组的头必须共享一个共同的词元预算。这为将 Twilight 与 GQA 等新型模型架构集成带来了一定的挑战。未来的工作可以探索如何更无缝地将 Twilight 与各种注意力架构（如多头潜在注意力 - Multi-Head Latent Attention, MLA [64]）集成，以实现更精细的控制。

7.3. 个人启发与批判

7.3.1. 个人启发

跨领域思想的借鉴： 将 LLM 文本生成中的 top-p 采样 (nucleus sampling) 概念引入稀疏注意力，是一个非常巧妙且有效的创新。这种跨领域借鉴思想的能力，是解决复杂问题的重要途径。它启发我们，当在某一领域遇到瓶颈时，或许可以从看似不相关的其他领域寻找灵感。
分层优化范式： “选择-然后-剪枝 (Select-then-Prune)”的架构提供了一个通用且可扩展的优化范式。它允许在不修改现有复杂算法核心逻辑的情况下，对其进行高效增强。这种模块化设计在软件工程和系统优化中具有很高的实用价值，可以降低技术集成的复杂性和风险。
对动态性的深刻理解： 论文从注意力权重分布的内在动态性出发，解决了 top-k 固定预算的根本性缺陷。这种深入分析问题根源的能力，而非仅仅修补表层症状，是高质量研究的标志。它提醒我们在设计优化方案时，应充分考虑系统内部的动态变化。
工程与理论的紧密结合： Twilight 不仅提出了算法层面的创新，还针对 GPU 架构设计了高效的核 (kernel) 实现，如 4 位量化 SpGEMV 和二分搜索 top-p。这体现了将理论创新转化为实际性能提升的工程实践能力，对于推动技术落地至关重要。

7.3.2. 批判/可改进之处

超参数 $p$ 的自动化选择： 尽管论文指出 $p$ 比 $k$ 更易于调优，但仍需手动校准，并在不同模型和任务中可能有所不同。未来的工作可以探索更智能、更自动化的 $p$ 值确定机制，例如通过在线学习、元学习 (meta-learning) 或强化学习 (reinforcement learning) 方法，动态调整 $p$ 以适应模型状态和任务需求，从而进一步降低部署和维护的复杂性。
估计开销的进一步优化： 论文承认 Pruner 阶段的估计开销仍然存在，特别是在非大批量或非卸载场景下，这部分开销可能限制其整体加速效果。可以探索更轻量级、更低开销的注意力权重估计方法。例如，利用模型的低秩特性、或者结合稀疏性预测网络 (sparsity prediction networks) 来替代当前 SpGEMV 和二分搜索的计算。
更广泛的架构兼容性与细粒度控制： 论文在 GQA 场景下，将头级动态性简化为组级动态性，这是一种权衡。未来可以深入研究如何在保持效率的同时，实现与 GQA 或其他新型注意力架构（如多查询注意力 - Multi-Query Attention, MQA）在更细粒度上的自适应稀疏化，从而发挥其全部潜力。
对非自注意力层的推广： Twilight 专注于注意力机制的稀疏化。然而，LLM 中除了注意力层之外，前馈网络 (Feed-Forward Networks, FFN) 等其他层也可能存在大量的冗余和计算瓶颈。将类似 top-p 的自适应剪枝思想推广到这些非注意力层，以实现模型更全面的端到端加速，将是一个有前景的研究方向。
实际部署的复杂性评估： 尽管论文强调与 PagedAttention 等服务系统兼容，但实际在生产环境中集成新的优化框架，往往涉及与现有调度器 (schedulers)、负载均衡器 (load balancers)、容错机制 (fault tolerance) 以及监控系统 (monitoring systems) 的复杂交互。可以进一步提供关于其在真实复杂系统中的部署成本、维护难度和稳定性等方面的详细评估。
可解释性与可视化： 虽然论文提供了注意力权重分布的图示，但如果能进一步提供更丰富的可视化工具，来实时展示 Twilight 如何动态地选择词元，这些选择如何影响模型的推理路径和最终决策，将有助于研究者和工程师更好地理解和信任该方法，并进行故障排除。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。