论文状态:已完成

Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

发表:2025/05/26
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 20 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

该论文提出了智能体压缩基准(ACBench),全面评估压缩对大型语言模型(LLM)智能体能力的影响,涵盖12项任务、4种能力及量化和剪枝技术。实验表明,4比特量化对工作流和工具使用影响有限,但真实应用准确率下降约10%-15%。

摘要

Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression (压缩后的大语言模型真的能行动吗?——对LLM压缩中智能体能力的实证评估)

1.2. 作者

Peijie Dong1^{*1}, Zhenheng Tang2^{*2}, Xiang Liu1^{1}, Lujun Li2^{2}, Xiaowen Chu1^{1}, Bo Li2^{2}

  • 隶属机构通常涉及香港科技大学(HKUST)等(根据作者过往发表记录推断,文中仅标注了数字编号,致谢中提及了中国国家自然科学基金及香港研究资助局的资助)。

1.3. 发表期刊/会议

  • 来源: arXiv (预印本)
  • 发布时间: 2025年5月26日 (UTC) - 注:此日期基于元数据,可能为预录入或特定版本的更新时间,当前实际时间为2025年之前,这可能是一个未来的会议版本或元数据错误,但在分析中我们依据提供的元数据。
  • 状态: 预印本 (Preprint)

1.4. 摘要

本文针对大语言模型(LLMs)在部署时面临的计算和内存成本高昂的问题,研究了后训练压缩(Post-training Compression)技术对模型智能体能力(Agentic Capabilities)的影响。现有的压缩基准主要关注语言建模(如困惑度)和自然语言理解(如GLUE),忽略了智能体所需的工作流生成、工具使用、长上下文理解和现实世界应用能力。作者提出了ACBench(Agent Compression Benchmark),这是第一个评估压缩如何影响LLM智能体能力的综合基准。研究涵盖了12项任务、4种能力、多种量化(GPTQ, AWQ)和剪枝(Wanda, SparseGPT)方法以及15个模型。实验发现:4-bit量化能较好地保留工作流和工具使用能力(仅下降1%-3%),但现实世界应用的准确率会下降10%-15%。此外,论文引入了ERank、Top-k排名相关性和能量(Energy)指标来系统化分析压缩的影响。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 大语言模型(LLMs)虽然在代码合成、科学研究和多智能体协作方面表现出色,但其巨大的参数量导致了高昂的计算和显存成本,阻碍了实际部署。
  • 现有挑战 (Gap): 为了降低成本,社区广泛使用剪枝 (Pruning)量化 (Quantization) 等后训练压缩技术。然而,现有的评估体系通常只关注静态的自然语言理解(NLU)任务(如MMLU准确率)或基础语言建模能力(如困惑度 Perplexity)。
  • 被忽视的领域: 现实世界的智能体应用(如机器人控制、金融分析)不仅需要理解语言,还需要多步规划工具调用长上下文记忆以及环境交互能力。目前的基准测试尚未探究压缩技术是否会损害这些核心的“智能体能力”。

2.2. 核心贡献与主要发现

  • 提出了 ACBench: 这是一个全新的基准测试框架,专门用于从四个维度(行动执行、工作流生成、长上下文理解、现实世界应用)评估压缩后的LLM。
  • 引入分析指标: 为了深入理解压缩对模型内部表征的影响,论文提出了三个统计分析工具:有效秩 (Efficient Rank, ERank)Top-K 排名相关性 (Top-K Ranking Correlation)能量分析 (Energy-based Analysis)
  • 关键结论:
    1. 量化优于剪枝: 在保持智能体能力方面,量化(特别是GPTQ和AWQ)通常比剪枝(SparseGPT, Wanda)表现更好。

    2. 能力权衡: 4-bit 量化模型在工作流生成工具使用上表现稳健(仅下降1-3%),但在复杂的现实世界应用中性能显著下降(10-15%)。

    3. 蒸馏模型的局限: 即使是经过蒸馏的推理模型(如DeepSeek-R1-Distill),在被压缩用于智能体任务时,也表现出了显著的性能退化,表明推理能力的蒸馏并不一定能完美迁移到智能体的交互能力上。


3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,读者需要掌握以下核心概念:

  • 后训练量化 (Post-Training Quantization, PTQ): 一种在模型训练完成后,无需重新训练即可减少模型大小的技术。
    • 它将原本使用高精度浮点数(如FP16,16位浮点数)存储的权重,映射到低精度的整数(如INT4,4位整数)。这就像是将一张高分辨率的照片压缩成低分辨率,虽然细节(精度)有所损失,但文件大小(显存占用)大大减小。
  • 权重剪枝 (Weight Pruning): 另一种压缩技术,旨在去除模型中“不重要”的参数。
    • 非结构化剪枝 (Unstructured Pruning): 随机将权重矩阵中的某些元素设为0。
    • 结构化/半结构化剪枝 (Structured/Semi-structured Pruning): 例如N:M稀疏(如2:4稀疏),意味着在每4个连续的权重中,必须有2个为0。这种结构更利于硬件加速。
  • 智能体能力 (Agentic Capabilities): 区别于简单的问答,指模型作为“智能体”在环境中行动的能力。包括:
    • 工具使用 (Tool Use): 模型能否正确调用计算器、搜索引擎等API。
    • 规划 (Planning): 模型能否将一个复杂目标(如“帮我定个旅行计划”)拆解为一系列可执行的步骤。

3.2. 技术演进与差异化分析

  • 压缩基准的演变: 早期的压缩研究主要关注模型体积和推理速度,评估指标多为WikiText-2的困惑度(Perplexity)或GLUE基准的准确率。

  • 本文的定位: 随着LLM向Agent(智能体)方向发展,仅仅“理解”语言已经不够,必须能“行动”。ACBench填补了压缩技术智能体能力评估之间的空白。本文不仅评估“好不好用”(性能),还通过ERank等指标分析“为什么变差了”(内部表征变化)。


4. 方法论

4.1. ACBench 评估框架

ACBench 将智能体能力细分为四个核心维度,并选择了对应的任务进行评估。下图(原文 Figure 1(c))概括了这一框架:

fig 1 该图像是一个雷达图,展示了四个不同能力任务(LongBench、T-Eval、WorfBench和AgentBoard)中DeepSeek和Qwen两个模型的表现。每个任务的不同维度展示了模型在各项任务上的评分,便于比较其在工作流生成和工具使用等方面的性能。

  1. 行动执行 (Action Execution):
    • 核心能力: 函数调用 (Function Call)、工具使用 (Tool Use)。
    • 评估基准: T-Eval。
  2. 工作流生成 (Workflow Generation):
    • 核心能力: 将复杂任务分解为可执行的步骤序列。
    • 评估基准: WorfBench(包含Function Call, Embodied, Problem-Solving等任务)。
  3. 长上下文理解 (Long-Context Understanding):
    • 核心能力: 在长对话或海量文档中保持连贯性和检索信息。
    • 评估基准: LongBench, LongGenBench, Needle-in-the-Haystack(大海捞针测试)。
  4. 现实世界应用 (Real-world Application):
    • 核心能力: 在真实或高保真模拟环境中综合运用上述能力。
    • 评估基准: AgentBoard(包含ScienceWorld, Jericho游戏, Tool-Query等)。

4.2. 压缩方法详解

本文主要评估了两类主流的后训练压缩方法,并使用数学公式对其进行了形式化描述。

4.2.1. 量化 (Quantization)

量化通过仿射变换将高精度数值映射到低位整数。 公式原理: 给定一个高精度张量 XFP16\mathbf{X}_{\mathrm{FP16}}(如16位浮点数权重),我们将其映射为整数 XINT\mathbf{X}_{\mathrm{INT}}

XINT=round(XFP16ZS) \mathbf{X}_{\mathrm{INT}} = \mathrm{round}\left(\frac{\mathbf{X}_{\mathrm{FP16}} - Z}{S}\right)

其中:

  • XINT\mathbf{X}_{\mathrm{INT}} 是量化后的整数表示(例如INT4)。

  • SS缩放因子 (Scaling Factor),用于控制数值的缩放比例。

  • ZZ零点 (Zero-point),用于对齐整数的零点与浮点数的范围。

  • round()\mathrm{round}(\cdot) 是四舍五入操作。

    缩放因子 SS 的计算通常基于数据的动态范围:

S=max(XFP16)min(XFP16)2N1 S = \frac{\max(\mathbf{X}_{\mathrm{FP}16}) - \min(\mathbf{X}_{\mathrm{FP}16})}{2^N - 1}

其中 NN 是目标位宽(如 N=4N=4)。本文重点评估了 GPTQAWQ 两种量化算法。

4.2.2. 权重剪枝 (Weight Pruning)

剪枝通过掩码(Mask)将冗余权重置零。 公式原理: 剪枝后的权重矩阵 W~\tilde{\mathbf{W}} 计算如下:

W~=WM,Mij={1ifWij>τ0otherwise \tilde{\mathbf{W}} = \mathbf{W} \odot \mathbf{M}, \quad \mathbf{M}_{ij} = \left\{ \begin{array}{ll}1 & \mathrm{if}\left|\mathbf{W}_{ij}\right| > \tau \\ 0 & \mathrm{otherwise} \end{array} \right.

其中:

  • W\mathbf{W} 是原始权重矩阵。

  • M\mathbf{M} 是二值掩码矩阵。

  • \odot 表示元素级乘法(Hadamard积)。

  • τ\tau 是阈值,决定了稀疏度。如果权重的绝对值 Wij|\mathbf{W}_{ij}| 小于阈值,则被修剪(置0)。

    本文评估了 SparseGPTWanda,涵盖了非结构化稀疏和2:4半结构化稀疏。

4.3. 统计分析指标

为了深入剖析压缩带来的影响,作者引入了三个核心指标。

4.3.1. 有效秩 (Efficient Rank, ERank)

该指标用于衡量矩阵的有效维度,即信息的丰富程度。 公式: 对于一个非零矩阵 ARd×N\mathbf{A} \in \mathbb{R}^{d \times N},其有效秩定义为:

eRank(A)=exp(i=1Qσij=1Qσjlog(σij=1Qσj)) \mathtt{eRank(A)} = \exp \left(-\sum_{i = 1}^{Q}\frac{\sigma_{i}}{\sum_{j = 1}^{Q}\sigma_{j}}\log \left(\frac{\sigma_{i}}{\sum_{j = 1}^{Q}\sigma_{j}}\right)\right)

符号解释:

  • Q=min{N,d}Q = \min \{N,d\}
  • σ1,σ2,,σQ\sigma_{1},\sigma_{2},\ldots ,\sigma_{Q} 是矩阵 A\mathbf{A}奇异值 (Singular Values)
  • 公式的核心是一个关于归一化奇异值的香农熵 (Shannon Entropy) 的指数形式。
  • 意义: ERank 越高,说明矩阵的奇异值分布越均匀,承载的信息量越大;ERank 越低,说明矩阵主要由少数几个大的奇异值主导,信息趋于坍缩。压缩通常会导致ERank下降。

4.3.2. Top-K 排名一致性 (Top-K Ranking Consistency)

衡量压缩前后模型对预测词元(Token)信心排序的一致性。 公式:

Jk=Tk(o)Tk(c)Tk(o)Tk(c) J_{k} = \frac{|\mathcal{T}_{k}^{(o)} \cap \mathcal{T}_{k}^{(c)}|}{|\mathcal{T}_{k}^{(o)} \cup \mathcal{T}_{k}^{(c)}|}

符号解释:

  • Tk(o)\mathcal{T}_k^{(o)}:原始模型(Original)输出的前 kk 个概率最高的词元集合。
  • Tk(c)\mathcal{T}_k^{(c)}:压缩模型(Compressed)输出的前 kk 个概率最高的词元集合。
  • JkJ_kJaccard 相似系数,计算两个集合交集与并集的比值。
  • 意义: 该值越接近1,说明压缩模型与原始模型的预测偏好越一致。

4.3.3. 能量分析 (Energy-based Analysis)

受到分布外(OOD)检测的启发,使用能量分数来衡量模型输出分布的置信度模式。 公式: 给定输入 x\mathbf{x},模型输出 KK 个对数几率(logits)f(x)f(\mathbf{x})。其能量函数定义为:

E(x;f)=Tlogi=1Kefi(x)/T E(\mathbf{x};f) = -T\cdot \log \sum_{i = 1}^{K}e^{f_{i}(\mathbf{x}) / T}

符号解释:

  • TT 是温度参数 (Temperature)。

  • fi(x)f_i(\mathbf{x}) 是第 ii 个类别的对数几率。

  • 意义: 作者比较原始模型和压缩模型的能量差 ΔE=E(x;f(o))E(x;f(c))\Delta_{E} = |E(\mathbf{x}; f^{(o)}) - E(\mathbf{x}; f^{(c)})|。能量分数的变化反映了模型对自身预测确定性的改变(如变得过度自信或不自信)。


5. 实验设置

5.1. 数据集

为了全面评估,使用了以下四个领域的代表性数据集:

  1. Tool Use: T-Eval (包含Plan, Reason, Retrieve等子集)。
  2. Workflow: WorfBench (包含Function Call, Embodied, Problem-Solving等任务)。
  3. Long Context: LongBench (QA, Summarization, Few-shot), LongGenBench (GSM8K, MMLU长文本版), Needle-in-the-Haystack。
  4. Real-world: AgentBoard (包含ScienceWorld, Jericho, Tool-Query等环境)。

5.2. 模型与基线

  • 模型家族:

    • 中等规模 (Standard): Qwen2.5 (7B-32B), InternLM2.5-7B, Mistral-7B。
    • 小规模 (Small): Gemma-2B, Phi-3.5, MiniCPM-4B。
    • 蒸馏推理模型 (Distilled Reasoning): DeepSeek-R1-Distill 系列 (基于Qwen和Llama)。
  • 压缩设置:

    • 量化: GPTQ (4-bit, 8-bit), AWQ (4-bit)。
    • 剪枝: Wanda, SparseGPT (非结构化及2:4半结构化)。
  • 基线: 原始未压缩的 FP16/BF16 模型。


6. 实验结果与分析

6.1. 核心结果分析:压缩对智能体能力的影响

6.1.1. 工具使用 (Tool Use)

下图(原文 Figure 10)展示了在 InternLM-2.5-7B 上不同压缩方法的表现。

fig 8 该图像是一个柱状图,展示了不同压缩方法(FP16、AWQ、GPTQ、FP8)在多项任务(计划、推理、检索、理解、指令、回顾)上的整体得分(百分比)。不同颜色的柱子表示各个方法的表现,数据表明不同方法对任务的影响程度各异。

  • 量化表现优异: 从数据可看出,AWQ 和 GPTQ 在大多数任务(如Instruct, Reason)上几乎能保持与 FP16 相当的性能(得分接近70%-90%)。

  • 格式敏感性: 研究发现,当要求模型输出 JSON 格式时,压缩带来的性能下降比输出纯文本字符串(String)更严重。这表明压缩破坏了模型对严格句法结构的生成能力。

  • 数据支持 (Table 8): 以下是原文 Table 8 的结果,对比了不同模型在 String 和 JSON 格式下的表现:

    LLMs Compression Instruct Plan Overall
    String Json String Json
    InternLM2.5-7B Mag(Un) 57.8 73.2 27.7 23.1 47.8
    Wanda(Un) 83.7 90.6 49.0 72.4 64.7
    AWQ 98.6 98.7 48.5 45.3 68.6
    FP16 (Base) 98.6 98.6 44.3 73.7 72.2

    注:上表为节选关键数据,完整表格请见原文。可以看到 AWQ (68.6) 非常接近 FP16 (72.2),而 Mag(Un) 剪枝后仅为 47.8。

6.1.2. 现实世界应用 (Real-World Applications)

这是压缩模型表现最差的领域。在 AgentBoard 基准测试中,即使是表现最好的量化方法也出现了显著的性能下滑。 以下是原文 Table 9 的部分结果:

LLMs Compression Jericho Tool-Query Tool-Operation
Qwen2.5-7B Base (FP16) 25.00 52.61 35.53
AWQ 19.73 47.16 33.15
Mag(Un) 0.00 0.14 0.10
  • 分析: 在 Jericho(文本游戏)任务中,AWQ 从 25.00 下降到 19.73,下降幅度约20%。而简单的幅度剪枝(Mag)几乎导致模型能力完全丧失(0.00)。这说明现实世界的复杂决策对模型参数的微小扰动非常敏感。

6.1.3. 蒸馏模型 (Distilled Models) 的异常

论文发现 DeepSeek-R1-Distill 系列模型在压缩后的表现不如预期。

  • 现象: 蒸馏模型在智能体任务上的基线性能有时低于非蒸馏模型,且对压缩更敏感。
  • 原因推测: 教师模型(Teacher Model)虽然推理能力强,但在“智能体”特定能力(如工具调用)上可能并未进行针对性训练,导致学生模型在这些方面的知识本就脆弱,压缩后更易丢失。

6.2. 统计指标分析

作者利用提出的指标解释了性能下降的原因。

6.2.1. ERank 与性能的相关性

如下图(原文 Figure 2)所示,ERank(有效秩)的下降与模型准确率(ACC)的下降呈正相关。

fig 2 该图像是一个条形图,展示了不同数据集(包括HotpotQA、TriviaQA、MultiNews、Lcc和SciWorld)在PPL与Top-k相关系数之间的关系。图中显示了每个数据集的相关系数,SciWorld的相关系数最高,达到了0.928,而HotpotQA和TriviaQA的相关系数低至0.098和0.088。

  • 观察: 4-bit 量化(W4)和 KV Cache 量化(KV4)导致 ERank 显著降低。这意味着压缩后的权重矩阵变得“更简单”了,丢失了处理复杂信息所需的维度。

6.2.2. Logits 与 能量分布

  • Ranking Consistency (图 6): Top-k 排名一致性随着 kk 的减小而变得不稳定。这意味着压缩模型在预测最可能的那个词(Top-1)时,往往能做对,但在预测候选项(Top-3, Top-10)时,其概率分布与原模型差异很大。这对于需要多样性生成(Sampling)的任务是致命的。

  • Energy Analysis (图 12):

    fig 12 该图像是能量分布比较的图表,展示了在不同位置(如 token 1, 64, 117, 175, 244, 252)上量化模型与原始模型的负能量分布情况。每个子图显示了对应位置的能量分布,包括原始模型和量化模型的对比。

    • 图示表明,压缩模型(粉色)的能量分布在初始阶段(Token 1)与原始模型(蓝色)有较大差异,表现出更极端的置信度(Over-confidence 或 Under-confidence),随着生成序列变长,两者趋于融合。这种初始阶段的偏差可能导致智能体在多步推理的开局就走错方向。


7. 总结与思考

7.1. 结论总结

  1. ACBench 填补了空白: 它是首个全面评估压缩 LLM 智能体能力的基准,涵盖了从简单的工具使用到复杂的现实世界交互。
  2. 量化是首选: 相比于剪枝,GPTQ 和 AWQ 等量化方法在保留智能体能力方面表现更佳。4-bit 量化通常是一个可接受的权衡点(Trade-off)。
  3. 现实世界应用仍是挑战: 虽然工具使用能力保留较好,但在 AgentBoard 等复杂环境中,压缩模型仍面临 10% 以上的性能损失,这对于高可靠性要求的场景是不可忽视的。
  4. 结构化输出脆弱: 压缩模型在生成 JSON 等严格格式时更容易出错,这提示我们在部署压缩模型进行 API 调用时需要额外的容错机制。

7.2. 局限性与未来工作

  • 局限性: 本文仅评估了后训练压缩方法,未涉及量化感知训练 (Quantization-Aware Training, QAT),后者可能带来更好的性能恢复。此外,未探索如 QuaRot 等新兴的旋转量化技术。
  • 未来方向:
    • 开发专门针对智能体能力的压缩算法。
    • 研究如何通过微调(Fine-tuning)恢复压缩后损失的特定智能体技能。
    • 深入探究为什么推理能力的蒸馏未能有效转化为智能体能力。

7.3. 个人启发与批判

  • 启发: 这篇论文提醒我们,在实际工程中选择模型压缩方案时,不能只看 PPL 或 MMLU 分数。如果业务场景涉及复杂的 Agent 交互(如客服机器人调用后台 API),必须在特定任务上重新验证压缩模型的性能,尤其是其遵循 JSON 格式的能力。
  • 批判: 论文中提到的 DeepSeek 蒸馏模型表现不佳,可能不仅仅是压缩的问题,也可能与基础模型本身的训练数据分布有关。此外,虽然提出了 ERank 等指标,但这些指标目前更多是“事后解释”,如何利用这些指标来指导压缩算法的设计(例如,设计一种最大化 ERank 的剪枝策略)是更有价值的下一步。
  • 应用迁移: ERank 和能量分析的思路可以迁移到其他领域,例如评估大模型微调前后的知识遗忘程度,或者用于检测模型生成的幻觉(Hallucination)。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。