Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
TL;DR 精炼摘要
该论文提出了智能体压缩基准(ACBench),全面评估压缩对大型语言模型(LLM)智能体能力的影响,涵盖12项任务、4种能力及量化和剪枝技术。实验表明,4比特量化对工作流和工具使用影响有限,但真实应用准确率下降约10%-15%。
摘要
Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression (压缩后的大语言模型真的能行动吗?——对LLM压缩中智能体能力的实证评估)
1.2. 作者
Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
- 隶属机构通常涉及香港科技大学(HKUST)等(根据作者过往发表记录推断,文中仅标注了数字编号,致谢中提及了中国国家自然科学基金及香港研究资助局的资助)。
1.3. 发表期刊/会议
- 来源: arXiv (预印本)
- 发布时间: 2025年5月26日 (UTC) - 注:此日期基于元数据,可能为预录入或特定版本的更新时间,当前实际时间为2025年之前,这可能是一个未来的会议版本或元数据错误,但在分析中我们依据提供的元数据。
- 状态: 预印本 (Preprint)
1.4. 摘要
本文针对大语言模型(LLMs)在部署时面临的计算和内存成本高昂的问题,研究了后训练压缩(Post-training Compression)技术对模型智能体能力(Agentic Capabilities)的影响。现有的压缩基准主要关注语言建模(如困惑度)和自然语言理解(如GLUE),忽略了智能体所需的工作流生成、工具使用、长上下文理解和现实世界应用能力。作者提出了ACBench(Agent Compression Benchmark),这是第一个评估压缩如何影响LLM智能体能力的综合基准。研究涵盖了12项任务、4种能力、多种量化(GPTQ, AWQ)和剪枝(Wanda, SparseGPT)方法以及15个模型。实验发现:4-bit量化能较好地保留工作流和工具使用能力(仅下降1%-3%),但现实世界应用的准确率会下降10%-15%。此外,论文引入了ERank、Top-k排名相关性和能量(Energy)指标来系统化分析压缩的影响。
1.5. 原文链接
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 大语言模型(LLMs)虽然在代码合成、科学研究和多智能体协作方面表现出色,但其巨大的参数量导致了高昂的计算和显存成本,阻碍了实际部署。
- 现有挑战 (Gap): 为了降低成本,社区广泛使用剪枝 (Pruning) 和 量化 (Quantization) 等后训练压缩技术。然而,现有的评估体系通常只关注静态的自然语言理解(NLU)任务(如MMLU准确率)或基础语言建模能力(如困惑度 Perplexity)。
- 被忽视的领域: 现实世界的智能体应用(如机器人控制、金融分析)不仅需要理解语言,还需要多步规划、工具调用、长上下文记忆以及环境交互能力。目前的基准测试尚未探究压缩技术是否会损害这些核心的“智能体能力”。
2.2. 核心贡献与主要发现
- 提出了 ACBench: 这是一个全新的基准测试框架,专门用于从四个维度(行动执行、工作流生成、长上下文理解、现实世界应用)评估压缩后的LLM。
- 引入分析指标: 为了深入理解压缩对模型内部表征的影响,论文提出了三个统计分析工具:有效秩 (Efficient Rank, ERank)、Top-K 排名相关性 (Top-K Ranking Correlation) 和 能量分析 (Energy-based Analysis)。
- 关键结论:
-
量化优于剪枝: 在保持智能体能力方面,量化(特别是GPTQ和AWQ)通常比剪枝(SparseGPT, Wanda)表现更好。
-
能力权衡: 4-bit 量化模型在工作流生成和工具使用上表现稳健(仅下降1-3%),但在复杂的现实世界应用中性能显著下降(10-15%)。
-
蒸馏模型的局限: 即使是经过蒸馏的推理模型(如DeepSeek-R1-Distill),在被压缩用于智能体任务时,也表现出了显著的性能退化,表明推理能力的蒸馏并不一定能完美迁移到智能体的交互能力上。
-
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,读者需要掌握以下核心概念:
- 后训练量化 (Post-Training Quantization, PTQ): 一种在模型训练完成后,无需重新训练即可减少模型大小的技术。
- 它将原本使用高精度浮点数(如FP16,16位浮点数)存储的权重,映射到低精度的整数(如INT4,4位整数)。这就像是将一张高分辨率的照片压缩成低分辨率,虽然细节(精度)有所损失,但文件大小(显存占用)大大减小。
- 权重剪枝 (Weight Pruning): 另一种压缩技术,旨在去除模型中“不重要”的参数。
- 非结构化剪枝 (Unstructured Pruning): 随机将权重矩阵中的某些元素设为0。
- 结构化/半结构化剪枝 (Structured/Semi-structured Pruning): 例如N:M稀疏(如2:4稀疏),意味着在每4个连续的权重中,必须有2个为0。这种结构更利于硬件加速。
- 智能体能力 (Agentic Capabilities): 区别于简单的问答,指模型作为“智能体”在环境中行动的能力。包括:
- 工具使用 (Tool Use): 模型能否正确调用计算器、搜索引擎等API。
- 规划 (Planning): 模型能否将一个复杂目标(如“帮我定个旅行计划”)拆解为一系列可执行的步骤。
3.2. 技术演进与差异化分析
-
压缩基准的演变: 早期的压缩研究主要关注模型体积和推理速度,评估指标多为WikiText-2的困惑度(Perplexity)或GLUE基准的准确率。
-
本文的定位: 随着LLM向Agent(智能体)方向发展,仅仅“理解”语言已经不够,必须能“行动”。ACBench填补了压缩技术与智能体能力评估之间的空白。本文不仅评估“好不好用”(性能),还通过ERank等指标分析“为什么变差了”(内部表征变化)。
4. 方法论
4.1. ACBench 评估框架
ACBench 将智能体能力细分为四个核心维度,并选择了对应的任务进行评估。下图(原文 Figure 1(c))概括了这一框架:
该图像是一个雷达图,展示了四个不同能力任务(LongBench、T-Eval、WorfBench和AgentBoard)中DeepSeek和Qwen两个模型的表现。每个任务的不同维度展示了模型在各项任务上的评分,便于比较其在工作流生成和工具使用等方面的性能。
- 行动执行 (Action Execution):
- 核心能力: 函数调用 (Function Call)、工具使用 (Tool Use)。
- 评估基准: T-Eval。
- 工作流生成 (Workflow Generation):
- 核心能力: 将复杂任务分解为可执行的步骤序列。
- 评估基准: WorfBench(包含Function Call, Embodied, Problem-Solving等任务)。
- 长上下文理解 (Long-Context Understanding):
- 核心能力: 在长对话或海量文档中保持连贯性和检索信息。
- 评估基准: LongBench, LongGenBench, Needle-in-the-Haystack(大海捞针测试)。
- 现实世界应用 (Real-world Application):
- 核心能力: 在真实或高保真模拟环境中综合运用上述能力。
- 评估基准: AgentBoard(包含ScienceWorld, Jericho游戏, Tool-Query等)。
4.2. 压缩方法详解
本文主要评估了两类主流的后训练压缩方法,并使用数学公式对其进行了形式化描述。
4.2.1. 量化 (Quantization)
量化通过仿射变换将高精度数值映射到低位整数。 公式原理: 给定一个高精度张量 (如16位浮点数权重),我们将其映射为整数 :
其中:
-
是量化后的整数表示(例如INT4)。
-
是缩放因子 (Scaling Factor),用于控制数值的缩放比例。
-
是零点 (Zero-point),用于对齐整数的零点与浮点数的范围。
-
是四舍五入操作。
缩放因子 的计算通常基于数据的动态范围:
其中 是目标位宽(如 )。本文重点评估了 GPTQ 和 AWQ 两种量化算法。
4.2.2. 权重剪枝 (Weight Pruning)
剪枝通过掩码(Mask)将冗余权重置零。 公式原理: 剪枝后的权重矩阵 计算如下:
其中:
-
是原始权重矩阵。
-
是二值掩码矩阵。
-
表示元素级乘法(Hadamard积)。
-
是阈值,决定了稀疏度。如果权重的绝对值 小于阈值,则被修剪(置0)。
本文评估了 SparseGPT 和 Wanda,涵盖了非结构化稀疏和2:4半结构化稀疏。
4.3. 统计分析指标
为了深入剖析压缩带来的影响,作者引入了三个核心指标。
4.3.1. 有效秩 (Efficient Rank, ERank)
该指标用于衡量矩阵的有效维度,即信息的丰富程度。 公式: 对于一个非零矩阵 ,其有效秩定义为:
符号解释:
- 。
- 是矩阵 的奇异值 (Singular Values)。
- 公式的核心是一个关于归一化奇异值的香农熵 (Shannon Entropy) 的指数形式。
- 意义: ERank 越高,说明矩阵的奇异值分布越均匀,承载的信息量越大;ERank 越低,说明矩阵主要由少数几个大的奇异值主导,信息趋于坍缩。压缩通常会导致ERank下降。
4.3.2. Top-K 排名一致性 (Top-K Ranking Consistency)
衡量压缩前后模型对预测词元(Token)信心排序的一致性。 公式:
符号解释:
- :原始模型(Original)输出的前 个概率最高的词元集合。
- :压缩模型(Compressed)输出的前 个概率最高的词元集合。
- :Jaccard 相似系数,计算两个集合交集与并集的比值。
- 意义: 该值越接近1,说明压缩模型与原始模型的预测偏好越一致。
4.3.3. 能量分析 (Energy-based Analysis)
受到分布外(OOD)检测的启发,使用能量分数来衡量模型输出分布的置信度模式。 公式: 给定输入 ,模型输出 个对数几率(logits)。其能量函数定义为:
符号解释:
-
是温度参数 (Temperature)。
-
是第 个类别的对数几率。
-
意义: 作者比较原始模型和压缩模型的能量差 。能量分数的变化反映了模型对自身预测确定性的改变(如变得过度自信或不自信)。
5. 实验设置
5.1. 数据集
为了全面评估,使用了以下四个领域的代表性数据集:
- Tool Use: T-Eval (包含Plan, Reason, Retrieve等子集)。
- Workflow: WorfBench (包含Function Call, Embodied, Problem-Solving等任务)。
- Long Context: LongBench (QA, Summarization, Few-shot), LongGenBench (GSM8K, MMLU长文本版), Needle-in-the-Haystack。
- Real-world: AgentBoard (包含ScienceWorld, Jericho, Tool-Query等环境)。
5.2. 模型与基线
-
模型家族:
- 中等规模 (Standard): Qwen2.5 (7B-32B), InternLM2.5-7B, Mistral-7B。
- 小规模 (Small): Gemma-2B, Phi-3.5, MiniCPM-4B。
- 蒸馏推理模型 (Distilled Reasoning): DeepSeek-R1-Distill 系列 (基于Qwen和Llama)。
-
压缩设置:
- 量化: GPTQ (4-bit, 8-bit), AWQ (4-bit)。
- 剪枝: Wanda, SparseGPT (非结构化及2:4半结构化)。
-
基线: 原始未压缩的 FP16/BF16 模型。
6. 实验结果与分析
6.1. 核心结果分析:压缩对智能体能力的影响
6.1.1. 工具使用 (Tool Use)
下图(原文 Figure 10)展示了在 InternLM-2.5-7B 上不同压缩方法的表现。
该图像是一个柱状图,展示了不同压缩方法(FP16、AWQ、GPTQ、FP8)在多项任务(计划、推理、检索、理解、指令、回顾)上的整体得分(百分比)。不同颜色的柱子表示各个方法的表现,数据表明不同方法对任务的影响程度各异。
-
量化表现优异: 从数据可看出,AWQ 和 GPTQ 在大多数任务(如Instruct, Reason)上几乎能保持与 FP16 相当的性能(得分接近70%-90%)。
-
格式敏感性: 研究发现,当要求模型输出 JSON 格式时,压缩带来的性能下降比输出纯文本字符串(String)更严重。这表明压缩破坏了模型对严格句法结构的生成能力。
-
数据支持 (Table 8): 以下是原文 Table 8 的结果,对比了不同模型在 String 和 JSON 格式下的表现:
LLMs Compression Instruct Plan Overall String Json String Json InternLM2.5-7B Mag(Un) 57.8 73.2 27.7 23.1 47.8 Wanda(Un) 83.7 90.6 49.0 72.4 64.7 AWQ 98.6 98.7 48.5 45.3 68.6 FP16 (Base) 98.6 98.6 44.3 73.7 72.2 注:上表为节选关键数据,完整表格请见原文。可以看到 AWQ (68.6) 非常接近 FP16 (72.2),而 Mag(Un) 剪枝后仅为 47.8。
6.1.2. 现实世界应用 (Real-World Applications)
这是压缩模型表现最差的领域。在 AgentBoard 基准测试中,即使是表现最好的量化方法也出现了显著的性能下滑。 以下是原文 Table 9 的部分结果:
| LLMs | Compression | Jericho | Tool-Query | Tool-Operation |
|---|---|---|---|---|
| Qwen2.5-7B | Base (FP16) | 25.00 | 52.61 | 35.53 |
| AWQ | 19.73 | 47.16 | 33.15 | |
| Mag(Un) | 0.00 | 0.14 | 0.10 |
- 分析: 在 Jericho(文本游戏)任务中,AWQ 从 25.00 下降到 19.73,下降幅度约20%。而简单的幅度剪枝(Mag)几乎导致模型能力完全丧失(0.00)。这说明现实世界的复杂决策对模型参数的微小扰动非常敏感。
6.1.3. 蒸馏模型 (Distilled Models) 的异常
论文发现 DeepSeek-R1-Distill 系列模型在压缩后的表现不如预期。
- 现象: 蒸馏模型在智能体任务上的基线性能有时低于非蒸馏模型,且对压缩更敏感。
- 原因推测: 教师模型(Teacher Model)虽然推理能力强,但在“智能体”特定能力(如工具调用)上可能并未进行针对性训练,导致学生模型在这些方面的知识本就脆弱,压缩后更易丢失。
6.2. 统计指标分析
作者利用提出的指标解释了性能下降的原因。
6.2.1. ERank 与性能的相关性
如下图(原文 Figure 2)所示,ERank(有效秩)的下降与模型准确率(ACC)的下降呈正相关。
该图像是一个条形图,展示了不同数据集(包括HotpotQA、TriviaQA、MultiNews、Lcc和SciWorld)在PPL与Top-k相关系数之间的关系。图中显示了每个数据集的相关系数,SciWorld的相关系数最高,达到了0.928,而HotpotQA和TriviaQA的相关系数低至0.098和0.088。
- 观察: 4-bit 量化(W4)和 KV Cache 量化(KV4)导致 ERank 显著降低。这意味着压缩后的权重矩阵变得“更简单”了,丢失了处理复杂信息所需的维度。
6.2.2. Logits 与 能量分布
-
Ranking Consistency (图 6): Top-k 排名一致性随着 的减小而变得不稳定。这意味着压缩模型在预测最可能的那个词(Top-1)时,往往能做对,但在预测候选项(Top-3, Top-10)时,其概率分布与原模型差异很大。这对于需要多样性生成(Sampling)的任务是致命的。
-
Energy Analysis (图 12):
该图像是能量分布比较的图表,展示了在不同位置(如 token 1, 64, 117, 175, 244, 252)上量化模型与原始模型的负能量分布情况。每个子图显示了对应位置的能量分布,包括原始模型和量化模型的对比。-
图示表明,压缩模型(粉色)的能量分布在初始阶段(Token 1)与原始模型(蓝色)有较大差异,表现出更极端的置信度(Over-confidence 或 Under-confidence),随着生成序列变长,两者趋于融合。这种初始阶段的偏差可能导致智能体在多步推理的开局就走错方向。
-
7. 总结与思考
7.1. 结论总结
- ACBench 填补了空白: 它是首个全面评估压缩 LLM 智能体能力的基准,涵盖了从简单的工具使用到复杂的现实世界交互。
- 量化是首选: 相比于剪枝,GPTQ 和 AWQ 等量化方法在保留智能体能力方面表现更佳。4-bit 量化通常是一个可接受的权衡点(Trade-off)。
- 现实世界应用仍是挑战: 虽然工具使用能力保留较好,但在 AgentBoard 等复杂环境中,压缩模型仍面临 10% 以上的性能损失,这对于高可靠性要求的场景是不可忽视的。
- 结构化输出脆弱: 压缩模型在生成 JSON 等严格格式时更容易出错,这提示我们在部署压缩模型进行 API 调用时需要额外的容错机制。
7.2. 局限性与未来工作
- 局限性: 本文仅评估了后训练压缩方法,未涉及量化感知训练 (Quantization-Aware Training, QAT),后者可能带来更好的性能恢复。此外,未探索如 QuaRot 等新兴的旋转量化技术。
- 未来方向:
- 开发专门针对智能体能力的压缩算法。
- 研究如何通过微调(Fine-tuning)恢复压缩后损失的特定智能体技能。
- 深入探究为什么推理能力的蒸馏未能有效转化为智能体能力。
7.3. 个人启发与批判
- 启发: 这篇论文提醒我们,在实际工程中选择模型压缩方案时,不能只看 PPL 或 MMLU 分数。如果业务场景涉及复杂的 Agent 交互(如客服机器人调用后台 API),必须在特定任务上重新验证压缩模型的性能,尤其是其遵循 JSON 格式的能力。
- 批判: 论文中提到的 DeepSeek 蒸馏模型表现不佳,可能不仅仅是压缩的问题,也可能与基础模型本身的训练数据分布有关。此外,虽然提出了 ERank 等指标,但这些指标目前更多是“事后解释”,如何利用这些指标来指导压缩算法的设计(例如,设计一种最大化 ERank 的剪枝策略)是更有价值的下一步。
- 应用迁移: ERank 和能量分析的思路可以迁移到其他领域,例如评估大模型微调前后的知识遗忘程度,或者用于检测模型生成的幻觉(Hallucination)。
相似论文推荐
基于向量语义检索推荐的相关论文。