AiPaper
论文状态:已完成

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization

发表:2025/10/25
原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出MQuant,一种针对多模态大型语言模型的训练后静态量化框架。通过模态特定静态量化、注意力不变灵活切换和旋转幅度抑制,显著降低推理延迟和异常值影响,提高推理效率,支持多主流模型部署。

摘要

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization JiangYong Yu ∗ HOUMO AI Nanjing, China jiangyongyufocus@gmail.com Sifan Zhou ∗ Southeast University Nanjing, China sifanjay@gmail.com Dawei Yang † HOUMO AI Nanjing, China dawei.yang@houmo.ai Shuoyu Li Xi’an Jiaotong University Xi’an, China 1027057721@qq.com Shuo Wang HOUMO AI Nanjing, China wangshuo514@sina.com Xing Hu HOUMO AI Nanjing, China xing.hu@houmo.ai Chen Xu HOUMO.AI Nanjing, China xuchen19970925@gmail.com Zukang Xu HOUMO AI Nanjing, China zukang.xu@houmo.ai Changyong Shu HOUMO AI Nanjing, China changyong.shu89@gmail.com Zhihang Yuan HOUMO AI Beijing, China hahnyuan@gmail.com Abstract Multimodal large language models (MLLMs) have garnered wide- spread attention due to their ability to understand multimodal input. However, their large parameter sizes and substantial compu- tational demands severely hinder their practical deployment and application. While quantization is an effective way to reduce model size and inference latency, its application to MLLMs remains un- derexplored. In this paper, we propose MQuant, a post-training quantization (PTQ) fram

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Static Quantization (MQuant:通过静态量化释放多模态大型语言模型的推理潜力)

1.2. 作者

论文的作者团队来自多个机构,包括 HOUMO AI东南大学 (Southeast University)西安交通大学 (Xi'an Jiaotong University)。主要作者包括:

  • JiangYong Yu (HOUMO AI)
  • Sifan Zhou (东南大学)
  • Dawei Yang (HOUMO AI)
  • Shuoyu Li (西安交通大学)
  • Shuo Wang (HOUMO AI)
  • Xing Hu (HOUMO AI)
  • Chen Xu (HOUMO.AI)
  • Zukang Xu (HOUMO AI)
  • Changyong Shu (HOUMO AI)
  • Zhihang Yuan (HOUMO AI)

1.3. 发表期刊/会议

该论文将在 第33届ACM国际多媒体大会 (MM '25) 上发表。ACM MM 是计算机多媒体领域具有较高声誉和影响力的国际会议。

1.4. 发表年份

2025年

1.5. 摘要

多模态大型语言模型 (Multimodal Large Language Models, MLLMs) 因其理解多模态输入的能力而受到广泛关注。然而,其庞大的参数规模和巨大的计算需求严重阻碍了实际部署和应用。尽管量化 (quantization) 是减少模型大小和推理延迟的有效方法,但其在 MLLMs 上的应用仍未得到充分探索。本文提出了 MQuant,一个专为解决多模态大型语言模型 (MLLMs) 独特挑战而设计的训练后量化 (Post-Training Quantization, PTQ) 框架。传统量化方法在 MLLMs 上常常面临困难,原因包括:(a) 大量视觉词元 (visual tokens) 导致的高推理延迟,(b) 视觉词元和文本词元之间存在分布差异,以及 (c) 基于哈达玛变换 (Hadamard-based transformations) 引入的极端异常值 (extreme outliers)。为了解决这些问题,MQuant 引入了:模态特定静态量化 (Modality-Specific Static Quantization, MSQ),为视觉词元和文本词元分配不同的静态比例因子;注意力不变灵活切换 (Attention-Invariant Flexible Switching, AIFS),通过重新排序词元来保持因果注意力 (casual attention),同时消除昂贵的逐词元比例计算;以及 旋转幅度抑制 (Rotation Magnitude Suppression, RMS),减轻在线哈达玛旋转 (Hadamard rotations) 产生的权重异常值。在五个主流 MLLMs (包括 Qwen-VL, MiniCPM-V, CogVLM2) 上,MQuant 在 W4A8 (权重4比特、激活8比特) 设置下实现了接近浮点精度 (小于1%的性能下降),同时推理延迟降低了高达30%,显著优于现有 PTQ 基线。我们的 MQuant 有效地弥合了在资源受限设备上实现高效且准确 MLLMs 推理的鸿沟。代码将在 https://github.com/StiphyJay/MQuant 发布。

1.6. 原文链接

/files/papers/690173c150eeee08525f6283/paper.pdf (当前为 PDF 链接)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

该论文旨在解决多模态大型语言模型 (Multimodal Large Language Models, MLLMs) 在实际部署和应用中面临的效率和资源限制问题。具体来说,MLLMs 具有庞大的参数规模和巨大的计算需求,这使得它们难以在资源受限的设备(如边缘设备)上进行高效推理。尽管量化 (quantization) 是一个有效的解决方案,但现有的量化技术未能充分解决 MLLMs 带来的独特挑战。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?

MLLMs 结合了视觉和文本模态的理解能力,在多模态理解和推理方面取得了显著进展,但其部署瓶颈限制了其广泛应用。当前领域存在以下具体挑战或空白:

  • 高推理延迟 (High Inference Latency) 源于大量视觉词元 (visual tokens): MLLMs 通常会根据输入图像或视频的分辨率生成大量的视觉词元,尤其是在高分辨率输入、视频任务或多图像对话场景中,预填写 (prefill) 阶段的视觉词元数量会急剧增加,导致“首词元时间 (Time-to-First-Token, TTFT)”过高,严重影响对延迟敏感的任务。
  • 模态间分布差异 (Disparate Modality Distributions): 视觉词元和文本词元的激活值 (activations) 分布存在显著差异。视觉词元的激活范围通常比文本词元广得多(例如,视觉词元在 -2010 之间,而文本词元通常集中在 0 附近)。采用单一的全局缩放因子 (global scale factor) 进行量化会导致性能下降:要么过度裁剪 (clipping) 视觉异常值,要么增加文本量化粒度,损害整体精度。
  • 哈达玛变换引入的极端异常值 (Extreme Outliers introduced by Hadamard-based Transformations): 一些先进的量化方法,如 Quarot,利用哈达玛变换来降低量化难度。然而,本文发现,在线的哈达玛变换 (online Hadamard transforms) 会在 MLLMs 的权重中引入新的、严重的异常值,特别是在视觉编码器中,这会破坏量化性能。
  • 现有量化方法的局限性: 现有的 MLLM 量化研究(如 Q-VLM、MBQ)仍普遍采用逐词元动态量化 (per-token dynamic quantization) 来处理激活值,这带来了显著的计算开销。而针对 LLMs 的先进 PTQ 方法(如 Quarot)由于没有考虑 MLLMs 的模态差异,无法直接有效应用于 MLLMs。

2.1.3. 这篇论文的切入点或创新思路是什么?

本文的创新思路是设计一个专为 MLLMs 量身定制的 训练后量化 (PTQ) 框架 MQuant,从根本上解决上述挑战。它通过引入以下机制实现:

  • 模态特定静态量化 (MSQ): 针对视觉和文本词元的不同激活分布,采用独立的静态缩放因子进行量化,避免了动态计算开销和模态间的精度冲突。
  • 注意力不变灵活切换 (AIFS): 重新排序词元序列(视觉词元在前,文本词元在后),并相应调整因果注意力掩码 (causal attention mask),以实现高效的每张量静态量化,同时保持模型的原始逻辑和降低推理延迟。
  • 旋转幅度抑制 (RMS): 理论分析并发现在线哈达玛变换在 MLLMs 中引入的特定权重异常值,并提出有针对性的抑制方案,以提高量化稳定性。

2.2. 核心贡献/主要发现

论文的主要贡献和发现可以总结如下:

  • 提出了 MQuant 框架: MQuant 是一个通用的训练后量化 (PTQ) 框架,专门为 MLLMs 设计,能够实现高效且准确的推理。
  • 深入分析了 MLLMs 量化问题: 首次对 MLLMs 的量化挑战进行了全面分析,揭示了性能崩溃的根本原因,识别了推理速度瓶颈以及模态差异带来的量化难题。
  • 设计了 MSQ 和 AIFS: 提出了模态特定静态量化 (MSQ) 和注意力不变灵活切换 (AIFS) 机制,以加速异构变长多模态输入的推理,同时保持高精度。MSQ 通过为视觉和文本词元分配不同的静态缩放因子来解决分布差异;AIFS 则通过重排词元并调整因果掩码来消除昂贵的逐词元缩放计算,有效降低了 TTFT。
  • 提出了 RMS: 揭示了在线哈达玛旋转 (Hadamard rotations) 导致的权重异常值问题,并提出了旋转幅度抑制 (RMS) 方案来有效缓解这些异常值,从而增强量化性能。
  • 在多个主流 MLLMs 上验证了有效性: 在 InternVL2-8B、Qwen-VL-Chat-9.6B、MiniCPM-V 2.6-8B、Qwen2-VL-7B 和 GLM-4V-9B 等五个主流 MLLMs 上进行广泛实验。结果表明,在 W4A8 (权重4比特,激活8比特) 设置下,MQuant 实现了接近浮点精度 (小于1%的性能下降),同时在预填写 (prefill) 阶段加速23%,在解码 (decode) 阶段加速100%,显著优于现有 PTQ 基线。
  • 显著提升了推理效率和内存效率: MQuant 实现了高达 24.76% 的整体推理加速和超过 100% 的内存效率提升。在多批次 (multi-batch) 和多轮 (multi-turn) 推理场景下也展现出持续的加速能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大 (通常数十亿到数千亿) 的深度学习模型,主要基于 Transformer 架构,通过在海量文本数据上进行预训练,学习语言的复杂模式和知识。它们在自然语言处理任务(如文本生成、问答、翻译)中表现出卓越的性能。

3.1.2. 多模态大型语言模型 (Multimodal Large Language Models, MLLMs)

MLLMs 是 LLMs 的扩展,旨在处理和理解多种模态的输入,最常见的是结合视觉(图像、视频)和文本信息。它们通过集成视觉编码器 (Visual encoder) 和视觉-语言投影器 (Vision-Language Projector, VLP) 来实现这一点。

  • 视觉编码器 (Visual encoder, EE): 负责将图像或视频等视觉输入编码成一系列视觉特征向量或词元。
  • 视觉-语言投影器 (Vision-Language Projector, PP): 用于对齐视觉编码器输出的视觉特征与 LLM 所能理解的文本特征空间,将视觉信息桥接到语言模型。
  • 大型语言模型 (LLM): 接收来自视觉-语言投影器的多模态词元,以及文本词元,进行综合理解和推理。

3.1.3. 量化 (Quantization)

量化是一种模型压缩技术,通过将模型参数(权重)和/或中间激活值从高精度浮点表示(如 FP32,32位浮点数)转换为低精度整数表示(如 INT8,8位整数,或 INT4,4位整数),以减少模型大小、降低内存带宽需求和加速推理计算。

  • 统一量化 (Uniform Quantization): 是一种常见的量化方法,通过一个固定的缩放因子 (scale factor) 和零点 (zero-point) 将浮点值映射到整数范围。 给定浮点张量 xx(权重或激活),其到 bb 比特有符号整数的统一量化过程如下: x^=QU(x,b)=(clamp(xs+z,qmin,qmax)z)s { \hat { \mathbf { x } } } = \mathbf { Q } _ { U } ( \mathbf { x } , b ) = ( c l a m p ( \lfloor { \frac { \mathbf { x } } { s } } \rceil + z , q _ { m i n } , q _ { m a x } ) - z ) \cdot s 其中:

    • x\mathbf{x}:原始的浮点张量。
    • bb:量化的比特宽度。
    • ss:缩放因子 (scale factor),定义为 s=max(x)2b11s = \frac { \operatorname* { m a x } ( | \mathbf { x } | ) } { 2 ^ { b - 1 } - 1 },它决定了浮点值与整数之间的比例关系。
    • \lfloor \cdot \rceil:四舍五入到最近整数的运算符。
    • zz:零点 (zero-point),用于将浮点零点映射到整数范围内的某个值。
    • clamp()clamp(\cdot):裁剪函数,将值限制在整数范围 [qmin,qmax][q_{min}, q_{max}] 内。
    • qmin,qmaxq_{min}, q_{max}:由比特宽度 bb 决定的量化范围的最小值和最大值。例如,对于 8 比特有符号整数,通常为 [128,127][-128, 127]
  • W4A8: 是一种常见的量化配置,表示将权重 (Weights) 量化为 4 比特整数,将激活值 (Activations) 量化为 8 比特整数。

  • 静态量化 (Static Quantization): 缩放因子 ss 和零点 zz 是通过离线校准数据集 (calibration dataset) 预先计算并固定的,在推理时直接使用,无需运行时计算。

  • 动态量化 (Dynamic Quantization): 缩放因子 ss 和零点 zz 是在运行时根据激活值的实际分布动态计算的,通常逐层或逐词元进行。虽然能更好地适应分布变化,但会引入额外的计算开销。

3.1.4. 训练后量化 (Post-Training Quantization, PTQ)

PTQ 是一种量化技术,在模型已经完成训练之后进行。它无需重新训练或微调模型,通过校准过程收集少量数据以确定量化参数(如缩放因子和零点),然后将浮点模型转换为低精度模型。PTQ 的优势在于其简单高效,不增加训练成本。

3.1.5. 注意力机制 (Attention Mechanism)

注意力机制允许模型在处理序列数据时,动态地关注输入序列中最重要的部分。在 Transformer 架构中,自注意力 (Self-Attention) 是核心组件,它通过计算查询 (Query, QQ)、键 (Key, KK) 和值 (Value, VV) 向量之间的关系来生成加权表示。

  • 因果注意力 (Causal Attention): 在自回归模型(如语言模型)中,因果注意力确保当前词元只能关注其之前的词元,而不能关注未来的词元,以防止信息泄露。这通过在注意力计算中应用一个掩码 (mask) 实现。 对于一个序列 EE,注意力矩阵 AA 的计算公式通常为: A=Softmax(QKD+Mi,j),Mi,j={0,if ji,,otherwise. \mathbf { A } = \operatorname { S o f t m a x } \bigl ( \frac { \mathbf { Q } \mathbf { K } ^ { \top } } { \sqrt { D } } + M _ { i , j } \bigr ) , \quad M _ { i , j } = \left\{ \begin{array} { l l } { 0 , } & { \mathrm { i f ~ } j \leq i , } \\ { - \infty , } & { \mathrm { o t h e r w i s e } . } \end{array} \right. 其中:
    • Q, K, V:分别是查询、键和值矩阵。
    • DD:键向量的维度。
    • Mi,jM_{i,j}:因果掩码。当 j>ij > i(即当前词元 ii 尝试关注未来的词元 jj)时,Mi,jM_{i,j}-\infty,使得 softmax\operatorname{softmax} 后对应的注意力权重趋近于0,从而阻止信息流。当 jij \leq i 时,Mi,jM_{i,j}0,允许正常注意力计算。
  • FlashAttention: 一种高效的注意力机制实现,通过减少内存访问和利用平铺 (tiling) 技术,显著加速了注意力计算,尤其是在长序列上。

3.1.6. 哈达玛变换 (Hadamard Transform, HT)

哈达玛变换是一种正交变换,将信号从时域转换到频域,类似于傅里叶变换。在量化领域,它被用于将权重和激活的分布变得更“不连贯” (incoherent),从而更容易进行低比特量化,尤其是在处理异常值时。

  • 快速哈达玛变换 (Fast Hadamard Transform, FHT): 是哈达玛变换的快速算法,类似于快速傅里叶变换 (FFT)。

3.1.7. 通用矩阵乘法 (General Matrix Multiply, GEMM) 与通用矩阵向量乘法 (General Matrix-Vector Multiply, GEMV)

  • GEMM: 指的是矩阵与矩阵相乘的操作,是深度学习中计算密集度最高的操作之一,例如在全连接层或注意力机制中。
  • GEMV: 指的是矩阵与向量相乘的操作,是 GEMM 的特例,通常在批量大小为1或处理单个序列时发生。

3.2. 前人工作

3.2.1. LLM 量化

  • GPTQ [17]、QuIP [8]、AWQ [29]: 这些是典型的只量化权重 (weight-only quantization) 的方法。它们专注于将模型的权重压缩到低比特,如 4 比特,以减少模型大小。虽然能实现高压缩率,但在推理加速方面通常有限,因为激活值仍保持高精度。
  • SmoothQuant [47]: 一种权重-激活量化方法,通过将量化难度从难以处理的激活异常值转移到权重,以实现更好的 W8A8 量化性能。
  • OmniQuant [35]: 也是一种权重-激活量化方法,通过优化量化参数来提高性能。
  • SliceGPT [4]: 通过设计 Pre-LN+^+Rotate 方案,基于计算不变性进行 LLMs 稀疏化,从而减少内存需求。
  • Quarot [5]: 一种先进的权重-激活量化方法,引入了离线哈达玛变换和部分在线哈达玛变换来消除异常值,在 LLMs 上取得了最先进的量化结果。然而,它主要针对 LLMs 设计,没有充分考虑 MLLMs 的模态差异。

3.2.2. MLLM 量化

  • Q-VLM [43]: 提出了一个块级量化框架,通过熵引导分区优化跨层依赖。
  • MBQ [27]: 利用监督微调损失 (supervised fine-tuning loss) 对视觉和语言词元的梯度作为敏感性指标,在校准过程中平衡重建损失 (reconstruction loss)。
  • 现有 MLLM 量化的局限性: 尽管上述研究做出了一些努力,但它们普遍仍采用逐词元动态量化 (per-token dynamic quantization) 处理激活值。这种动态计算在运行时引入了显著的计算开销,尤其是在资源受限设备上,这正是 MQuant 试图解决的关键问题。

3.3. 技术演进

LLMs 的快速发展(如 Transformer [42]、GPT [1]、LLaMA [39, 40] 系列)为 MLLMs 奠定了基础。最初的 LLMs 难以处理非文本数据。为了弥补这一不足,MLLMs(如 Flamingo [3]、Qwen-VL [6]、InternVL [12]、CogVLMV2 [19])被提出,通过视觉编码器和视觉-语言投影器将视觉和文本模态结合起来,实现了对多模态输入的全面理解和推理。

随着模型规模的增长,模型压缩技术变得至关重要。量化作为一种有效的模型压缩策略,最初主要应用于卷积神经网络 (CNNs),随后被广泛研究并应用于 LLMs。在 LLM 领域,从只量化权重的方法(如 GPTQ、AWQ)到同时量化权重和激活的方法(如 SmoothQuant、OmniQuant、Quarot)不断演进,旨在在保持精度的同时实现更大的压缩和加速。

然而,MLLMs 的出现带来了新的挑战:视觉和文本模态的固有差异(如数据分布、词元数量)使得直接将 LLM 的量化方案应用于 MLLMs 效果不佳。本文的工作正是填补了这一空白,针对 MLLMs 的独特挑战(例如,高视觉词元数量导致的 TTFT 爆炸、模态间激活分布差异、在线哈达玛变换引起的异常值)提出了专门的 PTQ 框架 MQuant,标志着 MLLM 量化技术从通用 LLM 量化向模态感知 (modality-aware) 和效率优化方向的进一步演进。

3.4. 差异化分析

MQuant 与现有量化方法相比,其核心区别和创新点在于:

  • 针对 MLLMs 的特定挑战: 现有 LLM 量化方法(如 Quarot)没有充分考虑 MLLMs 中视觉和文本模态之间的差异,导致其性能在 MLLMs 上大幅下降。而 MQuant 是专门为 MLLMs 设计的,从根本上解决了模态差异和视觉词元过多的问题。

  • 采用模态特定静态量化 (MSQ) 和注意力不变灵活切换 (AIFS):

    • 区别于逐词元动态量化: 现有的 MLLM 量化工作(如 Q-VLM、MBQ)普遍依赖逐词元动态量化来处理激活,这种方法虽然能适应分布变化,但会引入显著的在线计算开销,尤其是在预填写 (prefill) 阶段。MQuantMSQ 通过离线校准确定模态特定的静态缩放因子,完全避免了运行时动态计算的开销。
    • 区别于单一全局缩放: 针对视觉和文本激活分布的巨大差异,MSQ 为不同模态分配独立的静态缩放因子,解决了单一全局缩放因子导致的精度损失问题(即要么视觉异常值被过度裁剪,要么文本精度受损)。
    • 解决词元交错问题: AIFS 通过在保持因果注意力的前提下,重排交错的多模态词元序列(视觉词元在前,文本词元在后),配合 MSQ,从而实现了高效的每张量静态量化,优化了内存访问和计算效率,显著降低了 TTFT。
  • 针对在线哈达玛变换异常值的处理 (RMS): MQuant 深入分析并揭示了 Quarot 等方法中在线哈达玛变换在 MLLMs 的权重中引入的新的“通道均值异常值” (channel-mean outliers),特别是100%存在于视觉编码器中。RMS 是一个创新的解决方案,通过将这些异常值通道分离处理,有效抑制了其对量化精度的负面影响,而这是之前研究未曾发现和解决的问题。

    综上,MQuant 并非简单地将现有 LLM 量化技术应用于 MLLMs,而是从 MLLMs 的固有特性出发,提出了针对性的创新机制,从而在精度、速度和内存效率上实现了显著突破。

4. 方法论

4.1. 方法原理

MQuant 框架的核心思想是针对多模态大型语言模型 (MLLMs) 的独特挑战,设计一个准确且高效的训练后量化 (PTQ) 解决方案。其主要原理包括:

  1. 解决模态激活分布差异: 视觉和文本词元具有截然不同的激活分布范围,传统的单一全局量化尺度会导致精度下降。MQuant 通过引入模态特定静态量化 (MSQ),为不同模态分配独立的静态缩放因子,从而更好地适应各自的分布。
  2. 优化推理延迟和计算开销: MLLMs 中大量的视觉词元和传统逐词元动态量化带来的在线计算开销是主要的推理瓶颈。MQuant 通过结合 MSQ注意力不变灵活切换 (AIFS),将动态、高开销的量化操作转化为静态、硬件友好的操作。AIFS 旨在通过重排词元序列来简化数据处理,同时保持模型的原始逻辑。
  3. 缓解哈达玛变换引入的权重异常值: 针对一些先进量化方法(如 Quarot)中使用的哈达玛变换可能在 MLLMs 权重中引入新的极端异常值,MQuant 提出了旋转幅度抑制 (RMS) 机制,通过理论分析发现并有针对性地处理这些异常值,以确保量化稳定性。

4.2. 核心方法详解

4.2.1. 模态特定静态量化 (Modality-Specific Static Quantization, MSQ)

问题背景: 多模态大型语言模型 (MLLMs) 中的输入序列 EE 通常是文本词元和视觉词元的混合体,例如 E={ e1t,...,em1t, emv,...,env, en+1t,...,eLt}E = \{ \ e _ { 1 } ^ { t } , . . . , e _ { m - 1 } ^ { t } , \ e _ { m } ^ { v } , . . . , e _ { n } ^ { v } , \ e _ { n + 1 } ^ { t } , . . . , e _ { L } ^ { t } \}。其中,上标 tt 表示文本词元,上标 vv 表示视觉词元。视觉词元通常具有更大的激活幅度,这可能掩盖文本特征。图1(b)清晰地展示了视觉和文本词元激活分布的显著差异:视觉词元的激活值范围可以从 -2010,而文本词元通常集中在 0 附近,很少超过 ±0.5\pm 0.5。如果使用一个单一的全局缩放因子进行量化,将导致精度损失。

该图像是论文中的图表,包含两个子图(a)和(b)。(a)展示五种模型在不同图像分割数下的预填写Token数量随图像像素变化趋势;(b)展示视觉与文本Token的激活值分布,显示视觉Token存在较大激活差异。 该图像是论文中的图表,包含两个子图(a)和(b)。(a)展示五种模型在不同图像分割数下的预填写Token数量随图像像素变化趋势;(b)展示视觉与文本Token的激活值分布,显示视觉Token存在较大激活差异。

图1: (a)展示五种模型在不同图像分割数下的预填写Token数量随图像像素变化趋势;(b)展示视觉与文本Token的激活值分布,显示视觉Token存在较大激活差异。

解决方案: MSQ 引入了一种模态感知的方法,对视觉和文本词元应用两套不同的静态每张量 (per-tensor) 量化参数。这意味着为视觉词元计算一个静态缩放因子 svs_v,为文本词元计算另一个静态缩放因子 sts_t。 具体地,对于一个混合了文本和视觉词元的序列,其量化过程可以概念性地表示为: E=(e1t,,em1t)text scale st(emv,,env)visual scale sv(en+1t,,eLt)text scale st. E = \underbrace { ( e _ { 1 } ^ { t } , \ldots , e _ { m - 1 } ^ { t } ) } _ { \mathrm { t e x t ~ s c a l e ~ } s _ { t } } \underbrace { ( e _ { m } ^ { v } , \ldots , e _ { n } ^ { v } ) } _ { \mathrm { v i s u a l ~ s c a l e ~ } s _ { v } } \underbrace { ( e _ { n + 1 } ^ { t } , \ldots , e _ { L } ^ { t } ) } _ { \mathrm { t e x t ~ s c a l e ~ } s _ { t } } . 其中:

  • eite_i^t:第 ii 个文本词元。
  • ejve_j^v:第 jj 个视觉词元。
  • sts_t:应用于所有文本词元的静态缩放因子。
  • svs_v:应用于所有视觉词元的静态缩放因子。
  • m, n:表示视觉词元在序列中的起始和结束索引。

实现方式与优势: MSQ 的创新之处在于,这些缩放因子 svs_vsts_t 在推理之前通过一次性校准 (single-shot calibration) 确定,从而完全消除了逐词元计算的在线开销。 这种每张量静态量化策略带来了三个显著优势:

  1. 完全避免动态缩放更新: 无需在运行时重新计算每个词元的缩放因子,显著降低了计算复杂性。
  2. 硬件友好实现: 简化的量化内核 (quantization kernels) 有利于在各类硬件上高效实现。
  3. 防止分布饱和: 避免了高幅度的视觉激活值淹没范围较窄的文本词元动态范围,从而提高了整体精度。

4.2.2. 注意力不变灵活切换 (Attention-Invariant Flexible Switching, AIFS)

问题背景: 尽管 MSQ 解决了模态分布差异问题,但如果文本和视觉词元在输入序列 EE 中依然是交错排列的,会导致数据处理复杂化。在运行时进行朴素的切片 (slicing) 和拼接 (concatenating) 操作会增加内存流量,并降低 GEMM (通用矩阵乘法) 等计算密集型层(如 QK 和 FC 层)的效率。

解决方案: AIFS 提出了一种灵活的切换机制,通过重新排序输入序列,使得所有视觉词元出现在前,随后是所有文本词元。为了保持模型的原始逻辑和因果注意力 (causal attention) 关系,AIFS 会相应地修改因果掩码 (causal mask)。

以下是原文 Figure 2 的示意图,展示了 MSQAIFS 的工作原理:

Figure 2: Overview of Modality-Specific Static Quantization (MSQ) and Attention-Invariant Flexible Switching (AIFS). AIFS reorders tokens so that all visual tokens appear first, then the textual toke… 该图像是示意图,展示了图2中Modality-Specific Static Quantization(MSQ)和Attention-Invariant Flexible Switching(AIFS)的工作流程。AIFS通过调整因果掩码实现视觉和文本Token的重新排序,确保模型逻辑不变。

图2: Modality-Specific Static Quantization (MSQ) 和 Attention-Invariant Flexible Switching (AIFS) 概述。AIFS 通过重新排序词元,使所有视觉词元先出现,然后是文本词元,同时调整因果掩码以保留原始模型逻辑。

因果注意力的修改: 对于一个朴素序列 EE,原始的因果注意力掩码 Mi,jM_{i,j} 定义如下: A=Softmax(QKD+Mi,j),Mi,j={0,if ji,,otherwise. \mathbf { A } = \operatorname { S o f t m a x } \bigl ( \frac { \mathbf { Q } \mathbf { K } ^ { \top } } { \sqrt { D } } + M _ { i , j } \bigr ) , \quad M _ { i , j } = \left\{ \begin{array} { l l } { 0 , } & { \mathrm { i f ~ } j \leq i , } \\ { - \infty , } & { \mathrm { o t h e r w i s e } . } \end{array} \right. 其中:

  • Q, K, V:分别是查询、键和值矩阵。

  • DD:键向量的维度。

  • Mi,jM_{i,j}:因果掩码,当 jij \leq i 时为 0 (允许关注),否则为 -\infty (禁止关注未来词元)。

    通过 AIFS 机制,我们重新排序 EE 得到一个新的统一序列 Eu={ emv,,env, e1t,,em1t, ,en+1t,,eLt}E^u = \{ \ e _ { m } ^ { v } , \ldots , e _ { n } ^ { v } , \ e _ { 1 } ^ { t } , \ldots , e _ { m - 1 } ^ { t } , \ \ldots , e _ { n + 1 } ^ { t } , \dots , e _ { L } ^ { t } \}。新的统一因果掩码 Mi,juM_{i,j}^u 可以表示为: Mi,ju={0if one of the following conditions is me(i(nm),ji or (nm)<jn)or ((nm)<in,(nm)<ji)or (i>n,ji)otherwise M _ { i , j } ^ { u } = \left\{ \begin{array} { l l } { 0 } & { \mathrm { i f ~ o n e ~ o f ~ t h e ~ f o l l o w i n g ~ c o n d i t i o n s ~ i s ~ m e } } \\ & { ( i \leq ( n - m ) , j \leq i \mathrm { ~ o r ~ } ( n - m ) < j \leq n ) } \\ & { \mathrm { o r ~ } ( ( n - m ) < i \leq n , ( n - m ) < j \leq i ) } \\ & { \mathrm { o r ~ } ( i > n , j \leq i ) } \\ { - \infty } & { \mathrm { o t h e r w i s e } } \end{array} \right. 这里,mmnn 分别表示原始序列中视觉词元的起始和结束索引。(n-m) 是视觉词元的数量。

  • 第一行条件 (i(nm),ji or (nm)<jn)( i \leq ( n - m ) , j \leq i \mathrm { ~ o r ~ } ( n - m ) < j \leq n )

    • i(nm)i \leq (n-m):表示当前词元 ii 是重新排序后的视觉词元(即原序列中的视觉词元)。
    • jij \leq i:允许视觉词元关注其之前的视觉词元。
    • (nm)<jn(n-m) < j \leq n:允许视觉词元关注其之后的文本词元。这对应于原始序列中的情况,即视觉词元可以关注其后的文本词元。
  • 第二行条件 ((nm)<in,(nm)<ji)( ( n - m ) < i \leq n , ( n - m ) < j \leq i )

    • (nm)<in(n-m) < i \leq n:表示当前词元 ii 是重新排序后的第一个文本词元块(即原序列中视觉词元之前的文本词元)。
    • (nm)<ji(n-m) < j \leq i:允许该文本词元关注其之前的文本词元。
  • 第三行条件 (i>n,ji)( i > n , j \leq i )

    • i>ni > n:表示当前词元 ii 是重新排序后的第二个文本词元块(即原序列中视觉词元之后的文本词元)。

    • jij \leq i:允许该文本词元关注其之前的任何词元(包括视觉词元和之前的所有文本词元)。

      位置嵌入的调整: 位置嵌入 (position embeddings) 也相应地进行平移(参见附录 A.2),以保持与原始序列的数值等效性。这确保了自回归的一致性,同时实现了简化的内存访问:现在所有视觉词元和文本词元可以分别通过其专用的静态缩放因子进行处理。

与 FlashAttention 的集成: MSQAIFS 优化了输入词元效率,而 FlashAttention [14] 通过减少内存访问和分块 (tiling) 加速了注意力计算。这两个方法在概念上是正交的,可以无缝集成并带来累加的效益。具体地,在推理开始时,MSQ+AIFSMSQ+AIFS 重排混合的多模态词元,并将原始视觉模态的起始/结束索引(mmnn)传递给 FlashAttention,以确保不相关的位置被正确掩码。

效率和实际效益: MSQ+AIFSMSQ+AIFS 带来三个主要优势:

  1. 高兼容性和强理论等效性: 因果掩码变换确保了模型输出与词元未重新排序时的输出数值相同,并且可以轻松集成到现有 MLLM 实现中。
  2. 降低推理延迟: 将逐词元动态量化替换为静态的模态特定方法,消除了每个词元重新计算缩放因子的需求,降低了运行时开销。
  3. 增强内存效率: 通过使用专用缩放因子对视觉(svs_v)和文本(sts_t)词元进行顺序处理,最大限度地减少了内存碎片,并消除了填充/切片操作,从而实现显著的加速和内存效率提升。

4.2.3. 旋转幅度抑制 (Rotation Magnitude Suppression, RMS)

问题背景: QuIP [8] 和 Quip# [41] 提出用不连贯系数 (incoherence coefficient) μ\mu 来衡量量化难度,μ\mu 越小表示量化越容易。对于权重矩阵 WRm×nW \in \mathbb { R } ^ { m \times n },不连贯系数 μ\mu 定义为满足以下条件的最小常数: Wij = eiWej  μWFmn, \big | W _ { i j } \big | \ = \ \big | \boldsymbol e _ { i } ^ { \top } W \boldsymbol e _ { j } \big | \ \le \ \mu \frac { \| W \| _ { F } } { \sqrt { m n } } , 其中:

  • WijW_{ij}:权重矩阵 WW 中第 ii 行第 jj 列的元素。

  • ei,ej\boldsymbol e _ { i } , \boldsymbol e _ { j }:权重矩阵的奇异向量。

  • WF\| W \| _ { F }:权重矩阵的 Frobenius 范数。

  • m, n:权重矩阵的维度。

    前人工作表明,对权重和激活应用哈达玛变换 (Hadamard transform) 可以有效降低 μ\mu,从而简化量化。然而,MLLMs 结合了 LLM 组件和视觉编码器,其中视觉编码器通常包含 LayerNorm 层。虽然可以通过将 LayerNorm 转换为 RMSNorm(类似于 SliceGPT [4])来使 Quarot [5] 等方法中的哈达玛变换适用,但 Quarot 在 MLLMs 任务上仍表现不佳(如表3所示)。论文进一步指出,Quarot 中关键的在线 (快速) 哈达玛变换 (FHT) 会在 MLLMs 中产生新的异常值。

以下是原文 Figure 3 的示意图:

Figure 3: (a) The pipeline of Quarot, showing offline and partially online Fast Hadamard transforms. (b) Weight matrix where applying online FHT produces outliers in the first row. 该图像是图3的示意图,展示了Quarot的处理流程,包括离线和部分在线快速Hadamard变换,以及应用在线FHT后权重矩阵首行出现异常值的情况。图中包含Hadamard变换过程和权重分布的对比。

图3: (a) Quarot 的流水线,展示了离线和部分在线快速哈达玛变换。(b) 应用在线 FHT 后,权重矩阵在第一行中产生异常值。

在线 FHT 中的通道均值异常值 (Channel-Mean Outliers in Online FHT): 哈达玛矩阵 H{1,1}n×nH \in \{ - 1 , 1 \} ^ { n \times n } 具有正交行,因此 HW2F=W2F\| H W _ { \ell _ { 2 } } \| _ { F } = \| W _ { \ell _ { 2 } } \| _ { F }。论文分析发现,对于许多哈达玛变换,其第一行(和第一列)包含相同的 1n\frac{1}{\sqrt{n}} 值,而其他行之和为零。因此,经过变换后,第一个通道 (channel) 的值将变为: (HW2)0j = nmean(w:,j). ( H W _ { \ell _ { 2 } } ) _ { 0 j } \ = \ \sqrt { n } \mathrm { m e a n } \big ( w _ { : , j } \big ) . 其中:

  • (HW2)0j( H W _ { \ell _ { 2 } } ) _ { 0 j }:变换后权重矩阵 HW2H W _ { \ell _ { 2 } } 的第 0 行(即第一个通道)第 jj 列的元素。

  • mean(w:,j)\mathrm { m e a n } \big ( w _ { : , j } \big ):原始权重矩阵 W2W _ { \ell _ { 2 } }jj 列的均值。

    如果这个通道的均值很大,那么第一个通道的元素值可能会超过原始的最大值,从而提高了变换后矩阵的不连贯系数 μH2\mu_{H\ell_2}。具体来说,当满足以下条件时,就会在第一个通道中出现新的通道均值异常值: nmean(w:,j) > maxi(wij), \sqrt { n } \operatorname * { m e a n } \left( w _ { : , j } \right) \ > \ \operatorname * { m a x } _ { i } \big ( w _ { i j } \big ) , 其中:

  • man(w:,j)\operatorname * { m a n } \left( w _ { : , j } \right):原始权重矩阵 WWjj 列的均值。

  • maxi(wij)\operatorname * { m a x } _ { i } \big ( w _ { i j } \big ):原始权重矩阵 WWjj 列的最大绝对值。

    图3(b)展示了 MLLM 中出现这种情况的一个例子。这个问题尤其出现在 Quarot 的在线(部分)FHT 步骤中,因为在线 FHT 是在每次前向传播时应用的,而不是严格离线。

Eq. 8 符合性普遍性验证: 论文在五种先进 MLLMs (InternVL2-8B, QwenVL-9.6B, MiniCPM-V-2.6-8B, GLM-4V-9B, Qwen2VL-7B) 上进行了系统性的块级验证,以量化 FHT 引起的权重异常值的发生情况。以下是原文 Table 2 的结果:

以下是原文 Table 2 的结果:

Model Part All Blocks Number Meet Eq. 9 Number Ratio
Internvl2-8B Visual 24 24 100%
LLM 32 4 12.5%
Qwenvl-9.6B Visual 48 48 100%
LLM 32 13 40.6%
MiniCPM-V-2.6-8B Visual 27 27 100%
LLM 28 3 10.7%
GLM-4V-9B Visual 63 63 100%
LLM 40 6 15.0%
Qwen2vl-7B Visual 32 32 100%
LLM 28 1 3.5%

表2: Eq. 9 在模型组件中的符合性比例。

分析结果揭示了两个关键发现:

  1. 在视觉编码器中普遍存在: 所有视觉 down_proj 层(100%)都表现出符合 Eq. 8 的 FHT 引起的权重异常值,这与图3(b)所示的概念一致。
  2. 在 LLMs 中表现可变: 这种现象在不同架构的 LLM down_proj 层中仅出现在 3% 到 40% 的情况下。 这一实证验证证实了上述理论的健全性,并强调了对 FHT 产生的权重异常值进行专门处理的必要性,尤其是在视觉组件中,它们的普遍存在从根本上影响了模型的量化性能。

解决方案:旋转幅度抑制 (Rotation Magnitude Suppression, RMS): 为了以最小的开销处理这些新的异常值,论文提出了 RMS 方案。其工作流程如下:

  1. 识别问题通道: 首先判断一个通道是否满足 Eq. 8 (即是否存在通道均值异常值)。

  2. 分离处理: 如果满足,则将这个“问题通道”从主要的 GEMM (通用矩阵乘法) 内核中分离出来,并使用一个独立的 GEMV (通用矩阵向量乘法) 进行处理。

  3. 零化主内核中的对应行: 在主 GEMM 内核中,将该问题通道对应的行置零,以避免重复计算。

  4. 合并结果: 在激活函数之前,将从独立 GEMV 计算得到的局部输出添加回主路径。

    以下是原文 Figure 4 的示意图,展示了 RMS 的工作流程:

    Figure 4: An overview of our proposed RMS. We separate outlier-prone channels into a dedicated GEMV path, zero their row in the main kernel, and then merge the results. 该图像是图示,展示了W4A8矩阵乘法中的GEMM和GEMV的量化与解量化流程,包含步骤计算缩放因子、量化、W4A8矩阵乘法及反量化,关键公式为 Clamp(Round(x/sx))Clamp\left(Round\left(x/s_x\right)\right)Clamp(Round(W1/sw1))Clamp\left(Round\left(W1/s_{w1}\right)\right) 等。

图4: 我们提出的 RMS 概述。我们将易出现异常值的通道分离到一个专门的 GEMV 路径,在主内核中将它们的行置零,然后合并结果。

这种有针对性的分离确保了“大均值通道”在逐前向传播的 FHT 过程中不会引发极端的首行值。由于只有满足 Eq. 8 条件的通道才需要此过程,因此增加的计算成本非常小。附录 A.7 详细描述了 RMS 如何与 Quarot 的 FHT 集成。总的来说,RMS 通过抑制大均值通道,解决了在线哈达玛变换的一个关键缺陷。

为何不直接减去通道均值? 一个直观的想法是在应用 HH 之前减去每个通道的均值,然后在之后再将其加回。然而,这会导致两个主要问题:

  1. 均值再次被变换: 分离出的均值仍然会受到哈达玛旋转的影响,再次产生一个新的线性变换,其中第一个通道会再次变大。
  2. 计算成本增加: 分离并重新注入均值相当于将线性操作加倍,显著增加了计算成本。 相比之下,RMS 方法只修改触发异常值条件的行,并且不需要额外的线性层,从而提供了一种更高效和有效的解决方案。

5. 实验设置

5.1. 数据集

实验中使用了以下主流 MLLMs 和基准数据集:

  • 多模态大型语言模型 (MLLMs):

    • InternVL2-8B [11]
    • Qwen-VL-Chat-9.6B [6]
    • MiniCPM-V 2.6-8B [50]
    • Qwen2-VL-7B [44]
    • GLM-4V-9B [19]
  • 基准数据集 (Benchmarks): 评估在四个涵盖光学字符识别 (OCR) 和通用问答的基准上进行。

    • TextVQA [36]: 文本视觉问答数据集,专注于从图像中读取和理解文本信息以回答问题。
    • DocVQA [32]: 文档视觉问答数据集,要求模型从文档图像(如表格、发票)中提取信息并回答相关问题。
    • OCRBench [31]: OCR 基准,评估模型在各种场景下识别和理解图像中文字的能力。
    • MME [18]: 一个综合性基准,评估模型在14个任务上的感知和认知能力,涵盖更广泛的多模态推理场景。
  • 校准数据集 (Calibration Dataset): 用于 PTQ 的校准数据集由从相应基准训练集(如 TextVQA [36]、DocVQA [32]、OCRBench [31])中随机选择的 256 个样本组成。选择这个大小的样本子集是为了获取激活值的统计信息,确保校准数据能够反映每个数据集中的分布。

5.2. 评估指标

论文中使用的评估指标主要围绕模型的准确性、推理速度内存效率。以下是针对每个指标的说明:

5.2.1. 准确性 (Accuracy)

在 VQA (视觉问答)、OCR (光学字符识别) 和 MME (多模态评估) 任务中,准确性是衡量模型性能的核心指标。尽管论文没有给出具体的数学公式,但根据任务类型,通常采用以下标准定义:

  • 概念定义: 准确性衡量模型正确预测或回答的样本比例。在 VQA 任务中,通常是指模型给出的答案与真实标注答案相匹配的程度;在 OCR 任务中,是指模型识别出的文本与真实文本的匹配度;在 MME 这样的综合性基准中,通常会有一个聚合得分来反映在多个子任务上的综合表现。
  • 数学公式: 对于分类任务或精确匹配类的 VQA 任务,准确率 (Accuracy) 定义为: Accuracy=Number of Correct PredictionsTotal Number of Predictions \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  • 符号解释:
    • Number of Correct Predictions\text{Number of Correct Predictions}:模型正确预测的样本数量。

    • Total Number of Predictions\text{Total Number of Predictions}:总的预测样本数量。

      对于 VQA 任务,有时也会使用 Average Top-1 AccuracyF1 Score,具体取决于数据集的评估标准。OCRBench 可能会使用 Word AccuracyCharacter Accuracy。MME 作为一个综合基准,其得分通常是所有子任务分数的加权平均或特定计算方式。本文的评估结果中,T.VQA、D.VQA、OCRB. 和 MME 的值直接表示了相应数据集上的性能得分,通常是越高越好。

5.2.2. 推理延迟 (Inference Latency)

  • 概念定义: 推理延迟是指模型处理一个或一批输入并生成输出所需的时间。在 LLMs/MLLMs 中,通常关注预填写 (prefill) 阶段(处理输入序列并生成第一个词元的时间)和解码 (decode) 阶段(生成后续词元的时间)。较低的延迟表示更高的推理速度。
  • 数学公式: 通常以毫秒 (ms) 或秒 (s) 为单位直接测量。 Latency (时间)\text{Latency (时间)}
  • 符号解释:
    • 时间:模型完成一次推理所需的时间量。

5.2.3. 加速比 (Speedup)

  • 概念定义: 加速比衡量经过优化(如量化)后的方法相对于基线方法在推理速度上的提升倍数或百分比。
  • 数学公式: \text{Speedup} = \frac{\text{Latency}_{\text{Baseline}}}{\text{Latency}_{\text{Optimized}}} \quad \text{或} \quad \text{Speedup (%)} = \left( \frac{\text{Latency}_{\text{Baseline}} - \text{Latency}_{\text{Optimized}}}{\text{Latency}_{\text{Optimized}}} \right) \times 100\% 在论文表格中,通常以百分比表示改进。
  • 符号解释:
    • LatencyBaseline\text{Latency}_{\text{Baseline}}:基线方法的推理延迟。
    • LatencyOptimized\text{Latency}_{\text{Optimized}}:优化后方法的推理延迟。

5.2.4. 内存效率 (Memory Efficiency)

  • 概念定义: 内存效率衡量模型在推理过程中所需的内存量。较低的内存占用表示更高的内存效率,这对于资源受限的设备至关重要。
  • 数学公式: 通常以千兆字节 (GB) 为单位直接测量。 Memory (内存占用)\text{Memory (内存占用)}
  • 符号解释:
    • 内存占用:模型在内存中加载和运行时所需的空间量。

5.3. 对比基线

论文将 MQuant 的方法与以下基线模型和量化方案进行了比较:

  • BF16 (Brain Floating Point 16): 浮点16位精度,作为全精度 (full precision) 的基线模型,代表了未量化或高精度模型的性能上限。

  • RTN (Round-to-Nearest): 最简单的训练后量化方法之一,直接将浮点值四舍五入到最近的低精度整数值。通常作为朴素量化的基线。

  • sQ (Static Quantization): 静态量化,这里可能指朴素的每张量 (per-tensor) 静态量化,即不区分模态,为整个张量计算一个固定的缩放因子。

  • Quarot [5]: 一种先进的 LLM 训练后量化方法,结合了哈达玛变换来处理异常值。论文特别指出其在 MLLMs 上的局限性,并将其作为重要的对比对象。

  • AWQ (Activation-aware Weight Quantization) [29]: 一种只量化权重 (weight-only) 的方法,旨在通过感知激活值来优化权重量化,通常用于 4 比特权重。在论文中,AWQ (W4-only) 被用来与 MQuant 进行权重层面的比较,特别是在 W4A8 和只量化权重 LLM 的场景下。

  • Per-token dynamic quantization (逐词元动态量化): 论文指出这是现有 MLLMs 中常用的激活量化方式,尽管未在表格中直接列出,但在延迟分析中作为主要对比对象,以展示 MQuantMSQ+AIFSMSQ+AIFS 的速度优势。

    这些基线具有代表性,因为它们涵盖了从朴素量化到先进的 LLM 量化技术,以及 MLLM 中常用的动态量化范式,从而全面评估了 MQuant 在不同量化策略下的性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体结果:MQuant 在多模态推理任务上的表现

以下是原文 Table 3 的结果:

MLLMs Method Bits Setting is Viual LLM | T.VQA↑ D.VQA↑ OCRB.↑ MME↑
InternVL2 -8B - RTN BF16 BF16 77.65 90.97 794 2209
52.02 59.04 542 1528
sQ W8A8 59.88 59.75 544 1540
Quarot W4A8 73.34 84.07 715 2067
MQuant 77.49 90.27 785 2156
RTN 40.06 31.58 302 1482
sQ W4A8 W4A8 46.48 31.21 310 1540
Qurot 49.10 33.62 361 1941
Qwen-VL Chat-9.6B MQuant - 76.62 88.42 725 2155
RTN BF16 BF16 61.40 60.36 493 1834
0.45 0.03 189 625
sQ W8A8 W4A8 7.45 7.70 160 797
Quarot 45.32 42.44 286 940
MQuant 61.16 59.31 483 1691
RTN 1.02 0.02 193 585
sQ 8.59 4.28 188 921
Quarot W4A8 W4A8 46.77 37.35 289 1091
MiniCPM-V 2.6-8B MQuant 60.50 58.72 473 1713
- RTN BF16 BF16 79.10 89.18 847 2248
sQ 61.00 65.16 332 1300
Quarot W8A8 W4A8 62.40 65.76 424 1510
MQunt 73.71 80.04 736 1850
80.41 89.15 844 2244
RTN 60.70 62.23 351 1404
SQ W4A8 W4A8 65.67 60.02 455 1491
Quarot 68.96 79.63 685 1734
MQuant 81.14 89.75 839 2189
GLM-4V -9B - BF16 BF16 82.82 81.16 782 2153
RTN 7.05 3.70 0.00 140
sQ W8A8 W4A8 9.05 4.10 0.00 148
Quarot 82.00 80.17 782 2115
MQuant 82.06 80.53 782 2164
RTN 7.61 3.60 0.00 163
SQ 9.85 4.40 0.00 188
Quarot MQuant W4A8 W4A8 64.16 45.52 516 2048
- 81.58 79.67 754 2120
RTN BF16 BF16 84.43 93.87 842 2319
sQ 33.92 52.61 442 1298
Qwen2-VL -7B 53.97 444 1500
Quarot W8A8 W4A8 49.11 79.36 89.57 754 2045
MQuant 84.43 93.61 830 2269
RTN 40.20 38.82 422 1082
SQ W4A8 W4A8 46.25 52.36 411 1535
Quarot 71.44 83.96 670 1911
MQuant 84.32 93.58 824 2255
Qwen2-VL -72B - BF16 BF16 85.48 95.95 883 2479
RTN 37.21 40.94 426 1444
sQ Quarot W8A8 W4A8 50.33 55.41 480 1601
2299
MQuant 80.03 91.21 781 2469
85.48 95.90 880
RTN 28.21 25.94 426 1137
sQ W4A8 W4A8 47.11 54.95 413 1586
Quarot 71.86 86.11 701 2264
MQuant 85.03 95.49 868 2471

表3: 不同 MLLMs 在各种多模态推理数据集上的综合量化结果。

分析: 表3展示了 MQuant 在五个主流 MLLMs (InternVL2-8B, Qwen-VL-Chat-9.6B, MiniCPM-V 2.6-8B, GLM-4V-9B, Qwen2-VL-7B, Qwen2-VL-72B) 上,针对四种多模态推理任务 (TextVQA, DocVQA, OCRBench, MME) 的量化性能。主要观察结果如下:

  1. W8A8 设置下的卓越性能: 在 W8A8 (权重8比特,激活8比特) 量化设置下,MQuant 在所有模型和数据集上实现了接近全浮点 (BF16) 模型的精度,性能下降小于1%。这表明 MQuant 能够有效地在相对保守的量化级别下保持 MLLMs 的高精度。例如,对于 InternVL2-8B,MQuant 的 TextVQA 77.49 相比 BF16 的 77.65 仅有微小下降。而其他基线方法(如 RTN, sQ, Quarot)在 W8A8 下通常表现出明显的精度损失。
  2. W4A8 设置下的强大鲁棒性: 在更具挑战性的 W4A8 (权重4比特,激活8比特) 设置下,MQuant 仍然能够维持与全浮点模型相当的性能。例如,对于 Qwen2-VL-7B,MQuant 在 W4A8 下的 TextVQA 84.32 相比 BF16 的 84.43 几乎没有损失。相比之下,其他先进的量化方法 (如 Quarot) 在此设置下表现出显著的性能下降。这凸显了 MQuant 在极端低比特量化下保持高精度的能力。
  3. 显著优于现有 PTQ 基线: 无论是 W8A8 还是 W4A8,MQuant 均显著优于 RTN、sQ 和 Quarot 等代表性量化方法。RTN 和 sQ 通常会带来非常大的性能损失,尤其是在 W4A8 下。Quarot 作为一种为 LLMs 设计的先进方法,在 MLLMs 上也未能保持其在 LLMs 上的优势,性能下降明显,这验证了论文提出的 MLLMs 独特挑战的存在。
  4. 广泛的兼容性和实用价值: 结果表明 MQuant 适用于不同规模 (从 8B 到 72B) 和架构的 MLLMs,显示出其通用性和强大的兼容性,使其成为在资源受限设备上部署 MLLMs 的有效解决方案。

6.1.2. 消融研究:各组件贡献分析

以下是原文 Table 4 的结果:

Methods Static AIFS + MSQ RMS T.VQA↑ D.VQA↑ OCRB.↑ MME↑ Lat (ms) ↓
BF16 84.43 93.87 842 2319 6523
X 71.44 83.96 670 1911 5479
X X 78.95 87.55 721 2095 5484
84.32 93.58 824 2255 5471

表4: 在 Qwen2-VL-7B [44] 模型上,使用 W4A8 设置对提出的设计进行消融研究。

分析: 表4展示了在 Qwen2-VL-7B 模型上,对 MQuant 各个设计组件(MSQ、AIFS、RMS)的贡献进行的消融研究,使用 W4A8 量化设置。

  1. 基线 (GPTQ+Hadamard with per-tensor static quantization): 当只采用每张量静态量化 (Static 标记为 ,但未启用 AIFS+MSQAIFS+MSQRMS) 时,即 GPTQ 结合哈达玛变换,Qwen2-VL-7B 的性能从 BF16 的 84.43 (T.VQA) 显著下降到 71.44。这表明在 MLLMs 上直接应用 LLM 的量化方案会带来较大的精度损失,尽管延迟有所降低 (从 6523ms 降至 5479ms)。

  2. 引入 MSQ 和 AIFS (AIFS + MSQ 标记为 ): 在基线的基础上,引入 Modality-Specific Static Quantization (MSQ)Attention-Invariant Flexible Switching (AIFS),性能得到了显著提升。T.VQA 从 71.44 提升到 78.95,D.VQA 从 83.96 提升到 87.55,OCRB. 从 670 提升到 721,MME 从 1911 提升到 2095。同时,推理延迟依然保持在较低水平 (5484ms)。这充分证明了 MSQAIFS 在处理多模态输入词元、解决模态分布差异和优化推理效率方面的关键作用。

  3. 引入 RMS (RMS 标记为 ): 在引入 MSQ+AIFSMSQ+AIFS 的基础上,进一步引入 Rotation Magnitude Suppression (RMS) 来抑制在线哈达玛变换产生的权重异常值。模型的性能进一步逼近全浮点精度。T.VQA 达到 84.32 (接近 BF16 的 84.43),D.VQA 达到 93.58 (接近 BF16 的 93.87),OCRB. 达到 824 (接近 BF16 的 842),MME 达到 2255 (接近 BF16 的 2319)。延迟也进一步优化到 5471ms。这表明 RMS 对于解决哈达玛变换引入的异常值问题至关重要,是实现接近无损量化的关键一步。

    结论: 消融实验清晰地揭示了 MQuant 中每个组件的贡献。基线量化效果不佳;MSQ+AIFSMSQ+AIFS 显著提升了多模态输入的量化精度和效率;RMS 则通过处理权重异常值,使模型性能达到几乎无损的水平。这验证了 MQuant 整体设计的有效性和鲁棒性。

6.1.3. 校准数据集大小的选择

以下是原文 Table 5 的结果:

Calib size T.VQA↑ D.VQA↑ OCRB.↑ MME↑
128 84.28 93.50 820 2243
256 84.32 93.58 824 2255
512 84.32 93.57 823 2254

表5: 关于校准数据集大小的消融研究。

分析: 表5展示了在 Qwen2-VL-7B (W4A8) 上,MQuant 对校准数据集大小的敏感性。实验测试了 128、256 和 512 个样本的校准数据集。结果显示,在不同大小的校准集下,MQuant 的性能表现非常一致,例如 T.VQA 分数分别为 84.28、84.32、84.32,D.VQA 分数分别为 93.50、93.58、93.57。这表明 MQuant 对校准数据集的大小不敏感,具有很强的鲁棒性。这种鲁棒性增强了 MQuant 的实际适用性,因为在实际部署中,获取大量校准数据可能是一个挑战。因此,论文选择了 256 个随机样本作为校准集。

6.1.4. AIFS 与 FlashAttention 的集成

以下是原文 Table 6 的结果:

Tokens Number 100 900 2500 4900 8100
FlashAttn (ms) 27.3 33.6 35.5 165.9 271.6
AIFS+FlashAttn (ms) 27.3 34.1 36.4 167.5 272.1

表6: AIFS 与 FlashAttention 结合从 100 到 8100 词元 (Q/K/VQ/K/V 形状为 (1, 28, num-tokens, 128)) 的延迟。

分析: 表6比较了标准 FlashAttention 和集成 AIFS 后的 FlashAttention 在不同词元数量下的延迟。结果显示,两者的延迟数据几乎相同,在所有测试的词元长度下,延迟开销微乎其微 (最大仅 1.6ms,或小于 0.3%)。这表明 AIFS 可以与 FlashAttention 无缝集成,且几乎不引入额外的性能开销。 这种无缝集成得益于 AIFS 的两个关键设计选择:

  1. 预处理阶段操作: AIFS 的词元重新排序仅在预处理阶段进行,不干扰核心注意力计算。
  2. 元数据传播: AIFS 通过传播视觉词元的索引(m/n)作为元数据,保留了 FlashAttention 原生的内存访问模式。 值得注意的是,在 4,900 词元时,延迟仅增加 0.96%,显示出强大的高分辨率输入可伸缩性。这突显了 AIFS 设计的硬件兼容性优势:CUDA 对齐的词元布局使得与 FlashAttention 内核的二进制兼容成为可能,这对于高分辨率多模态输入的实时处理尤其有效。

6.1.5. 旋转幅度抑制 (RMS) 抑制权重异常值的效果

以下是原文 Figure 5 的示意图,展示了 RMS 对权重分布的影响:

Figure 5: Illustration the weight distributions for the downproj layer (block 21) in Qwen2VL-7B's visual encoder under three conditions: (a) original weight, (b) weights after FHT, and (c) weight aft… 该图像是图表,展示了Qwen2VL-7B视觉编码器中downproj层(block 21)权重的分布,分别为(a)原始权重,(b)应用快速哈达玛变换(FHT)后的权重(无RMS),(c)应用FHT并结合旋转幅度抑制(RMS)后的权重。

图5: Qwen2VL-7B 视觉编码器中 downproj 层(block 21)的权重分布图:(a) 原始权重,(b) FHT 后的权重,(c) FHT 并结合我们的 RMS 后的权重。

分析: 图5直观地展示了 RMS 在抑制 FHT 引起的权重异常值方面的有效性。

  • 图5(a) 原始权重: 权重分布相对集中。

  • 图5(b) FHT 后的权重 (w/o RMS): 经过快速哈达玛变换 (FHT) 后,权重的幅度显著增加,出现了明显的异常值。这验证了论文的理论分析,即在线 FHT 会引入通道均值异常值,导致量化难度增加。

  • 图5(c) FHT 并结合 RMS 后的权重 (w/ RMS): 在 FHT 之后应用 RMS,权重的幅度被有效降低了 1.0 到 0.1 倍,异常值得到了显著抑制。权重分布变得更加集中和稳定,这极大地改善了量化稳定性。

    结论: 视觉化结果与消融研究(表4)的结果一致,都表明 RMS 对提高 MLLMs 的量化性能至关重要。通过有针对性地处理 FHT 产生的异常值,RMS 确保了量化过程的稳定性和精度。

6.1.6. MSQ+AIFS 的精度与加速比

以下是原文 Table 7 的结果:

Activation Weight T.VQA↑ D.VQA↑ OCRB.↑ MME↑ Latency ↓ (s) Speedup ↑
BF16 BF16 84.43 93.87 842 2319 1.690 -
BF16 W4-g128(AWQ) 83.93 (-0.50) 93.13 (-0.74) 828 (-14) 2252 (-67) 2.057 (+0.367) -17.8%
A8-per-token dyn 84.32 (-0.11) 93.61 (-0.26) 830 (-12) 2269 (-50) 1.253 (-0.437) +34.9%
A8-per-tensor sta W4-per-channel sta 40.20 (-44.12) 38.82 (-54.79) 422 (-408) 1082 (-1187) 1.016 (-0.674) +66.3%
A8-MSQ W4-per-channel sta 84.32 (-0.11) 93.61 (-0.26) 830 (-12) 2269 (-50) 1.085 (-0.605) +55.8%
A8-MSQ+AIFS W4-per-channel sta 84.32 (-0.11) 93.61 (-0.26) 830 (-12) 2269 (-50) 1.017 (-0.673) +66.2%

表7: Qwen2-VL-7B 的 MSQ+AIFS 加速比。↓表示值越低越好,↑表示值越高越好。

分析: 表7在 Qwen2-VL-7B (W4A8) 上详细比较了不同激活量化方案的精度和速度。

  1. AWQ 的局限性: 尽管 AWQ 是一种先进的权重优化方法,但当激活值保持 BF16 时,其延迟甚至高于全浮点 BF16 (2.057s vs 1.690s),且精度略有下降。这表明仅进行权重优化不足以全面提升 MLLMs 的推理效率。

  2. 每词元动态量化 (A8-per-token dyn): 相比 BF16,逐词元动态量化在保持较高精度的同时 (T.VQA 84.32 vs 84.43),显著降低了延迟 (1.253s),实现了 34.9% 的加速比。这证明了激活量化对 MLLMs 速度的重要性,但这种方法仍存在计算开销。

  3. 朴素每张量静态量化 (A8-per-tensor sta): 如果直接采用朴素的每张量静态量化,精度会急剧下降 (T.VQA 仅 40.20),尽管延迟非常低 (1.016s,加速比 66.3%)。这再次强调了 MLLMs 中模态差异带来的挑战。

  4. A8-MSQ 的优势: 引入 Modality-Specific Static Quantization (MSQ) 后,即使是每张量静态量化,也能保持几乎与 BF16 相当的精度 (T.VQA 84.32),并且延迟低于逐词元动态量化 (1.085s vs 1.253s),加速比达到 55.8%。这验证了 MSQ 在解决模态分布差异方面的有效性。

  5. MSQ+AIFS 的最佳表现:MSQAttention-Invariant Flexible Switching (AIFS) 结合时 (A8-MSQ+AIFS),模型不仅保持了与 BF16 几乎相同的精度 (T.VQA 84.32),而且实现了最高的加速比 (66.2%,延迟 1.017s),甚至略优于朴素的每张量静态量化 (A8-per-tensor sta) 的延迟。这表明 AIFS 能够进一步优化词元处理流程,使其与 MSQ 协同工作,实现卓越的效率和精度。

    以下是原文 Figure 6 的示意图,展示了 AIFS+MSQ 的加速比:

    该图像是一幅折线图,展示了在Qwen-VL-7B模型中,MSQ+MIFS方法在不同图像分辨率下相较于bf16和w4a8 per-token dynamic量化方案的加速比,横轴为图像分辨率,纵轴为加速比例(%)。 该图像是一幅折线图,展示了在Qwen-VL-7B模型中,MSQ+MIFS方法在不同图像分辨率下相较于bf16和w4a8 per-token dynamic量化方案的加速比,横轴为图像分辨率,纵轴为加速比例(%)。

图6: Qwen2-VL-7B 中 AIFS+MSQ 的加速比。

图6进一步阐明了 AIFS+MSQAIFS+MSQ 在 Qwen2-VL-7B 上的加速比。随着图像分辨率的增加(从低分辨率到高分辨率),AIFS+MSQAIFS+MSQ 相较于 BF16 和逐词元动态量化,展现出 20% 到 80% 的显著加速。这印证了通过重排词元来避免动态逐词元量化的高开销,在高分辨率输入下带来的巨大性能收益。

6.1.7. 推理速度和内存节省

以下是原文 Table 8 的结果:

Image size Latency (s) Memory (G)
H×W Pytorch AWQ↓ peedup MQuant↓ Speedup↑ Pytorch AWQ↓ Improve↑ MQuant↓ Improve↑
840² 0.261 0.304 (+0.043) 14.14% 0.210 (-0.051) +24.76% 16.45 7.45 (-9.00) +120.67% 6.50 (-9.95) +152.92%
1960² 1.369 1.598 (+0.229) -14.26% 1.112 (-0.257) +16.63% 17.82 8.82 (-9.00) +100.00% 7.85 (-9.97) +119.93%
3080² 5.208 5.872 (+0.664) -11.27% 4.488 (-0.720) +16.02% 20.58 11.58 (-9.00) +77.60% 10.61 (-9.97) +96.45%
5600² 8.380 9.393 (+1.013) -10.78% 7.469 (-0.911) +12.19% 22.22 13.22 (-9.00) +57.54% 12.25 (-9.97) +61.65%

表8: 不同分辨率下的推理速度和内存效率 (基于 Qwen2-VL-7B)。

分析: 表8详细比较了 MQuant (W4A8) 与 PyTorch (BF16) 和 AWQ (W4-only) 在不同图像分辨率下的推理速度和内存占用。

  1. 整体加速比:

    • MQuant 在所有图像分辨率下均超越 BF16 和 AWQ,展现出显著的推理速度提升。
    • 840×840840 \times 840 分辨率下,MQuant 相较于 PyTorch 实现了高达 +24.76% 的加速比 (0.210s vs 0.261s)。
    • 即使在更高的分辨率 (如 560025600^2),MQuant 仍保持 +12.19% 的延迟改进,验证了其在高分辨率输入下的可扩展性。
    • AWQ (W4-only) 由于只量化权重而激活保持高精度,在某些情况下甚至比 BF16 慢 (-14.14% 到 -10.78%),这再次说明仅进行权重量化不足以全面提升 MLLMs 效率。
  2. 内存效率:

    • MQuant 提供了显著的内存节省,在 8402840^2 分辨率下,内存占用相比 PyTorch 减少了 152.92% (6.50G vs 16.45G)。
    • 这种内存优势在所有分辨率下都保持,虽然随着分辨率增加,绝对节省量减少,但相对节省仍然显著 (例如 560025600^2 时为 +61.65%)。
    • 内存节省主要归因于 MQuant 的两大特性:(1) 消除了逐词元缩放计算的开销;(2) 将混合词元转换为模态解耦的词元,避免了在大图像分辨率下的切片和拼接操作。
  3. 解码加速: 以下是原文 Table 10 的结果:

    Stage BF16 Per-token Dyn. Ours Ours + GEMV Speedup
    Prefill 1690 1253 1017 - +23%
    Decode 17.5 16.4 13.06 8.2 +100%

    表10: MSQ + AIFS 在 W4A8 设置下的加速比。

    表10量化了生成 2,000 个词元时的预填写 (prefill) 和解码 (decode) 阶段的时间。

    • 与逐词元动态量化相比,MQuantAIFS+MSQAIFS+MSQ 框架在预填写阶段获得了 +23% 的加速比 (1017ms vs 1253ms)。
    • 在解码阶段,MQuant 实现了惊人的 +100% 加速比 (8.2ms vs 16.4ms,这里 Ours + GEMV Speedup 可能是指结合 RMS 的最终性能)。
    • 这种从在线的逐词元动态量化转向离线的每张量静态量化,大大降低了推理开销,尤其适用于长序列任务。由于视觉词元通常比文本词元更昂贵,这些改进转化为显著的实际成本降低。

6.1.8. 多批次和多轮推理的加速

以下是原文 Table 9 的结果:

Batch Config (Text+Image+Text) Prefill (s) Improve↑ Decode (s) Improve↑ All (s) Improve↑
Text Image Text bfp16 MQuant bfp16 MQuant bfp16 MQuant
1 10 2240×2240 50 2.54 1.93 +31.6% 18.01 12.89 +39.7% 20.55 14.82 +38.7%
2 10/10 2240×2240 / 2240×2240 50/100 5.42 4.15 +30.6% 37.82 31.56 +19.8% 43.24 35.71 +21.1%
3 10/10/10 2240×2240 / 2240×2240 / 2240×2240 50/100/150 8.24 6.42 +28.3% 48.03 40.35 +19.0% 56.27 46.77 +20.3%
4 10/10/10/10 2240×2240 / 2240×2240 / 2240×2240 / 2240×2240 50/100/150/200 11.17 8.67 +28.9% 59.09 49.92 +8.4% 70.26 58.59 +20.0%

表9: MSQ + AIFS 在 W4A8 设置下的多批次加速比比较。每行显示多轮推理的文本词元、图像和文本响应的累积总数。

分析: 表9展示了 MQuant (W4A8) 在多批次 (multi-batch) 场景下的加速比,输入配置为 "text-image-text"。

  • 一致的加速比: 在批次大小从 1 到 4 的情况下,MQuant 持续提供显著的加速。预填写阶段加速比在 +28.3% 到 +31.6% 之间,解码阶段加速比在 +8.4% 到 +39.7% 之间,总体加速比在 +20.0% 到 +38.7% 之间。

  • 多批次兼容性: AIFS 保持完全的多批次兼容性,没有引入额外开销,确保了在不同批次大小下与全浮点基线相比持续 +20% 的加速。 以下是原文 Table 11 的结果:

    Turns Config in one Turn All(s) Improve ↑
    Text Image Text bfp16 Ours
    1 10 2240x2240 50 20.55 14.82 +38.7%
    2 10 2240x2240 50 44.06 32.61 +35.1%
    3 10 2240x2240 50 76.67 59.48 +28.9%

表11: 多轮设置下的延迟比较。

表11展示了 MQuant 在多轮对话 (multi-turn dialogue) 设置下的延迟比较。

  • 多轮加速: 在 1 到 3 轮对话中,MQuant 相比 BF16 实现了显著的端到端推理加速,从 1 轮的 +38.7% 降低到 3 轮的 +28.9%

  • 优化机制: 这种加速得益于 MQuant 优化的键值 (Key-Value, KV) 缓存和跨轮次的位置 ID 处理。

    结论: MQuant 在多批次和多轮推理场景下均表现出强大的效率提升,使其在实际应用中具有更广泛的实用性。

6.1.9. 仅量化权重 (Weight-only Quantization)

以下是原文 Table 12 的结果:

Method Bits Setting D.VQA ↑ OCRB.↑MME↑
Visual LLM T.VQA ↑
- BF16 BF16 84.43 93.87 842 2319
GPTQ (g128)* BF16 W8 84.33 93.97 842 2313
GPTQ (g128) BF16 W4 84.18 93.25 831 2285
AWQ ((g128) BF16 W4 83.93 93.13 828 2252
MQuant (g128) BF16 W4 84.55 93.18 832 2304
MQuant (g128) W4 W4 84.70 93.57 828 2292
MQuant W4A8 W4A8 84.32 93.58 824 2255

表12: Qwen2-VL-7B [44] 在仅量化权重设置下的比较。†表示基于官方仅量化权重设置(组大小为128)重新实现。

分析: 表12比较了 MQuant 在仅量化权重 (weight-only) 场景下的性能,以 Qwen2-VL-7B 为例,此时视觉编码器保持 BF16 精度,只量化 LLM 部分。

  1. W8 权重量化: 当 LLM 权重被量化为 W8 时,GPTQ (g128) 实现了与 BF16 基线几乎无损的精度 (T.VQA 84.33 vs 84.43)。

  2. W4 权重量化: 在更激进的 W4 权重量化下,MQuant (g128) 表现出优异的性能。其 T.VQA 达到 84.55,甚至略高于 BF16 基线 (84.43),而 GPTQ (84.18) 和 AWQ (83.93) 则有轻微下降。这表明 MQuant 在权重量化方面也具有竞争力,甚至可能通过其优化机制带来微小提升。

  3. 全模型 W4 权重量化:MQuant 的视觉编码器和 LLM 都量化为 W4 权重时 (MQuant (g128) 视觉 W4, LLM W4),T.VQA 达到 84.70,依然保持了高精度。

  4. 全模型 W4A8 量化: 作为对比,表格底部也列出了 MQuant (W4A8 W4A8) 的结果,T.VQA 84.32,这与仅量化权重 W4 的结果具有可比性。

    结论: 这些实验验证了 MQuant 在以下方面的有效性:(1) 权重-仅量化与权重-激活量化方案的有效性;(2) 部分模型量化与全模型量化场景的有效性。它在仅量化权重时也能保持接近无损的精度,显示出其核心机制对于权重量化的普适性。

6.2. 数据呈现 (表格)

所有实验结果表格已在 6.1. 核心结果分析 小节中转录并分析。

6.3. 消融实验/参数分析

  • 消融实验 (Table 4): 详细分析了 MSQ+AIFSMSQ+AIFSRMS 这两个核心组件对 MQuant 性能的贡献。

    • 基线量化 (GPTQ+Hadamard): 发现直接应用 LLM 量化方案到 MLLM 导致显著精度下降,但延迟有所降低。
    • MSQ+AIFS 的贡献: 引入 MSQ+AIFSMSQ+AIFS 后,精度得到大幅提升,表明其有效解决了模态分布差异和高效词元处理问题。
    • RMS 的贡献: RMS 在此基础上进一步将模型精度提升至接近全浮点水平,验证了其在抑制在线哈达玛变换引起的权重异常值方面的关键作用。
  • 校准数据集大小分析 (Table 5): 论文通过在 Qwen2-VL-7B 上测试不同大小的校准数据集 (128, 256, 512 样本),证明 MQuant 对校准集大小不敏感,显示了其在实际应用中的鲁棒性。这减少了部署时对大规模校准数据采集的依赖。

    这些消融实验和参数分析有力地支持了 MQuant 各个设计组件的必要性和有效性,证明了其优越性能并非偶然,而是由精心设计的模块共同实现。

7. 总结与思考

7.1. 结论总结

本文提出了 MQuant,一个专为多模态大型语言模型 (MLLMs) 设计的准确且高效的训练后量化 (PTQ) 框架。该框架有效解决了 MLLMs 在量化过程中面临的三个核心挑战:模态间激活分布的巨大差异、大量视觉词元导致的高推理延迟,以及在线哈达玛变换引入的权重异常值。

MQuant 的主要创新包括:

  1. 模态特定静态量化 (MSQ): 通过为视觉和文本词元分配独立的静态缩放因子,精确匹配各自的激活分布,避免了传统全局缩放的精度损失。

  2. 注意力不变灵活切换 (AIFS): 重新排序词元序列(视觉词元在前,文本词元在后),并相应调整因果注意力掩码,从而实现高效的每张量静态量化,显著降低了“首词元时间 (TTFT)”,同时保持了模型的原始逻辑。

  3. 旋转幅度抑制 (RMS): 理论分析并发现在线哈达玛变换在 MLLMs 中引入的“通道均值异常值”,并提出了针对性的 RMS 方案来有效缓解这些权重异常值,从而增强了量化稳定性。

    在 InternVL2-8B、Qwen-VL-Chat-9.6B、MiniCPM-V 2.6-8B、GLM-4V-9B 和 Qwen2-VL-7B 等五个主流 MLLMs 上的广泛实验表明,在 W4A8 (权重4比特、激活8比特) 设置下,MQuant 实现了接近浮点精度(小于1%的性能下降),同时在预填写阶段加速23%,在解码阶段加速100%。它显著优于现有 PTQ 基线,并展现出高达 24.76% 的整体推理加速和超过 100% 的内存效率提升。这些结果证明 MQuant 有效弥合了在资源受限设备上高效且准确推理 MLLMs 的鸿沟,具有重要的实用价值。

7.2. 局限性与未来工作

论文没有在专门的章节中明确指出局限性或未来工作,但我们可以从其内容和当前研究趋势中推断:

  • 局限性:
    • 仅限于 PTQ: MQuant 作为一个训练后量化框架,虽然方便部署,但其性能上限可能仍受限于 PTQ 的特性。相比之下,量化感知训练 (Quantization-Aware Training, QAT) 通常能达到更高的精度,但需要额外的训练成本。
    • 特定 MLLM 架构的通用性: 尽管在多个主流 MLLMs 上进行了验证,但 MLLMs 领域发展迅速,新的架构和模态集成方式层出不穷。MQuant 的组件(特别是 RMS 针对哈达玛变换的异常值)是否能同样有效地应用于所有新兴 MLLMs 架构,可能需要进一步验证。
    • 更低比特量化 (如 W4A4 或 W2A2): 论文主要关注 W4A8 配置。尽管 W4A8 已经取得了巨大成功,但在资源极端受限的场景下,可能会需要更低比特的量化。MQuant 在更低比特(例如,权重和激活都为 4 比特或更低)下的性能和稳定性仍待探索。
    • 能量效率的量化分析: 论文主要关注推理延迟和内存效率。虽然这些指标与能量消耗密切相关,但缺少直接的能量效率测量和优化策略。
  • 未来工作:
    • 探索 QAT 方案: 结合量化感知训练,进一步提高 MLLMs 在低比特量化下的精度。
    • 更广泛的 MLLM 架构支持: 扩展 MQuant 到更多样化的 MLLM 架构,包括那些采用不同视觉编码器、投影器或注意力机制的模型。
    • 极端低比特量化: 研究 MQuant 在 W4A4 或 W2A2 等更低比特设置下的性能,并可能需要新的技术来克服更严重的量化挑战。
    • 动态量化与静态量化的混合: 探索一种混合策略,在保持大部分计算静态化的同时,对极少数对精度敏感的层或词元采用动态量化,以寻求精度与效率的更优平衡。
    • 泛化到其他模态: MLLMs 正在扩展到音频、视频等更多模态。MQuant 的核心思想是否可以扩展到这些新的多模态场景,解决其特定的量化挑战。
    • 硬件部署优化: 与特定的硬件加速器紧密结合,设计定制化的量化核和指令集,以最大限度地发挥 MQuant 的性能优势。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了几个重要的启发:

  1. 模态感知设计的重要性: 仅仅将通用 LLM 量化方法应用于 MLLMs 是不够的。 MLLMs 的多模态特性带来了独特且复杂的挑战(如视觉和文本激活分布的巨大差异,以及视觉词元数量的爆炸式增长),这要求量化方案必须是“模态感知”的。MQuantMSQAIFS 正是这一理念的杰出体现,它们从根本上适应了 MLLMs 的异构数据特性。
  2. 细致的理论分析与实践结合: 论文对在线哈达玛变换如何引入异常值进行了深入的理论分析,并用实证数据(表2和图5)验证了其普遍性。这种从理论洞察到实际解决方案 RMS 的过程,是高质量研究的典范。它提醒我们,即使是看似成熟的技术(如哈达玛变换),在新的应用场景(MLLMs)中也可能暴露出未知的挑战。
  3. 工程与算法的协同优化: AIFS 作为一个算法创新,不仅仅是为了提高精度,更关键的是为了优化底层硬件的计算效率和内存访问模式(与 FlashAttention 的无缝集成)。这表明在追求模型效率时,需要算法层面(如重排词元、调整注意力掩码)和工程层面(如硬件友好性、减少内存碎片)的协同设计。
  4. 静态量化潜力巨大: 尽管动态量化在理论上能更好地适应数据分布,但其运行时开销往往是实际部署的瓶颈。MQuant 证明,通过巧妙地设计(如模态特定静态缩放和词元重排),静态量化也能在保持高精度的同时,实现巨大的推理加速和内存节省。这为资源受限设备上的部署提供了更具吸引力的选择。

7.3.2. 批判

  1. “接近无损”的定义与基线: 论文多次提及“接近浮点精度 (<1% degradation)”,但具体指的是相对于 BF16 基线而言,性能下降小于 1% 吗?这个 1% 的阈值似乎是为 MQuant 设定的。在表3中,一些基线方法的下降幅度远超 1%,所以这个“接近无损”的说法虽然被 MQuant 自身达到了,但作为衡量标准,可能需要更明确地阐述。例如,明确指出是 Top-1 Accuracy 的绝对下降值还是相对下降百分比。
  2. RMS 的通用性: RMS 专门针对哈达玛变换引入的通道均值异常值。如果未来 MLLMs 的量化方法不再使用哈达玛变换,或者出现其他类型的异常值,RMS 的有效性可能会受限。未来是否能提出更通用的异常值抑制策略是一个值得思考的方向。
  3. 计算开销的细节: 论文提到了 RMS 将 W4A8 GEMM 转换为 W4A8 GEMM + W4A8 GEMV,且开销很小(1/3584 或 1/18944)。虽然比例很小,但在实际硬件上,切换不同的计算核(GEMM 到 GEMV)本身可能带来一定的开销。这些微小的调度和切换成本是否在整体延迟测量中被完全捕获,或者是否存在进一步优化的空间,值得探究。
  4. 硬件支持和定制化: MQuant 的一些优势(如硬件友好的静态量化、与 FlashAttention 的无缝集成)依赖于底层的定制化实现和特定的硬件环境 (例如 RTX 6000 Ada Generation)。对于更广泛的边缘设备或不同厂商的芯片,其性能优势是否能完全复现,以及移植的复杂性如何,可能会是实际应用中的挑战。
  5. 训练后量化的限制: 尽管 PTQ 避免了训练成本,但在某些情况下,特别是在更极端低比特(如 W2A2)下,QAT 可能仍然是实现更高精度的唯一途径。MQuant 的成功可能会促使人们思考如何将这些模态感知的设计理念融入 QAT 框架中,以期达到更极致的效率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。