AiPaper
论文状态:已完成

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

发表:2025/10/22
原文链接PDF 下载
价格:0.10
价格:0.10
已有 9 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出了KORE方法,通过知识导向增强和约束,有效向大型多模态模型注入新知识并保留旧知识。KORE将知识结构化处理,精确适配模型,同时利用线性层激活协方差矩阵的零空间初始化适配器,缓解遗忘问题,提升知识持续获取能力。

摘要

Large Multimodal Models encode extensive factual knowledge in their pre-trained weights. However, its knowledge remains static and limited, unable to keep pace with real-world developments, which hinders continuous knowledge acquisition. Effective knowledge injection thus becomes critical, involving two goals: knowledge adaptation (injecting new knowledge) and knowledge retention (preserving old knowledge). Existing methods often struggle to learn new knowledge and suffer from catastrophic forgetting. To address this, we propose KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints for injecting new knowledge into large multimodal models while preserving old knowledge. Unlike general text or image data augmentation, KORE automatically converts individual knowledge items into structured and comprehensive knowledge to ensure that the model accurately learns new knowledge, enabling accurate adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix of LMM's linear layer activations and initializes the adapter by projecting the original weights into the matrix's null space, defining a fine-tuning direction that minimizes interference with previous knowledge, enabling powerful retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B, LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new knowledge injection performance and effectively mitigates catastrophic forgetting.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints (KORE:通过知识导向的增强与约束提升大型多模态模型的知识注入能力)

1.2. 作者

Kailin Jiang1, 2, Hongbo Jiang3, Ning Jiang4, Zhi Gao5,2, Jinhe Bi6, Yuchen Ren7, Bin Li1, Yuntao Du8, Lei Liu1, Qing Li2

    1. 中国科学技术大学 (University of Science and Technology of China)
    1. 智能工业巨系统北京人工智能通用实验室 (State Key Laboratory of General Artificial Intelligence, BIGAI)
    1. 厦门大学 (Xiamen University)
    1. 贝宁大学 (University of Benin) (原文疑有笔误,根据上下文判断可能为北京大学或清华大学等国内知名院校缩写,但原文如此,故忠实转录)
    1. 国际技术学院 (International Technology Institute)
    1. 慕尼黑大学 (Ludwig Maximilian University of Munich)
    1. 悉尼大学 (University of Sydney)
    1. 山东大学 (Shandong University)

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布,计划在 2025 年 10 月 22 日发布。

1.4. 发表年份

2025年

1.5. 摘要

大型多模态模型 (Large Multimodal Models, LMMs) 在其预训练权重中编码了大量的事实知识。然而,其知识是静态且有限的,无法跟上现实世界的发展,这阻碍了持续的知识获取。因此,有效的知识注入 (Knowledge Injection) 变得至关重要,它涉及两个目标:知识适应 (Knowledge Adaptation)(注入新知识)和知识保留 (Knowledge Retention)(保留旧知识)。现有方法通常难以学习新知识并遭受灾难性遗忘 (Catastrophic Forgetting)。为了解决这个问题,我们提出了 KORE,一种知识导向的增强与约束 (KnOwledge-oRientEd augmentations and constraints) 的协同方法,用于向大型多模态模型注入新知识,同时保留旧知识。与通用的文本或图像数据增强不同,KORE 自动将单个知识项转换为结构化且全面的知识,以确保模型准确学习新知识,从而实现精确适应。同时,KORE 将先前的知识存储在大型多模态模型 (LMM) 线性层激活的协方差矩阵 (covariance matrix) 中,并通过将原始权重投影到该矩阵的零空间 (null space) 来初始化适配器 (adapter),从而定义了一个最小化对先前知识干扰的微调 (fine-tuning) 方向,实现了强大的保留能力。在各种大型多模态模型 (LMMs)(包括 LLaVA-v1.5-7B、LLaVA-v1.5-13B 和 Qwen2.5-VL-7B)上进行的广泛实验表明,KORE 实现了卓越的新知识注入性能,并有效缓解了灾难性遗忘。

1.6. 原文链接

https://arxiv.org/abs/2510.19316 PDF 链接: https://arxiv.org/pdf/2510.19316v1.pdf

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (Large Language Models, LLMs) 和大型多模态模型 (Large Multimodal Models, LMMs) 凭借其在预训练权重中存储大量世界知识并进行推理的强大能力,在近年来取得了显著进展。然而,这些模型的核心局限在于其知识是静态的 (static),无法持续更新以反映现实世界的不断发展。这导致模型在面对新信息或快速变化的事件时,可能提供过时、不准确甚至不相关的响应。这种“知识滞后”现象严重阻碍了模型持续知识获取 (continuous knowledge acquisition) 的能力。

因此,有效的知识注入 (Knowledge Injection) 方法变得至关重要。知识注入的目标是双重的:

  1. 知识适应 (Knowledge Adaptation): 成功地将新知识有效地整合到模型中。

  2. 知识保留 (Knowledge Retention): 在注入新知识的同时,最大程度地防止模型遗忘其已有的、预训练获得的知识。

    现有方法在解决这一问题时面临诸多挑战:

  • 全量微调 (Full Fine-Tuning): 虽然能有效注入新知识,但计算和存储成本高昂,且容易导致灾难性遗忘 (catastrophic forgetting),即模型在新知识上表现良好,但在旧知识上性能急剧下降。

  • 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT): 例如 adaptersLoRA,旨在降低微调成本,但同样面临灾难性遗忘的风险,并且可能难以实现鲁棒的泛化 (robust generalization)。

  • 持续学习 (Continual Learning) 技术:rehearsalparameter regularization,旨在缓解灾难性遗忘,但它们常常难以在新知识获取和旧知识保留之间取得平衡。例如,一些正则化方法可能在保留旧知识的同时损害了模型对新数据的适应能力,导致无关响应或指令遗忘 (instruction forgetting)。

    这篇论文的切入点在于认识到现有方法在知识适应与知识保留之间的根本性权衡 (fundamental trade-off) 上表现不佳。作者希望提出一个协同的方法,能够优化这种权衡,既能实现准确的新知识适应,又能提供强大的旧知识保留。

2.2. 核心贡献/主要发现

本文提出了 KORE,一种协同的知识导向的增强 (KnOwledge-oRientEd augmentations)约束 (constraints) 方法,以有效解决大型多模态模型 (LMMs) 中新知识注入和旧知识保留的挑战。

其核心贡献和主要发现包括:

  1. 提出知识导向增强 (KORE-AUGMENTATION) 机制: KORE 自动将单个知识项转换为结构化且全面的知识。与传统的文本或图像数据增强不同,KORE-AUGMENTATION 通过生成多轮对话和指令任务数据,构建了一个深层次、结构化的“知识树”,从而确保模型能够准确学习、泛化和内化新知识,实现精确的知识适应。
  2. 提出知识导向约束 (KORE-CONSTRAINT) 机制: KORE 将先前的知识编码在大型多模态模型 (LMM) 线性层激活的协方差矩阵中。通过对该矩阵进行奇异值分解 (Singular Value Decomposition, SVD) 并提取其零空间,KORE 将原始权重投影到这个零空间来初始化适配器。这种方法定义了一个微调方向,最大限度地减少了对先前知识的干扰,从而实现了强大的知识保留。
  3. 协同优化知识适应与保留: KORE 方法的独特之处在于其协同设计,旨在同时优化知识适应和知识保留两个目标,有效平衡了两者之间的权衡。
  4. 广泛的实验验证: 在 LLaVA-v1.5 (7B)、LLaVA-v1.5 (13B) 和 Qwen2.5-VL (7B) 等多个代表性大型多模态模型 (LMMs) 上的广泛实验证明,KORE 在新知识注入性能上优于现有基线方法,并能有效缓解灾难性遗忘。实验结果表明,KORE 在知识适应和保留方面均表现出卓越性能,且其有效性不受模型规模和架构的限制。
  5. 灵活性和可定制性: KORE 能够将任意知识增强为结构化格式,并允许根据特定的保留需求定制知识约束,例如通过特定约束来增强特定类型知识的保留。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型多模态模型 (Large Multimodal Models, LMMs)

概念定义: 大型多模态模型 (Large Multimodal Models, LMMs) 是指能够处理和理解多种类型数据(如文本、图像、音频等)并进行推理的大规模人工智能模型。它们通常基于 Transformer 架构,通过在海量多模态数据上进行预训练,学习到丰富的世界知识和跨模态的理解能力。

3.1.2. 知识注入 (Knowledge Injection)

概念定义: 知识注入 (Knowledge Injection) 是指将新的、特定或更新的知识整合到预训练模型(如 LLMsLMMs)中的过程。其目标是使模型能够获取并利用这些新信息,以提供更准确、更及时的响应。知识注入通常涉及两个关键目标:知识适应 (Knowledge Adaptation)(成功学习新知识)和知识保留 (Knowledge Retention)(在学习新知识的同时不遗忘旧知识)。

3.1.3. 灾难性遗忘 (Catastrophic Forgetting)

概念定义: 灾难性遗忘 (Catastrophic Forgetting),又称 灾难性干扰 (catastrophic interference),是人工神经网络在学习新任务时,迅速且彻底地遗忘之前学到的任务或知识的现象。当模型权重为适应新任务而更新时,旧任务相关参数的变化可能导致模型无法再执行旧任务。这是持续学习 (Continual Learning) 领域的核心挑战之一。

3.1.4. 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)

概念定义: 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 是一类用于适应大型预训练模型的微调技术,其核心思想是只训练模型中极少量的参数,而冻结大部分预训练权重。这显著降低了计算和存储成本,并减少了过拟合的风险。

  • 适配器 (Adapters): 一种 PEFT 方法,通过在预训练模型的每一层或特定层之间插入小型、可训练的神经网络模块(即 适配器 (adapters))。在微调时,只训练这些 适配器 的参数,而原始模型的权重保持冻结。
  • 低秩适应 (Low-Rank Adaptation, LoRA): 另一种 PEFT 方法,它通过在预训练模型中注入可训练的低秩矩阵来微调模型。对于一个权重矩阵 W0W_0LoRA 引入两个小矩阵 AABB(通常 ARdin×rA \in \mathbb{R}^{d_{in} \times r}BRr×doutB \in \mathbb{R}^{r \times d_{out}}rmin(din,dout)r \ll \min(d_{in}, d_{out})),使得更新量为 B A。在微调时,只训练 AABB 的参数,而 W0W_0 保持不变。

3.1.5. 数据增强 (Data Augmentation)

概念定义: 数据增强 (Data Augmentation) 是一种通过对现有数据进行变换或生成新数据来扩充训练集的技术。这有助于提高模型的泛化能力、鲁棒性,并减少过拟合。在文本领域,可以是同义词替换、回译等;在图像领域,可以是旋转、裁剪、调整亮度等。本文的 知识导向增强 (KORE-AUGMENTATION) 是一种更深层次、结构化的数据增强形式。

3.1.6. 协方差矩阵 (Covariance Matrix)

概念定义: 协方差矩阵 (Covariance Matrix) 是一个方阵,用于表示多维随机变量中每对变量之间的协方差。它描述了不同变量如何一起变化。在机器学习中,特别是神经网络的激活值层面,协方差矩阵可以捕获激活值之间的统计依赖关系,这些依赖关系可能反映了模型学习到的特征模式或知识结构。 数学公式: 给定 BB 个样本,每个样本的 dind_{in} 维输入激活为 xjRdin\mathbf{x}_j \in \mathbb{R}^{d_{in}}。则输入激活矩阵 XRdin×BX \in \mathbb{R}^{d_{in} \times B} (假设每列是一个样本的激活向量)。其协方差矩阵 CC 可以估计为: C=1B1j=1B(xjxˉ)(xjxˉ)T C = \frac{1}{B-1} \sum_{j=1}^{B} (\mathbf{x}_j - \bar{\mathbf{x}})(\mathbf{x}_j - \bar{\mathbf{x}})^T 然而,在论文中,作者采用了简化的形式 C=XXTC = X X^T,这通常用于中心化数据,或者在某些语境下作为一种未中心化的二阶矩矩阵的近似,用于捕获激活的空间结构。 符号解释:

  • CC: 协方差矩阵。
  • XX: 模型的线性层输入激活矩阵,其中每一列是一个样本的激活向量。
  • XTX^T: 矩阵 XX 的转置。
  • xˉ\bar{\mathbf{x}}: 样本激活的均值向量。

3.1.7. 奇异值分解 (Singular Value Decomposition, SVD)

概念定义: 奇异值分解 (Singular Value Decomposition, SVD) 是一种强大的矩阵分解方法,可以将任意实数或复数矩阵分解为三个矩阵的乘积。 数学公式: 对于一个 m×nm \times n 的矩阵 MM,其 SVD 表示为: M=UΣVTM = U \Sigma V^T 符号解释:

  • MM: 原始矩阵。
  • UU: 一个 m×mm \times m 的正交矩阵,其列向量是 MMTM M^T 的特征向量,称为左奇异向量。
  • Σ\Sigma: 一个 m×nm \times n 的对角矩阵,其对角线上的元素是非负实数,称为奇异值。奇异值通常按降序排列。
  • VTV^T: 一个 n×nn \times n 的正交矩阵 VV 的转置,其列向量是 MTMM^T M 的特征向量,称为右奇异向量。

3.1.8. 零空间 (Null Space)

概念定义: 零空间 (Null Space) (或核 kernel) 是线性代数中的一个概念,指所有能够使线性变换(由矩阵表示)结果为零向量的向量的集合。对于矩阵 AA,其零空间是集合 {xAx=0}\{ \mathbf{x} \mid A\mathbf{x} = \mathbf{0} \}。在本文中,零空间 被用来寻找一个更新方向,使得更新对模型先前知识(由协方差矩阵捕获)的影响最小。

3.2. 前人工作

  • 检索增强生成 (Retrieval-Augmented Generation, RAG): 这类方法通过在推理时查询外部知识库来增强模型生成能力,从而绕过直接修改模型参数的需要。优点是能保持预训练知识,且知识更新相对灵活。缺点是其效果严重依赖于检索系统的质量和速度。
  • 直接修改模型参数的方法:
    • 全量微调 (Full Fine-Tuning): 最直接的方法是更新模型的所有参数。虽然能有效学习新知识,但计算和存储成本高昂,且极易导致灾难性遗忘。
    • 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT): 为了解决全量微调的成本问题,PEFT 方法(如 adaptersLoRA)被引入,通过仅更新少量参数来适应模型。尽管减少了资源消耗,但它们仍然面临知识注入不足和灾难性遗忘的挑战。
  • 持续学习 (Continual Learning) 方法: 旨在缓解灾难性遗忘,主要分为几类:
    • 排练/经验回放 (Rehearsal): 通过存储并重新训练少量旧数据来防止遗忘。
    • 参数正则化 (Parameter Regularization):弹性权重整合 (Elastic Weight Consolidation, EWC),通过对重要参数的更新施加惩罚,以保护旧任务相关知识。
    • 知识蒸馏 (Knowledge Distillation): 通过让新模型模仿旧模型的输出,将旧知识“蒸馏”到新模型中。
    • 动态架构 (Dynamic Architectures): 动态扩展模型架构以适应新任务,为每个任务分配专用容量。
    • 互补投影方法 (Complementary Projection-based Methods): 利用投影技术将新任务的学习限制在与旧任务不冲突的子空间中。

3.3. 技术演进

大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 通过大规模预训练获取了丰富的世界知识。然而,这些知识本质上是静态的,无法应对现实世界的持续变化。这一局限性推动了对知识注入 (Knowledge Injection) 方法的需求,以使模型能够动态地获取和更新信息。

早期的知识注入尝试主要集中在检索增强生成 (RAG),通过外部知识库来补充模型,避免了对模型内部参数的直接修改。但 RAG 的局限性在于其对检索系统质量的依赖。

另一条路径是直接修改模型参数 (direct parameter modification),其中全量微调 (Full Fine-Tuning) 是最直接但成本最高的方法。为了提高效率,参数高效微调 (PEFT) 技术,如 adaptersLoRA,应运而生,它们通过训练少量参数来降低成本。然而,无论是全量微调还是 PEFT,都普遍面临灾难性遗忘 (Catastrophic Forgetting) 的挑战,即模型在学习新知识时会遗忘旧知识。

为了应对 灾难性遗忘,研究人员借鉴了持续学习 (Continual Learning) 领域的成果,提出了 rehearsalparameter regularizationknowledge distillation 等方法。然而,这些方法往往难以在新知识获取 (knowledge adaptation)旧知识保留 (knowledge retention) 之间取得理想的平衡,例如,一些正则化方法可能会牺牲新知识的适应能力。

本文的 KORE 方法正是在这一技术背景下提出的,它试图通过知识导向的增强 (knowledge-oriented augmentation) 来确保新知识的准确学习和内化,并通过知识导向的约束 (knowledge-oriented constraint)(基于 协方差矩阵零空间投影)来有力地保护旧知识,从而在一个协同框架下优化知识适应和保留之间的权衡。这代表了知识注入领域在平衡双重目标方面的一个重要进展。

3.4. 差异化分析

KORE 方法与现有知识注入和持续学习方法相比,其核心区别和创新点在于:

  1. 知识导向增强的深度与结构化:

    • 现有方法: 传统的文本或图像数据增强通常是表面化和离散的,如文本的同义词替换或图像的随机裁剪。它们通过简单地增加数据变化来扩大模型对现有知识的“暴露”,但缺乏对知识内在逻辑和关联的深层次构建。
    • KORE 的创新: KORE-AUGMENTATION 不仅仅是生成数据变体,而是自动将单个知识项转化为多轮对话 (multi-round dialogues)指令任务 (instruction tasks) 数据。这种方法构建了一个“知识树”,将离散的知识点组织成结构化、全面的知识。这使得模型能够超越简单的“数据记忆”,真正理解和推理知识的内在逻辑,从而实现新知识的泛化 (generalization)内化 (internalization),确保了更准确的知识适应。
  2. 基于协方差矩阵和零空间投影的知识约束:

    • 现有方法: PEFT 方法(如 LoRA)主要关注参数效率,但缺乏对旧知识的显式保护机制,易导致灾难性遗忘。持续学习方法(如 EWC)通过正则化或回放来保护旧知识,但可能影响新知识的学习效率或增加计算负担。
    • KORE 的创新: KORE-CONSTRAINT 利用 LMM 线性层激活的协方差矩阵 (covariance matrix) 来捕获和存储旧知识的模式。通过对该协方差矩阵进行奇异值分解 (SVD),提取其零空间 (null space)。然后,KORE 将适配器 (adapter) 的初始权重投影到这个零空间,从而确保微调方向与旧知识所占据的特征空间正交或干扰最小。这种“知识驱动的微调约束”提供了一种数学上更优雅且有效的机制,以最小化对旧知识的干扰,实现强大的保留能力。
  3. 协同优化 (Synergistic Optimization):

    • 现有方法: 许多方法往往侧重于解决知识适应或知识保留其中一个问题,或者难以在这两者之间找到最优平衡点。

    • KORE 的创新: KORE 的核心理念是协同 (synergistic)。它将 知识导向增强(优化新知识学习)和 知识导向约束(优化旧知识保留)结合在一个统一的框架内,明确旨在优化知识注入的双重目标。这种综合性的方法使其在实验中展现出在两个目标上均优于单一关注点方法的性能。

      简而言之,KORE 不仅通过创新的数据增强方式提升了新知识学习的质量,还通过基于 协方差矩阵 零空间的独特约束机制,在数学上保证了旧知识的有效保留,从而在知识注入领域提供了一个更全面、更高效的解决方案。

4. 方法论

4.1. 方法原理

KORE 旨在解决大型多模态模型 (LMMs) 在知识注入过程中面临的知识适应 (knowledge adaptation)知识保留 (knowledge retention) 的核心挑战。其核心思想在于采用知识导向的增强 (KnOwledge-oRientEd augmentations)知识导向的约束 (constraints) 相结合的协同方法。

  1. 知识导向增强 (KORE-AUGMENTATION):针对知识适应问题。其原理是,传统的通用数据增强(如简单的文本重述或图像变换)无法帮助模型真正内化和泛化新知识。KORE-AUGMENTATION 通过自动化流程,将单个、离散的知识项转化为多轮对话和结构化的指令任务数据,构建一个“知识树”。这种深层次、上下文丰富的结构化知识,能够促使模型理解知识的内在逻辑和关联,从而实现对新知识的准确学习和灵活运用,超越简单的“数据记忆”。

  2. 知识导向约束 (KORE-CONSTRAINT):针对知识保留问题。其原理是,预训练 LMMs 中的旧知识体现在其内部激活的统计模式中,特别是线性层激活的协方差矩阵。直接微调会破坏这些模式。KORE-CONSTRAINT 通过捕获这些激活的协方差矩阵来“存储”旧知识。然后,它利用 奇异值分解 (SVD) 来识别并投影到该协方差矩阵的零空间 (null space)。通过将微调适配器 (adapter) 的初始权重限制在这个零空间中,KORE 确保了微调过程中对旧知识所代表的激活模式的干扰最小,从而有效防止灾难性遗忘。

    这两个模块协同工作:KORE-AUGMENTATION 为模型提供了高质量、结构化的新知识学习材料,确保新知识的有效适应;而 KORE-CONSTRAINT 则从底层数学机制上保护了模型原有的丰富知识。通过这种双管齐下的方法,KORE 旨在优化知识适应和保留之间的关键权衡,实现卓越的整体知识注入性能。

4.2. 核心方法详解

4.2.1. 知识导向增强 (KORE-AUGMENTATION)

KORE-AUGMENTATION 旨在解决现有知识注入方法泛化能力差、难以掌握新知识的问题。它通过自动化流程,将单个知识项转化为结构化、全面的知识,从而实现精确的知识适应。与通用的文本或图像数据增强不同,KORE-AUGMENTATION 强调构建深层次的、结构化的知识。

核心思想:构建知识树 KORE-AUGMENTATION 将原始知识增强为:

  • 多轮对话数据 (multi-rounds dialogues data): 形成知识的“主干 (trunk)”。
  • 指令任务数据 (instruction tasks data): 形成知识的“分支 (branches)”。 通过这种方式,它构建了一个全面的、高层次的“知识树”,支持新知识的卓越泛化和内化。这种方法超越了模型对训练数据的简单“记忆”,而是帮助模型理解和推理知识本身的内在逻辑和关联,从而实现真正的“知识内化”。

下图(原文 Figure 3)比较了 KORE-AUGMENTATION 与通用数据增强方法:

Figure 3: Comparison of KoRE-AUGMENTATION (left) and general augmentation methods (right). 该图像是论文中图3的示意图,比较了KORE增强方法(左侧)与通用数据增强方法(右侧)。图中展示了KORE如何通过结构化知识增强实现对新知识的准确学习以及保持旧知识,而通用增强方法则表现为表面且离散的增强,无法有效连接知识。

图 3:KORE-AUGMENTATION(左)与通用增强方法(右)的比较。

实施细节: KORE-AUGMENTATION 包含以下两个主要部分:

  1. 构建多轮对话数据 (Constructing Multi-rounds of Dialogue Data):

    • 组成: 每条知识样本的多轮对话数据由两部分组成:
      • 启发式问答 (Heuristic Q&A, H.Q): 使用手动编写的模板随机构建。例如,针对新闻,模板可能是“请解释图片中展示的 {type} 新闻”;针对实体,模板可能是“请告诉我图片中的 {type} 实体是什么”。
      • 对话问答 (Dialogue Q&A): 设计严格的规则和多样的任务示例,使用 GPT-4o 生成多达 10 轮基于原始文本知识的对话。这个过程最终产生了 75,710 条对话数据。
    • 目标: 通过多轮对话,模型能够从不同角度和深度理解新知识,并学习如何在交互式场景中运用这些知识。
  2. 构建指令任务数据 (Constructing Instruction Tasks Data):

    • 图像收集: 使用新闻标题或实体名称作为关键词,通过 Google Search 检索前五张相关图片。然后,使用 CLIP 提取原始图片和收集到的图片的视觉特征,保留两张余弦相似度最高的图片(排除完全相同的图片),作为后续任务的查询图像。

    • 视觉识别 (Visual Recognition):

      • 问题从手动编写的模板中随机选择。
      • 答案固定为“Yes”。
      • 查询图像为前一步骤中保留的一张图片。
      • 指令为“用是或否回答这个问题”。
    • 图像描述 (Image Caption):

      • 答案由 GPT-4o 根据原始文本知识生成摘要。
      • 问题从模板中随机选择。
      • 查询图像为前一步骤中剩余的图片。
      • 指令为“用一段话回答这个问题”。
    • 视觉问答 (VQA):

      • 使用 GPT-4o 从原始文本知识中生成四元组 (Q, A, S, H),其中 QQ 是问题,AA 是答案,SS 是问题的主体 (subject),HH 是主体的上位词 (hypernym)。
      • 将主体和上位词组合作为搜索关键词,从 Google 检索并下载排名第一的图片。
      • 指令为“用一个单词或短语回答这个问题”。这个过程产生了 46,468 个 VQA 样本。
    • 目标: 通过不同形式的指令任务,训练模型在特定场景下理解视觉信息、提取关键文本信息并生成准确回答的能力,从而强化对新知识的灵活操作。

      通过 KORE-AUGMENTATION,作者使用 EVOKE 的原始知识构建了 KORE-74K 数据集,并在此数据集上训练 KORE

4.2.2. 知识导向约束 (KORE-CONSTRAINT)

KORE-CONSTRAINT 旨在解决在整合新知识或技能时,传统微调方法容易破坏模型内部已建立的结构,导致灾难性遗忘的问题。其核心思想是利用 LMM 线性层激活的协方差矩阵来“存储”旧知识,并通过将适配器初始化到该矩阵的零空间来最小化对旧知识的干扰。

核心思想:零空间投影 大型多模态模型 (LMMs) 利用其预训练知识来执行各种任务,这些能力在内部激活的协方差矩阵中表现为独特的模式。KORE-CONSTRAINT 假设这些协方差矩阵有效地捕获了先前的知识。

具体步骤:

  1. 收集激活与计算协方差矩阵:

    • 作者收集 LMM 线性层在表示预训练知识的一组随机样本上的激活。
    • 设线性层的输入激活为 XRdin×BL\pmb{X} \in \mathbb{R}^{d_{in} \times BL},其中 BB 是样本数,LL 是序列长度,dind_{in} 是输入维度。
    • 其协方差矩阵估计为 C=XXTRdin×dinC = X X^T \in \mathbb{R}^{d_{in} \times d_{in}}
  2. 定义知识保留条件:

    • 设预训练权重为 W0W_0,通过 LoRA 微调后的权重为 W=W0+BAW^* = W_0 + B A
    • 为了实现知识保留,希望在微调后,由预训练知识产生的输出激活保持一致: WCW0CW^* C \approx W_0 C
    • 简化此方程,得到: BAC0BAC \approx \mathbf{0}
    • 为了解决这个问题,目标是使 A\pmb{A} 位于 CC零空间矩阵 (null space matrix) 中,即满足: AC=0AC = \mathbf{0}
  3. 计算零空间并构建投影器:

    • 对协方差矩阵 C=XXTC = X X^T 进行奇异值分解 (SVD)SVD(C)=i=1dinσiuiuiT \operatorname{SVD}(C) = \sum_{i=1}^{d_{in}} \sigma_i \mathbf{u}_i \mathbf{u}_i^T 这里,作者在原文中给出的公式是 SVD(ΨC=X˙(X)T)=i=1rσiuiuiT\operatorname{SVD}(\pmb{\Psi}_C = \pmb{\dot{X}}(\pmb{X})^T) = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{u}_i^T。为了与前文 C=XXTC = X X^T 保持一致,并考虑到 SVD 的标准形式,我们可以理解为对 CC 进行 SVD。 符号解释:
      • UU: 正交矩阵,其列是左奇异向量 ui\mathbf{u}_i
      • Σ\Sigma: 对角矩阵,对角线元素是奇异值 σi\sigma_i,且 σ1σ2σR>0\sigma_1 \geq \sigma_2 \geq \cdot \cdot \cdot \geq \sigma_R > 0
      • R=rank(C)R = \operatorname{rank}(C) 是矩阵 CC 的秩。
    • CC零空间 (null space)UnullRdin×(dinR)U_{null} \in \mathbb{R}^{d_{in} \times (d_{in}-R)} 的列向量张成,这些向量对应于零奇异值(或非常小的奇异值)。UnullU_{null} 满足 UnullTC=0U_{null}^T C = \mathbf{0}
    • 近似零空间: 实际操作中,作者使用 U^Rdin×r\hat{\boldsymbol{U}} \in \mathbb{R}^{d_{in} \times r} 来近似零空间,其中 U^\hat{\boldsymbol{U}} 包含与最小 rr 个奇异值相关的 rr 个左奇异向量(rr 是预定义的 LoRA 秩)。
    • 定义知识导向约束投影器 (knowledge-oriented constraint projector): ΨP=U^U^T \mathbf{\Psi}_P = \hat{U} \hat{U}^T 这个投影器可以将任意向量投影到近似零空间中。
  4. 初始化适配器并调整原始权重:

    • 通过将预训练权重 W0W_0 投影到零空间来初始化 LoRA 适配器。
    • 计算投影后的权重 W0PW_0 PSVDSVD(W0P)={U,Σˉ,(V)T} \mathrm{SVD}(W_0 P) = \{U^*, \bar{\Sigma}^*, (V^*)^T\}
    • 初始化适配器矩阵 B\pmb{B}A\pmb{A}B=UΣ,A=Σ(V)T B = U^* \sqrt{\Sigma^*}, \qquad A = \sqrt{\Sigma^*} (V^*)^T 符号解释:
      • Σ\sqrt{\pmb{\Sigma}^*}: 对角矩阵,其对角线元素是奇异值的平方根。
      • U,VU^*, V^*: SVD 结果中的正交矩阵。
    • 为了确保模型在微调开始时保持不变,调整原始权重矩阵: W0=W0BAW_0' = W_0 - BA 这使得模型在开始微调时,LoRA 模块的初始输出为零,即 W0+BA=W0W_0' + BA = W_0
  5. 冻结矩阵 A\pmb{A}

    • 鉴于 A\pmb{A}B\pmb{B} 之间的不对称性,仅微调 B\pmb{B} 即可获得良好性能。
    • KORE 冻结 A\pmb{A},由于 A\pmb{A} 位于 CC 的零空间中,这确保了 AC0AC \approx \mathbf{0}
    • 因此,更新项 BAC\pmb{B} \pmb{A} \pmb{C} 无论 B\pmb{B} 如何更新都将是可忽略的,从而实现了知识保留。

定理证明 (Proof of Kore): 原文在附录 C 中提供了两个定理证明:

  • 定理 1:W0W_0 满秩的假设下,A\pmb{A} 的列空间是 UnullU_{null} 列空间的子集。这证明了 A\pmb{A} 确实与零空间相关。
  • 定理 2: 对于 LMM 中给定层 ll,如果输入激活 X(l)\pmb{X}^{(l)} 来自预训练世界知识且保持不变,那么在 KORE 微调后,层的输出近似保留: W(l)X(l)W0(l)X(l) {W^*}^{(l)} X^{(l)} \approx W_0^{(l)} X^{(l)} 证明的核心在于利用了 W(l)=W0(l)B(l)A(l)+B(l)A(l)W^{*(l)} = W_0^{(l)} - B^{(l)} A^{(l)} + B^{*(l)} A^{(l)}A(l)X(l)0A^{(l)} X^{(l)} \approx \mathbf{0} (即 A(l)A^{(l)} 位于激活 X(l)X^{(l)} 的零空间)。这表明微调过程不会显著改变预训练知识,确保了知识保留的特性。

4.2.3. 知识导向约束分析 (Analysis of Knowledge-Oriented Constraint)

KORE-CONSTRAINT 的有效性基于一个前提:提取的协方差矩阵能够有效捕获来自先前数据的知识。为了验证这一点,作者将 CO-SVD(一种文本场景下的方法)扩展到多模态场景。

验证实验及发现: 作者对 LLaVA-v1.5 (7B) 预训练权重的所有层进行了完全分解,并比较了 Plain SVDASVD (Yuan et al., 2023) 和 CO-SVD 的性能。通过移除与最小 rr 个奇异值对应的组件来重建权重。

  1. 协方差矩阵捕获多模态知识:
    • 下图(原文 Figure 4 (a) 和 (b))展示了 CO-SVDMMEScienceQA 上的性能保留优于 Plain SVDASVD
    • 这表明多模态知识可以被有效地捕获并存储在协方差矩阵中
  2. 协方差矩阵激活独特模式:
    • 下图(原文 Figure 4 (c))展示了线性层输入的协方差矩阵在相关任务(如 POPEHallusionBench,两者都评估幻觉)中表现出相似的异常模式,但与不相关任务(如 MMBench)不同。

    • 这表明不同的任务在协方差矩阵中表现出不同的异常值分布 (outlier distributions),意味着激活的协方差矩阵可以表征所触发的任务。

      下图(原文 Figure 4)展示了协方差矩阵的分析结果:

      该图像是一个复合图表,包括两个性能对比折线图和多个热力图(图(a)、(b)及(c)),展示了不同奇异值分解方法在丢弃最小秩数时对模型准确率的影响,以及LMM线性层激活协方差矩阵的结构特征。 该图像是一个复合图表,包括两个性能对比折线图和多个热力图(图(a)、(b)及(c)),展示了不同奇异值分解方法在丢弃最小秩数时对模型准确率的影响,以及LMM线性层激活协方差矩阵的结构特征。

图 4:(a) MME 和 (b) ScienceQA 重建后的性能(越高越好)。(c) 0-th 块中 4 种不同输入激活的协方差矩阵可视化。热力图被下采样为 32×3232 \times 32。相似模式用红色圆圈标记。

构建多维协方差矩阵: 为了构建 KORE 的多维协方差矩阵,作者从 OneVision (Li et al., 2025) 的单图像子集(General、Doc/Chart/Screen、Math/Reasoning、General OCR)中每个类别采样 64 个示例。

5. 实验设置

5.1. 数据集

5.1.1. 知识适应评估 (Knowledge Adaptation Evaluation)

论文使用 EVOKE (Jiang et al., 2025) 数据集来评估预训练 LMMs 的知识适应能力。

  • EVOKE: 一个新的基准,旨在评估大型多模态模型 (LMMs) 在不遗忘其原始能力的情况下,学习不断演进的知识的能力。知识以图像-文本对的形式注入,评估问题从文本中派生。它揭示了现有方法在知识适应方面的局限性和灾难性遗忘的严重性。

5.1.2. 知识保留评估 (Knowledge Retention Evaluation)

论文在 7 个能力维度上的 12 个基准测试中评估了微调 LMMs 的知识保留能力。这些评估遵循 VLMEvalKit (Duan et al., 2024) 的设置。

  1. 综合评估 (Comprehensive Evaluation, COM):

    • MME (Fu et al., 2023):LMMs 的感知和认知能力进行全面评估。它主要关注直接的问答,无需特殊的提示工程。
    • MMBench (Liu et al., 2024c): 一个跨语言基准,用于全面评估 LMMs。它包含 3,000 多个双语多项选择题,涵盖 20 个技能维度,从视觉识别到抽象推理。
  2. 光学字符识别 (Optical Character Recognition, OCR):

    • SEEDBench2 Plus (Li et al., 2024): 评估 LMMs 解释富文本视觉(如图表、网页布局)的能力。它使用 2,300 个多项选择题来测试需要整合文本和视觉信息的推理能力。
    • OCRVQA (Mishra et al., 2019): 评估模型通过阅读图像中的文本来回答问题的能力。它侧重于文本信息至关重要的任务,需要视觉感知和 OCR 的紧密整合。
  3. 多学科推理 (Multidisciplinary Reasoning, M-DIS):

    • ScienceQA (Lu et al., 2022): 通过大规模多模态基准评估科学推理。它包含基于课程的问题,带有图表,并为每个问题提供讲解和解释以鼓励复杂推理。
    • MMMU (Yue et al., 2024): 评估 LMMs 在大学级别的、需要专业知识的多模态问题上的表现。该基准包含来自六个学科的 11,500 个问题,利用 30 种图像格式来测试复杂的、特定学科的推理。
  4. 指令遵循 (Instruction Following, INS):

    • MIA-Bench (Qian et al., 2024): 一个专门的基准,衡量 LMMs 遵循复杂和多层指令的精确度。它由 400 个不同的图像-提示组合组成,旨在测试模型遵守详细和细致指令的能力。
  5. 多轮多图像对话理解 (Multi-Turn Multi-Image Dialog Understanding, M-IDU):

    • MMDU (Liu et al., 2025): 评估 LMMs 在多图像、多轮对话场景中的表现。它专门评估模型在上下文理解、时间推理和在扩展交互中保持连贯性的能力。
  6. 数学推理 (Mathematical Reasoning, MAT):

    • MathVista (Lu et al., 2024): 在视觉背景下评估基础模型的数学推理能力。它聚合了来自 31 个数据集的 6,141 个问题,需要详细的视觉分析和组合逻辑才能解决。
    • MathVision (Wang et al., 2025a): 提供了一个具有挑战性的数据集,包含来自数学竞赛的 3,040 个视觉呈现问题。它分为 16 个数学领域和五个难度级别,为 LMMs 的高级推理提供了结构化评估。
  7. 幻觉 (Hallucination, HAL):

    • POPE (Li et al., 2023): 评估 LMMs 中的物体幻觉——描述不存在物体的倾向。它使用基于投票的提问策略来可靠地衡量这种倾向。
    • HallusionBench (Guan et al., 2024): 诊断 LMMs 视觉解释中的幻觉和错觉。它使用 346 张图像和 1,129 个结构化问题,定量分析不准确或不一致模型响应的原因。

5.2. 评估指标

为了评估开放域问答任务的性能,采用了两个关键指标:覆盖精确匹配 (Cover Exact Match, CEM)F1-分数 (F1-Score, F1)

5.2.1. 覆盖精确匹配 (Cover Exact Match, CEM)

概念定义: 覆盖精确匹配 (Cover Exact Match, CEM) 衡量的是模型生成的答案是否完全包含了真实标注数据 (Ground Truth) 答案。如果真实标注答案是模型生成文本的子字符串,则认为匹配成功。这个指标对于评估模型是否能完整地提供所需信息非常有用。 数学公式: CEM={1,yqY^0,otherwise CEM = \begin{cases} 1, & y_q \subseteq \hat{Y} \\ 0, & \mathrm{otherwise} \end{cases} 符号解释:

  • yqy_q: 真实标注数据 (Ground Truth) 答案。
  • Y^\hat{Y}: 模型生成的文本。
  • yqY^y_q \subseteq \hat{Y}: 表示 yqy_qY^\hat{Y} 的子字符串。

5.2.2. F1-分数 (F1-Score, F1)

概念定义: F1-分数 (F1-Score, F1) 评估的是预测答案和真实标注答案之间的词级别重叠度,是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它在不平衡类别分布或同时关注预测的准确性和完整性时非常有用。 数学公式: 给定真实标注数据 (Ground Truth) 答案的词集合 W(yq)={y1,...,ym}\mathcal{W}(y_q) = \{y_1, ..., y_m\} 和模型预测答案的词集合 W(Y^)={y^1,...,y^n}\mathcal{W}(\hat{Y}) = \{\hat{y}_1, ..., \hat{y}_n\}。 计算重叠词的数量 U(Y^,yq)\mathcal{U}(\hat{Y}, y_q)U(Y^,yq)=tW(yq)1[tW(Y^)] \mathcal{U}(\hat{Y}, y_q) = \sum_{t \in \mathcal{W}(y_q)} \mathbf{1}[t \in \mathcal{W}(\hat{Y})] 符号解释:

  • W(yq)\mathcal{W}(y_q): 真实标注数据 (Ground Truth) 答案的词集合。

  • W(Y^)\mathcal{W}(\hat{Y}): 模型预测答案的词集合。

  • 1[]\mathbf{1}[\cdot]: 指示函数,如果条件为真则为 1,否则为 0。

    精确率 (Precision) P(Y^,Y)\mathcal{P}(\hat{Y}, Y) 是正确预测的词占所有预测词的比例: P(Y^,Y)=U(Y^,yq)W(Y^) \mathcal{P}(\hat{Y}, Y) = \frac{\mathcal{U}(\hat{Y}, y_q)}{\vert \mathcal{W}(\hat{Y}) \vert} 符号解释:

  • W(Y^)\vert \mathcal{W}(\hat{Y}) \vert: 模型预测答案中词的数量。

    召回率 (Recall) R(Y^,Y)\mathcal{R}(\hat{Y}, Y) 是成功预测的真实标注数据 (Ground Truth) 词占所有真实标注数据 (Ground Truth) 词的比例: R(Y^,Y)=U(Y^,yq)W(Y) \mathcal{R}(\hat{Y}, Y) = \frac{\mathcal{U}(\hat{Y}, y_q)}{\vert \mathcal{W}(Y) \vert} 符号解释:

  • W(Y)\vert \mathcal{W}(Y) \vert: 真实标注数据 (Ground Truth) 答案中词的数量。

    F1-分数计算为: F1=2PRP+R F1 = 2 \cdot \frac{\mathcal{P} \cdot \mathcal{R}}{\mathcal{P} + \mathcal{R}}

5.3. 对比基线

论文将 KORE 与以下几种基线方法进行了比较:

  • 全量微调 (Full-FT): 更新模型所有参数的传统微调方法。
  • 低秩适应 (LoRA): 一种参数高效微调 (PEFT) 方法,通过注入低秩矩阵来微调模型,同时冻结原始权重。
  • 回放 (Replay): 一种持续学习方法,通过存储和回放少量旧数据来防止灾难性遗忘。在实验中,Replay 通过 LoRA 实现,混合了固定数量(EVOKE 大小的 10%)从 LMMs 预训练语料库中随机抽样的数据。
  • 弹性权重整合 (EWC): 一种参数正则化方法,通过施加二次约束来减缓对对先前任务重要的参数的更新,以防止灾难性遗忘。
  • 无遗忘学习 (Learning without Forgetting, LwF): 一种知识蒸馏方法,通过让新模型在学习新任务时模仿旧模型在旧任务上的输出,从而保留旧知识。
  • 专家混合低秩适应 (Mixture of Experts LoRA, MoELoRA): 结合了专家混合架构和对比学习的参数高效微调方法,旨在通过专家专门化和协作来减少灾难性遗忘。
  • 正交低秩适应 (Orthogonal LoRA, O-LoRA): 一种基于正交子空间的持续学习方法,为每个任务分配独立、正交的参数子空间,以限制更新并减轻干扰。
  • 表面与本质遗忘消除器 (Superficial and Essential Forgetting Eliminator, SEFE): 解决多模态灾难性遗忘,通过区分表面遗忘(风格)和本质遗忘(知识),并采用定制的训练策略来在持续指令微调过程中保护本质知识。

5.4. 实验模型

论文在以下三种大型多模态模型 (LMMs) 上进行了实验:

  • LLaVA-v1.5 (7B) (Liu et al., 2024b)
  • LLaVA-v1.5 (13B) (Liu et al., 2024b)
  • Qwen2.5-VL (7B) (Bai et al., 2025)

5.5. 训练参数

以下是原文 Table 7 中给出的部分训练参数设置:

LLaVA-v1.5 (7B)
Rank 235 Optimizer AdamW Deepspeed Zero3 Epochs 6 Vision Select Layer -2
Weight Decay 0 Warmup Ratio 0.03 LR Schedule cosine decay Learning Rate 2 × 10-4 Batch Size 54
LLaVA-v1.5 (13B)
Rank 235 Optimizer AdamW Deepspeed Zero3 Epochs 6 Vision Select Layer -2
Weight Decay 0 Warmup Ratio 0.03 LR Schedule cosine decay Learning Rate 2 × 10-4 Batch Size 32
Qwen2.5-VL (7B)
Rank 274 Optimizer AdamW Deepspeed Zero3 Epochs 6 Image Max Pixels 262144
Grad Accum Steps 8 Warmup Ratio 0.1 LR Schedule cosine decay Learning Rate 2 × 10-4 Batch Size 24

5.6. 实验资源

  • 所有训练实验均使用 4 块 NVIDIA H100 GPU (每块 96 GiB 显存) 进行。
  • 所有评估实验均在配备 4 块 NVIDIA A100 PCIe GPU (每块 40 GiB 显存) 的系统上执行。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 主要结果分析 (基于 LLaVA-v1.5 (7B))

以下是原文 Table 1 的结果,展示了 KORE 在知识适应和保留方面与八种基线方法的性能比较。

Method #Params Evoke COM↑ OCR ↑ M-DIS ↑ INS ↑ M-IDU ↑ MAT ↑ HAL ↑ Avg ↑
CEM↑ F1↑
LLaVA-v1.5 (7B) 65.61 45.59 49.22 66.33 26.37 19.33 54.32
Full-FT 6,759M 18.02 15.17 43.55 21.55 45.67 25.25 13.03 18.32 16.09 23.23
LoRA 340M 15.23 18.31 48.96 27.01 43.79 29.66 13.70 18.02 41.38 24.28
Replay 340M 11.36 17.98 59.72 37.98 48.64 62.33 19.31 19.17 51.67 28.68
EWC 340M 15.49 19.42 49.42 32.88 45.46 29.79 13.36 18.00 43.50 25.33
LwF 340M 14.58 19.99 53.14 28.77 43.41 36.19 13.68 18.22 44.18 25.61
MoELoRA 340M 6.45 12.20 60.79 38.79 48.27 35.03 17.85 19.79 49.99 23.98
O-LoRA 340M 6.44 12.08 61.47 40.91 48.07 34.85 17.28 19.87 51.12 24.17
SEFE 340M 13.38 16.88 42.06 20.43 40.17 17.73 13.25 18.20 39.30 22.54
Kore (r=235) 340M 30.65 41.26 52.41 40.98 48.68 38.54 16.58 18.59 51.75 37.09
KORE (r=256) 369M 31.05 41.32 52.48 39.96 48.96 60.02 23.18 18.09 51.50 39.11

观察 1: KORE 实现了准确的知识适应,有效注入新知识。

  • KORE(rank=235)KORE (rank=235)EvOKE 数据集上的 CEM 达到 30.65,F1-Score 达到 41.26。这相比于表现最好的基线方法,CEM 提升了 12.63,F1-Score 提升了 21.27,甚至超过 LoRA 两倍以上。这表明 KORE-AUGMENTATION 通过结构化、深度化的知识增强,显著提升了模型学习和内化新知识的能力。

观察 2: KORE 实现了强大的知识保留,有效保护旧知识。

  • KORE(rank=235)KORE (rank=235) 在所有知识保留测试中均优于 LoRA。它在 OCRM-DISHAL 任务上取得最高分,并在 INS 上排名第二。虽然在 INSM-IDU 上表现略逊于 Replay(尤其是在 INS 上,Replay 达到 62.33,而 KORE 只有 38.54),作者将其归因于可训练参数的数量和协方差矩阵的来源。当 rank=256rank=256 时,KOREINS 上仅落后 Replay 2.31,在 M-IDU 上则超越 Replay 3.87,显示了更强大的保留能力。这验证了 KORE-CONSTRAINT 通过零空间投影有效地保护了旧知识。

观察 3: KORE 通过协调知识注入的双重目标,实现了卓越的整体性能。

  • KORE(rank=235)KORE (rank=235) 实现了 37.09 的平均分,比最强的基线方法提高了 8.41。当 rank=256rank=256 时,平均分更是达到 39.11。这些增益源于 KORE 能够优化知识注入和保留之间的权衡,证明了其协同设计策略的有效性。

6.1.2. 知识适应和保留的详细结果分析

观察 4: KORE 在广泛的细粒度知识类型上表现出卓越性能。 下图(原文 Figure 5)比较了 KORE 和基线方法在细粒度知识类型上的表现:

Figure 5: Comparison between KoRE and baseline methods on fine-grained knowledge types. 该图像是图表,展示了KORE方法与多种基线方法在细粒度知识类型上的对比表现,包括新闻和实体子集的准确率与F1分数。不同颜色代表不同方法,KORE表现优异。

图 5:KORE 与基线方法在细粒度知识类型上的比较。 原文 Table 9 (附录 E.1) 显示,KOREEvOKE 的 20 种细粒度新闻和实体类型中始终优于所有基线方法,展现了强大的全面知识适应能力。这进一步证实了 KORE-AUGMENTATION 产生的结构化知识对于模型内化和泛化新知识的有效性。

观察 5: KORE 实现了有竞争力的知识保留。 以下是原文 Table 2 的结果,展示了 KORE 和基线方法在细粒度知识保留评估中的性能比较:

Method COM OCR M-DIS INS M-IDU MAT HAL Avg
MME ↑ MM8 ↑ SEEDB2P ↑ OCRVQ^↑ SQA ↑ MMMU ↑ MIAB ↑ MMDU ↑ Math ↑ Math1 ↑ POPE ↑ Hall ↑
LLaVA-v1.5 (7B) 66.63 64.60 38.78 52.41 69.83 28.60 66.33 26.37 25.50 13.16 86.87 21.76 46.74
Full-FT 34.17 52.92 31.44 11.65 67.13 24.20 25.25 13.03 24.70 11.94 74.22 9.27 31.66
LoRA 44.06 53.87 30.22 23.80 66.18 21.40 29.66 13.70 23.20 12.83 73.97 8.78 33.47
Replay 58.96 60.48 38.34 37.73 68.77 28.50 62.33 19.31 25.20 13.13 85.44 17.90 43.00
WC 448.57 50.26 33.60 32.16 65.71 25.20 29.79 113.36 23.30 12.76 76.22 10.77 35.14
Lw 50.87 55.41 32.02 25.52 66.21 20.60 36.19 13.68 24.40 12.04 79.23 9.13 35.44
MoELoRA 58.26 63.32 37.42 440.17 69.04 27.50 35.03 17.85 27.80 11.78 80.70 19.29 40.51
O-LORA 60.30 62.63 37.90 43.91 68.84 27.30 34.85 177.28 28.20 11.55 81.46 20.78 41.25
SEFE 36.10 48.02 22.79 118.07 65.03 15.30 17.73 13.25 26.00 10.39 72.81 5579 29.27
KOre (r=235) 49.84 54.98 37.73 44.24 68.06 29.30 38.54 16.58 25.10 12.09 80.99 22.51 40.00
KoRe (r=256) 50.06 54.90 36.89 43.03 68.51 29.40 60.02 23.18 24.70 11.48 80.77 22.23 42.10

KORE 优于 LoRA(例如,平均分提升 6.53)。它在 OCRVQAMMMUPOPEHallusionBench 上取得最高分。在 rank=256rank=256 和合适的协方差矩阵来源下(原文 Table 13),它能够接近甚至超越 Replay。这表明 KORE-CONSTRAINT 能够有效地保护模型在广泛任务上的旧知识,减轻灾难性遗忘。

观察 6: 特定约束增强知识保留和整体性能。 以下是原文 Table 3 的结果,展示了在特定知识导向约束下知识适应 (K.A) 和保留 (K.R) 的性能:

Method K.A↑ K.R ↑ Avg ↑
KORE 35.96 38.22 37.09
KOREMME 34.46 43.16 38.81
KOREOCRVQA 34.85 42.21 38.53
KOREMathT 35.20 42.87 39.03
KOREHallB 34.96 42.09 38.52

通过对 MMEOCRVQAMathVista (MathT) 和 HallusionBench (HallB) 等特定基准应用知识导向约束,KORE 的知识适应分数略有下降,但知识保留和整体平均性能显著提高。例如,KOREMMEK.R 提升了 4.94,平均分提升了 1.72。

下图(原文 Figure 6)展示了在特定知识导向约束下相应任务的性能比较:

Figure 6: Performance comparison of corresponding tasks under specific knowledge-oriented constraints. 该图像是图表,展示了图6中KORE方法与特定知识导向约束在多个任务(MME、OCRVQA、MathVista、HallusionBench)上的性能比较结果。图中柱状图显示准确率,标注了两者的性能差异。

图 6:特定知识导向约束下相应任务的性能比较。 图 6 显示,特定约束能增强目标知识的保留,例如 KOREMMEMME 上获得了 7.17 的增益。这表明 KORE 具有根据特定需求定制知识保留的能力。

6.1.3. 不同 LMM 规模和架构的分析

以下是原文 Table 4 的结果,展示了 KORE 和基线方法在不同 LMM 规模和架构上的知识适应和保留性能比较:

Methods Evoke COM↑ OCR ↑ M-DIS ↑ INS ↑ M-IDU ↑ MAT HAL↑Avg ↑
CEM↑ F1↑
LLaVA-v1.5 (13B)
Vanilla 66.86 51.12 52.70 66.04 33.93 19.64 56.77
LoRA 16.26 22.83 60.57 32.58 43.72 23.26 17.43 15.82 38.08 25.21
Replay 12.05 20.21 65.81 47.51 48.42 61.04 24.62 19.55 54.16 30.70
KorE 32.89 44.47 59.35 45.96 51.39 65.10 26.84 20.31 40.52 41.44
Qwen2.5-VL (7B)
Vanilla 81.18 70.32 65.35 78.46 61.25 47.69 66.96
LoRA 14.56 14.01 52.54 64.54 22.35 21.39 23.25 13.52 41.38 24.21
Replay 11.73 18.51 78.54 69.17 65.26 70.20 50.72 42.74 67.48 39.28
KORE 22.91 31.36 56.60 67.74 65.48 70.51 45.02 43.72 58.57 42.68

观察 7: KORE 在更大规模的 LMM 上显示出增强的优越性。

  • LLaVA-v1.5 (13B) 上,KOREEvOKE 上的 CEMF1-Score 分别超过 LoRA 16.63 和 21.64。在知识保留方面,KOREOCRM-DISINSMAT 上表现优异,并在 M-IDUHAL 上也接近最佳。与 Replay 相比,KORE 的总体平均分高出 10.74。这证实了 KORE 在更大规模的 LMMs 上也具有强大的潜力。

观察 8: KORE 的有效性不依赖于架构。

  • Qwen2.5-VL (7B) 上,KOREEvOKE 上的 CEMF1-Score 超过 LoRA 分别 12.63 和 21.27。与 Replay 相比,KORE 的平均分高出 3.40。尽管 Qwen2.5-VL 模型拥有强大的知识系统(通过三阶段训练),这导致知识注入的边际收益降低,但 KORE 仍然表现出优越性,这表明其方法具有架构无关性。

6.1.4. 消融实验和参数分析

观察 9: 增大秩 (rank) 提高了 KORE 的性能。 下图(原文 Figure 7)展示了不同 rankKORE 性能的影响:

Figure 7: Comparison of different ranks for KoRE with LLaVA-v1.5 (7B). 该图像是图表,展示了不同Rank设置下KoRE方法在LLaVA-v1.5 (7B)模型上的性能比较。柱状图对比了Rank为64、128、235、256时各指标表现及参数量,折线表示Replay方法的性能指标。

图 7:KORELLaVA-v1.5 (7B) 上不同 rank 的比较。 原文 Table 15 (附录 E.4.1) 显示,KORE 的性能随着 rank 的提高和可训练参数的增加而提升。即使在 rank=64rank=64 时,KORE 仍然在平均得分上超过 Replay,但其参数量不到 Replay 的一半。这表明 KORE 具有良好的可扩展性和性能潜力。

观察 10: 消融实验揭示了 KORE 设计的有效性。 以下是原文 Table 5 的结果,展示了 KORELLaVA-v1.5 (7B) 上的消融实验结果:

Setting Evoke COM↑ OCR ↑ M-DIS ↑ INS ↑ M-IDU ↑ MAT ↑ HAL ↑ : Avg ↑
CEM↑ F1↑
Kore 30.65 41.26 52.41 40.98 48.68 38.54 16.58 18.59 51.75 37.09
W/o Augmentation 10.83 18.31 59.96 40.42 47.13 32.53 16.00 19.71 49.50 26.23
W/o Constraint 33.93 43.71 46.39 32.38 46.31 32.70 15.38 19.12 46.47 36.46
W/o Frozen Matrix A 31.97 41.72 50.73 39.56 48.37 35.30 16.44 19.07 49.91 36.95
  • W/o Augmentation (去除增强模块) 对知识适应造成了特别大的损害(CEM 下降 19.82,F1-Score 下降 22.95)。这强调了 KORE-AUGMENTATION 在确保新知识准确学习方面的关键作用。
  • W/o Constraint (去除约束模块) 和 W/o Frozen Matrix A (去除冻结矩阵 A 的步骤) 损害了知识保留。这表明 KORE-CONSTRAINT 和冻结 AA 矩阵在保护旧知识方面是有效的。 这些结果验证了 KORE 各个组件对整体性能的积极贡献。

6.1.5. 与通用增强方法的比较

观察 11: KORE-AUGMENTATION 优于通用增强方法。 以下是原文 Table 6 的结果,展示了不同增强方法的性能比较:

Method K.A ↑ K.R ↑ Avg ↑
KOrE-AUGMENTaTION 38.82 35.78 36.46
Augmentation for Text
Knowledge-AwareKnowledge-Agnostic 20.2915.60 34.8635.71 27.3825.49
Augmentation for Images
Knowledge-AwareKnowledge-Agnostic 18.33 34.02 25.86
18.33 32.09 25.25

KORE-AUGMENTATION 在所有指标上均优于通用增强方法,特别是在知识适应 (K.A) 方面,比表现最好的基线方法提高了 18.53。这有力地证明了 KORE-AUGMENTATION 作为一种高效增强方法的优越性。

6.1.6. 训练损失曲线比较

下图(原文 Figure 10)展示了 Full-FTLoRAEWCO-LoRASEFEKOREEvOKE 上的训练损失曲线:

Figure 10: The training loss curves on EvOKE of Full-FT, LoRA, EWC, O-LoRA, SEFE and KORE. It should be clarified that Full-FT, LoRA, EWC, O-LoRA, and SEFE are trained using the knowledge injection d… 该图像是图表,展示了EvOKE数据集上Full-FT、LoRA、EWC、O-LoRA、SEFE和KORE六种方法的训练损失曲线。图中说明,前五种方法使用EvOKE知识注入数据集训练,KORE使用KORE-74K数据集,训练数据规模不同导致每个epoch迭代次数不同,因此KORE在第一个epoch丢失迅速下降。

图 10:Full-FTLoRAEWCO-LoRASEFEKOREEvOKE 上的训练损失曲线。 尽管 KORE 和基线方法使用了不同的训练数据集(KORE 使用 KORE-74K,基线使用 EVOKE),但从损失曲线可以看出,O-LoRASEFE 未能很好地拟合 EVOKE 数据。LoRAEWCFull-FT 收敛到非常低的损失值,成功拟合了 EVOKE 数据集,但结合 Table 1 的性能,这可能意味着它们过拟合了训练数据,导致对新知识的泛化能力差。相比之下,KOREKORE-74K 数据集上有效收敛,并对新知识展现出强大的泛化能力。

6.1.7. 案例研究

下图(原文 Figure 11)展示了新闻知识注入的案例研究:

Figure 11: Case Study of News. 该图像是图表,展示了多种方法在LLava-v1.5-7B、LLava-v1.5-13B和Qwen2.5-VL模型上对诺贝尔物理奖知识注入任务的案例比较。图中列出了各方法的回答及对应的CEM和F1分数,突出显示了KORE方法的优越性能。

图 11:新闻案例研究。 如图所示,针对“2024 年诺贝尔物理学奖”这一新知识,KORE 能够准确回答相关问题,例如获奖者、贡献领域、重要性等,并清晰地将获奖者与各自的贡献领域相匹配,同时保留了其作为 LLaVA 模型原有的视觉描述能力(例如,正确识别图像中的人物)。而其他方法,如 LoRAReplayFull-FT,在回答准确性、完整性或保留旧能力方面均有不足,例如可能出现信息混淆、错误识别或回答不相关。

下图(原文 Figure 12)展示了实体知识注入的案例研究:

Figure 12: Case Study of Entity. 该图像是论文KORE中的图表,展示了不同模型与方法在注入和保留汽车生产限制知识上的表现对比。图中以Bugatti Tourbillon产量为例,明确显示KORE在各种模型中准确回答且保留旧知识效果最佳。

图 12:实体案例研究。 针对“Bugatti Tourbillon 生产限制”这一新知识,KORE 能够准确识别图像中的实体(布加迪 Tourbillon),并正确回答其生产数量限制、发布年份等具体信息,同时保留了基础模型的视觉识别能力。其他基线方法则可能出现幻觉、混淆信息或无法提供准确细节,例如将布加迪 Tourbillon 与其他车型混淆,或无法回答其限量生产的细节。这再次印证了 KORE 在新知识注入和旧知识保留方面的优势。

6.2. 消融实验/参数分析

论文通过一系列消融实验和参数分析来验证 KORE 各个组件的有效性和超参数的影响。

  1. Rank 对 KORE 性能的影响 (原文 Table 15, Table 16, Table 17):

    • 总体性能: KORE 的性能(包括知识适应和知识保留)随着 rank 和可训练参数的增加而呈现一致的上升趋势。例如,从 rank=64rank=64rank=256rank=256KORE 的平均分从 31.81 提升到 39.11。
    • 参数效率: 即使在较低的 rank(例如 rank=64rank=64,其参数量不到 Replay 的一半)下,KORE 仍然在平均分上超过 Replay,表明其参数效率很高。
    • 知识保留: 较大的可训练参数规模(如 rank=256rank=256)激活了 KORE 更强的知识保留能力,在 12 个基准测试中几乎全面优于 rank=235rank=235,整体性能提升 2.10。
    • 知识适应: 较大的可训练参数也提升了 KORE 在细粒度新闻和实体类型上的知识适应性能,展现出更强的泛化能力。
    • 结论: 增加可训练参数量可以进一步增强 KORE 的性能,尤其是在 INSM-IDU 等任务上。
  2. KORE 各组件的贡献 (原文 Table 5, Table 18, Table 19):

    • W/o Augmentation (去除增强模块): 对知识适应 (CEMF1-Score) 造成了最显著的损害,平均分下降 10.86。这有力地证明了 KORE-AUGMENTATION 在确保模型准确学习和内化新知识方面的核心作用。有趣的是,其在一些知识保留任务(如 COM)上表现略好,这可能是因为未进行增强导致新知识学习不足,从而对旧知识的干扰也相应减少。
    • W/o Constraint (去除约束模块): 导致知识保留和整体性能下降(平均分下降 0.63)。虽然其知识适应性能在细粒度新闻和实体类型上表现优异,这归因于 KORE-AUGMENTATION 的强大作用,但缺乏约束机制使其在知识保留上受损。
    • W/o Frozen Matrix A (去除冻结矩阵 A 的步骤): 导致知识保留和整体性能的轻微下降(平均分下降 0.14)。这证实了冻结 AA 矩阵在确保 AC0AC \approx \mathbf{0},从而保护旧知识方面的有效性。
    • 结论: KORE 的每个组件都对其整体性能做出了积极贡献,尤其是 KORE-AUGMENTATION 对于知识适应至关重要,而 KORE-CONSTRAINT(包括零空间投影和冻结 AA 矩阵)对于知识保留至关重要。
  3. 与通用增强方法的比较 (原文 Table 6, Table 20, Table 21):

    • KORE-AUGMENTATION 在所有知识适应和知识保留指标上均显著优于通用文本和图像增强方法。
    • 在知识适应方面,KORE-AUGMENTATION 比最好的通用增强方法(知识感知文本增强)的 K.A 提升了 18.53。
    • 在知识保留方面,KORE-AUGMENTATION 比最好的通用增强方法(知识无关文本增强)的 K.R 提升了 0.75。
    • 结论: 这种比较验证了 KORE-AUGMENTATION 的深度和结构化方法在帮助模型内化新知识方面的卓越性,远超表面化、离散的通用增强。

6.3. 协方差矩阵分析的详细结果 (附录 D.1, D.2)

  • 样本数量影响: 即使使用少量样本(如 32 个)来构建协方差矩阵,CO-SVD 仍然显著优于 Plain SVDASVD。这意味着少量的代表性样本足以捕获关键知识结构。
  • 任务特定知识捕获: CO-SVD 能够捕获数据集特定的知识。例如,用 MME 样本构建的 CO-SVDMME 任务上表现更好,而用 ScienceQA 样本构建的 CO-SVDScienceQA 任务上表现更好。这证实了协方差矩阵能够存储任务特定的结构特征,从而实现知识导向的约束。
  • 可视化验证: 协方差矩阵的热力图显示,来自相关任务(如 POPEHallusionBench,两者都评估幻觉)的输入激活在协方差矩阵中呈现相似的异常模式,而与不相关任务(如 MMBench)则不同。这直观地证明了激活的协方差矩阵能够表征所触发的任务,为 KORE-CONSTRAINT 的设计提供了经验支持。

7. 总结与思考

7.1. 结论总结

本文提出了 KORE,一种用于大型多模态模型 (LMMs) 知识注入的协同方法,旨在解决新知识适应和旧知识保留之间的核心权衡问题。KORE 的核心贡献在于其双管齐下的策略:

  1. 知识导向增强 (KORE-AUGMENTATION): 自动将单个知识项转化为结构化且全面的多轮对话和指令任务数据,构建深层次的“知识树”,确保模型能够准确学习、泛化和内化新知识,从而实现精确的知识适应。

  2. 知识导向约束 (KORE-CONSTRAINT): 将先前知识存储在 LMM 线性层激活的协方差矩阵中,并通过将原始权重投影到该矩阵的零空间来初始化适配器。这种方法定义了一个最小化对先前知识干扰的微调方向,从而实现了强大的知识保留。

    实验结果表明,KORELLaVA-v1.5Qwen2.5-VL 等多种 LMM 架构和规模上均展现出卓越的知识注入性能。它不仅能够有效注入新知识,显著优于现有基线方法,还能有效缓解灾难性遗忘。此外,KORE 具有高度的灵活性,能够实现特定的知识导向约束,以根据具体需求增强特定知识的保留。

总而言之,KORE 提供了一个强大、架构无关、可扩展且灵活的解决方案,显著推动了 LMMs 持续知识获取和管理领域的发展。

7.2. 局限性与未来工作

论文作者也指出了 KORE 存在的局限性,并提出了未来的研究方向:

  1. GPT-4o 依赖与幻觉风险: KORE-AUGMENTATION 的构建过程依赖于 GPT-4o 来生成对话和摘要等内容。这引入了潜在的幻觉 (hallucinations) 风险,即 GPT-4o 可能生成不准确或虚假的信息。

  2. 知识单元增强的局限性: 当前的增强机制仅限于增强单个知识单元 (individual knowledge units)

  3. 协方差矩阵提取的计算成本: 从所有线性层中提取协方差矩阵在计算上是昂贵的。

    针对这些局限性,作者提出了以下未来工作方向:

  4. 更结构化的增强: 探索更复杂的增强方法,例如利用知识图谱 (knowledge graphs)知识森林 (knowledge forest) (Ji et al., 2021; Chen et al., 2020) 来构建更丰富的知识结构,并可能结合强化学习 (reinforcement learning) 来优化增强策略。

  5. 资源消耗优化: 通过识别对于协方差计算最关键的层来减少资源消耗,从而降低计算负担。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 权衡思想的精妙之处: KORE 最具启发性的地方在于其对知识注入中“适应”与“保留”这一双重权衡的深刻理解和巧妙平衡。它没有试图用单一方法解决两个问题,而是针对性地设计了两个协同模块,一个专注于高效学习新知识(增强),另一个专注于有效保护旧知识(约束),这种分而治之再合而为一的思路非常值得借鉴。
  • 知识结构化的重要性: KORE-AUGMENTATION 强调将离散知识转化为结构化的“知识树”而非简单的表面增强,这揭示了模型深层次理解和泛化知识的关键。这对于数据增强领域的未来发展具有指导意义,即从量的增加转向质的提升和结构化。
  • 零空间投影的数学优雅: KORE-CONSTRAINT 利用协方差矩阵的零空间来指导微调方向,从数学原理上保证了对旧知识的最小干扰,这在参数高效微调和持续学习中提供了一个优雅且理论支撑更强的解决方案。它将激活模式的统计特性与模型参数更新方向巧妙结合,为如何“锁定”或“保护”模型中的特定能力提供了新思路。
  • 多模态领域的普适性: 论文在多种 LMM 上的验证表明,其方法具有良好的架构无关性和可扩展性,这对于多模态 AI 的发展至关重要,意味着该方法可能适用于更广泛的多模态任务和模型。

7.3.2. 批判

  • GPT-4o 的依赖性问题: 尽管论文承认 GPT-4o 引入的幻觉风险,但其 KORE-AUGMENTATION 模块对大型商业 LLM 的重度依赖是一个潜在的弱点。这不仅增加了成本,也使得整个流程的可控性和透明度降低。如果 GPT-4o 发生变化或出现服务不可用,KORE 的数据生成将受到影响。未来研究应探索更自主、更可控的结构化知识增强方法,或在 GPT-4o 的输出上增加严格的验证机制。
  • “知识”的定义与捕获: 论文将协方差矩阵视为“存储”旧知识的载体。然而,“知识”是一个复杂的概念,是否所有类型的知识都能被激活的协方差矩阵充分捕获,以及这种捕获的粒度如何,仍值得深入探讨。例如,高层次的语义知识或推理能力,是否能仅仅通过线性层激活的二阶统计量来完全代表和保护?这可能需要对“知识”在神经网络中的表示形式有更深入的理论理解。
  • 计算成本与可扩展性: 尽管 KORE 实现了参数高效微调,但从所有线性层中提取协方差矩阵仍然是计算密集型的操作。虽然作者提到了未来将识别关键层,但在大规模模型和持续学习场景下,如何高效管理和更新这些协方差矩阵,仍是一个实际挑战。
  • 零空间近似的有效性: 零空间的近似(通过与最小奇异值相关的 rr 个奇异向量)的精度如何影响保留效果?当真实协方差矩阵是稀疏的或具有非常复杂的结构时,这种近似是否始终有效?这可能需要对不同任务和模型中的协方差结构进行更系统的实证分析。
  • 特定知识约束的泛化: 虽然特定知识约束能提升目标知识的保留,但这种约束的通用性如何?它是否会无意中损害其他非目标但同样重要的旧知识?如何在多个特定知识约束之间进行协调,以避免新的冲突,是值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。