GraphGPT: Graph Instruction Tuning for Large Language Models
TL;DR 精炼摘要
本研究提出GraphGPT,通过图指令调优将大型语言模型与图结构知识结合,设计文本-图结构连接和轻量级对齐投射器,实现了对复杂图结构的理解与泛化。该方法显著提升了模型在零样本和监督图学习任务中的性能,优于传统图神经网络。
摘要
Graph Neural Networks (GNNs) have evolved to understand graph structures through recursive exchanges and aggregations among nodes. To enhance robustness, self-supervised learning (SSL) has become a vital tool for data augmentation. Traditional methods often depend on fine-tuning with task-specific labels, limiting their effectiveness when labeled data is scarce. Our research tackles this by advancing graph model generalization in zero-shot learning environments. Inspired by the success of large language models (LLMs), we aim to create a graph-oriented LLM capable of exceptional generalization across various datasets and tasks without relying on downstream graph data. We introduce the GraphGPT framework, which integrates LLMs with graph structural knowledge through graph instruction tuning. This framework includes a text-graph grounding component to link textual and graph structures and a dual-stage instruction tuning approach with a lightweight graph-text alignment projector. These innovations allow LLMs to comprehend complex graph structures and enhance adaptability across diverse datasets and tasks. Our framework demonstrates superior generalization in both supervised and zero-shot graph learning tasks, surpassing existing benchmarks. The open-sourced model implementation of our GraphGPT is available at https://github.com/HKUDS/GraphGPT.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
GraphGPT: Graph Instruction Tuning for Large Language Models
1.2. 作者
论文作者包括:
-
Jiabin Tang (香港大学)
-
Yuhao Yang (香港大学)
-
Wei Wei (香港大学)
-
Lei Shi (百度)
-
Lixin Su (百度)
-
Suqi Cheng (百度)
-
Dawei Yin (百度)
-
Chao Huang (香港大学)
主要作者隶属于香港大学,并有来自百度公司的研究人员参与,表明这项研究是学术界与工业界合作的成果。
1.3. 发表期刊/会议
该论文发布在 CoRR abs/2310.13023,是一个预印本服务器 arXiv 上的研究论文。arXiv 在学术界具有很高的影响力,是研究人员分享最新研究成果的重要平台。
1.4. 发表年份
2023年 (具体发布时间为 2023-10-19T06:17:46.000Z)。
1.5. 摘要
图神经网络 (GNNs) 通过节点间的递归信息交换和聚合来理解图结构。为了增强模型的鲁棒性,自监督学习 (SSL) 已成为数据增强的关键工具。然而,传统方法通常依赖于特定任务标签的微调 (fine-tuning),这限制了它们在标注数据稀缺时的有效性。本研究旨在通过在零样本学习 (zero-shot learning) 环境中提升图模型的泛化能力来解决这一挑战。受大型语言模型 (LLMs) 成功的启发,作者旨在创建一个面向图的 LLM,使其能够在不依赖下游图数据的情况下,在各种数据集和任务中表现出卓越的泛化能力。为此,论文提出了 GraphGPT 框架,该框架通过图指令调优 (graph instruction tuning) 将 LLMs 与图结构知识相结合。该框架包含一个 文本-图结构连接组件 (text-graph grounding component) 用于连接文本和图结构,以及一个带有 轻量级图-文本对齐投射器 (lightweight graph-text alignment projector) 的双阶段指令调优方法。这些创新使得 LLMs 能够理解复杂的图结构,并增强了在不同数据集和任务中的适应性。实验结果表明,GraphGPT 在监督学习 (supervised learning) 和零样本图学习 (zero-shot graph learning) 任务中均展现出卓越的泛化能力,超越了现有基线。
1.6. 原文链接
- 论文原文链接: https://arxiv.org/abs/2310.13023
- PDF 链接: https://arxiv.org/pdf/2310.13023v3.pdf
该论文目前作为预印本在
arXiv上公开。
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 现有的图神经网络 (GNNs) 在处理图结构数据时,虽然能有效捕获结构信息和依赖关系,但普遍存在一个核心限制:它们严重依赖于下游任务的特定标签进行微调。当这些标签数据稀缺、质量不高,或者在面对全新的、未见过的图数据和任务时(即零样本学习 (zero-shot learning) 场景),GNNs 的鲁棒性和泛化能力会大幅下降。这在实际应用中构成了重大障碍,例如冷启动推荐系统或新城市的交通流量预测,这些场景往往难以获取充足的标注数据。
为什么这个问题在当前领域是重要的: 随着现实世界中复杂图结构数据的日益增长,以及对模型通用性需求的提升,如何让图模型具备像大型语言模型 (LLMs) 在自然语言处理 (NLP) 领域那样卓越的泛化能力,成为一个紧迫而重要的问题。LLMs 通过大规模预训练和指令调优 (instruction tuning) 展现出惊人的零样本和少样本 (few-shot) 性能,这为图领域带来了启发,即是否存在一种方法能够让图模型也能脱离对大量下游标注数据的依赖。
现有研究存在哪些具体的挑战或空白(Gap):
- GNNs 对标签的依赖: 尽管自监督学习 (SSL) 提高了 GNNs 的鲁棒性,但其预训练的模型在应用于下游任务时,通常仍需特定标签进行微调,这限制了其在零样本场景下的泛化能力。
- LLMs 在图领域的应用挑战: LLMs 虽然泛化能力强,但它们原生设计是处理序列化的文本数据。如何有效地将非结构化的图信息,尤其是其复杂的结构上下文,注入到 LLMs 中,并使其能够理解和推理,是一个巨大的挑战。直接将图信息转换为文本(
text-based structural prompts)会导致token数量激增,增加计算成本并受token长度限制,且 LLMs 难以从纯文本中深入理解图的内在结构。 - 图结构与语言空间的对齐: 实现图的结构信息与语言空间之间的正确对齐,以及有效引导 LLMs 理解图的结构信息,是当前研究的空白。
这篇论文的切入点或创新思路: 受 LLMs 成功的启发,论文提出通过将 LLMs 与图结构知识相结合,构建一个面向图的 LLM。核心思路是利用指令调优范式,让 LLM 学习理解图结构,并在零样本环境下展现出强大的泛化能力。
2.2. 核心贡献/主要发现
论文最主要的贡献:
- 提出
GraphGPT框架: 首次提出了一个将大型语言模型 (LLMs) 与图结构知识对齐的全面框架,通过图指令调优 (graph instruction tuning) 范式,使其能够在零样本学习 (zero-shot learning) 环境中具备卓越的泛化能力。 - 创新性
文本-图结构连接 (Text-Graph Grounding)范式: 提出了将图结构编码与自然语言空间对齐的机制,通过对比学习的方式将文本信息融入图结构编码过程,有效连接了文本和图结构。 - 双阶段指令调优 (Dual-Stage Instruction Tuning):
- 自监督指令调优 (Self-Supervised Instruction Tuning): 利用无标注图结构派生的自监督信号(例如结构感知图匹配任务)作为指令,引导语言模型获取图领域特定的结构知识。
- 任务特定指令调优 (Task-Specific Instruction Tuning): 进一步通过特定任务的图指令微调 LLM,以增强模型在不同下游图学习任务中的适应性。
- 轻量级图-文本对齐投射器 (Lightweight Graph-Text Alignment Projector): 设计了一个轻量级的投射器,在训练过程中只优化其参数,而保持 LLM 和图编码器参数冻结,极大地提高了训练效率和可扩展性,并有效实现了图
token与语言token的对齐。 - 融合
思维链蒸馏 (Chain-of-Thought, COT Distillation): 引入COT蒸馏技术,通过从强大的闭源 LLM (如GPT-3.5) 中提取高质量的COT指令,增强GraphGPT的逐步推理能力,尤其是在应对分布偏移 (distribution shift) 和复杂任务时。
论文得出了哪些关键的结论或发现:
- 卓越的泛化能力:
GraphGPT在监督学习 (supervised learning) 和零样本图学习 (zero-shot graph learning) 任务中均超越了现有最先进的基线模型,在零样本图学习场景下,准确率甚至提升了2-10倍。 - 结构感知图匹配的益处: 自监督指令调优的第一阶段对于模型的零样本迁移能力至关重要,它帮助模型深入理解图的内在结构特征。
COT蒸馏的有效性:COT蒸馏显著提升了模型在复杂图学习任务(如多分类的 Cora 数据集)上的性能,弥补了模型在处理分布偏移时的不足。- 高效的训练与推理: 通过冻结 LLM 和图编码器,仅微调轻量级投射器,
GraphGPT大幅减少了训练参数量(约50倍),避免了内存溢出 (OOM),并提高了推理效率,同时保持了高准确率。 - 图
token效率: 与基于文本的图结构提示方法相比,使用图token表示图结构更为高效,显著减少了token消耗和计算资源需求。 - 抵抗灾难性遗忘 (Catastrophic Forgetting):
GraphGPT通过其统一的图指令调优范式,有效缓解了传统 GNNs 在迭代训练或整合更多数据时容易出现的灾难性遗忘问题,反而能通过更多数据增强性能。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 图神经网络 (Graph Neural Networks, GNNs)
概念定义: 图神经网络是一类专门处理图结构数据的深度学习模型。与传统的神经网络(如卷积神经网络处理图像,循环神经网络处理序列)不同,GNNs 能够捕捉图中节点之间复杂的连接关系和结构信息。它们通过在图上执行消息传递 (message passing) 和聚合 (aggregation) 操作,迭代地更新节点的特征表示,从而学习到节点、边或整个图的有效嵌入 (embedding)。
数学形式: GNN 的核心思想是通过相邻节点的信息传递和聚合来更新当前节点的表示。对于节点 在第 层的特征向量 ,其更新过程通常可以概括为: 符号解释:
-
: 节点 在第 层接收到的来自邻居节点的消息。
-
: 一个传播函数,用于从节点 的邻居
N(v)的前一层特征中汇聚信息。 -
: 邻居节点 在第
l-1层的特征向量。 -
N(v): 节点 的邻居节点集合。 -
: 节点 在第 层的更新后的特征向量。
-
: 一个聚合函数,将节点 自身前一层的特征 和其接收到的消息 结合起来,生成新的特征表示。
图的表示: 一个图通常表示为 :
-
: 节点集合 (nodes)。
-
: 边集合 (edges),表示节点间的关系。
-
: 邻接矩阵 (adjacency matrix),编码图的拓扑结构,其中 是节点数量。 表示节点 和 之间是否存在边。
-
: 特征矩阵 (feature matrix),包含每个节点的属性或特征信息,其中 是特征维度。
3.1.2. 自监督学习 (Self-Supervised Learning, SSL)
概念定义: 自监督学习是一种机器学习范式,它通过设计辅助任务(pretext tasks)从大量无标注数据中自动生成监督信号,从而学习到有用的特征表示。这些辅助任务通常利用数据自身的结构或内在关联性来构造。在图领域,SSL 旨在预训练一个鲁棒的图模型,使其能够在没有下游任务标签的情况下学习到高质量的图表示,提高模型的泛化能力。
分类:
- 对比自监督学习 (Contrastive SSL): 通过最大化“正样本对”(例如,同一图的不同增强视图)的相似性,同时最小化“负样本对”(例如,不同图的视图)的相似性来学习表示。
- 生成式自监督学习 (Generative SSL): 通过重建被掩盖 (masked) 或损坏的图部分(例如,节点特征、边)来学习表示,其目标是生成与原始图结构相似的样本。
3.1.3. 大型语言模型 (Large Language Models, LLMs)
概念定义: 大型语言模型是基于深度学习(特别是 Transformer 架构)的神经网络模型,通过在海量文本数据上进行预训练 (pre-training),学习语言的统计规律、语法、语义和世界知识。它们通常拥有数亿到数千亿个参数,展现出强大的文本生成、理解、推理和泛化能力,能够执行多种自然语言处理 (NLP) 任务,包括问答、翻译、摘要、代码生成等。
3.1.4. 指令调优 (Instruction Tuning)
概念定义: 指令调优是一种微调 (fine-tuning) 策略,旨在通过在大量任务描述(指令)和对应输出对上训练语言模型,使其更好地遵循自然语言指令。这使得模型能够理解并执行各种从未直接训练过的任务,从而提升其零样本 (zero-shot) 和少样本 (few-shot) 泛化能力,使其更具通用性和可控性。
3.1.5. 零样本学习 (Zero-shot Learning)
概念定义: 零样本学习是指模型在训练时没有见过某个类别的任何样本,但在推理时仍然能够识别或处理该类别。在图领域,这意味着模型在一个图数据集上训练后,可以直接应用于完全不同的、未曾见过的图数据集或任务,而无需任何额外的微调或标签信息,这对于解决数据稀缺问题具有重要意义。
3.2. 前人工作
3.2.1. 图神经网络架构
论文提及了多种 GNN 架构,这些模型通过不同的信息交换和聚合机制来处理图数据:
- 图卷积网络 (GCNs) [17, 22]: 首次将卷积操作适配到图结构上,通过聚合邻居节点信息来更新节点特征。
- 图注意力网络 (GATs) [39, 43]: 引入注意力机制,允许模型为不同的邻居节点分配不同的权重,从而实现更精细的信息聚合。
- 图 Transformer 网络 (GTNs) [14, 60]: 将 Transformer 的自注意力 (self-attention) 和位置编码 (positional encoding) 机制引入图领域,以捕捉全局依赖和结构模式。
- GraphSAGE [7]: 提出一种归纳式 (inductive) 学习框架,通过采样和聚合邻居节点特征来生成节点嵌入,能够泛化到未见过的图。
- RevGNN [21]: 旨在解决深度 GNN 训练中的梯度消失/爆炸问题,通过可逆设计使得可以构建更深的 GNN 层。
- NodeFormer [51], DIFFormer [50]: 都是近年来提出的强大的图 Transformer 网络,在节点分类等任务上表现出色。
3.2.2. 图自监督学习 (SSL-enhanced Graph Learning)
为了增强 GNN 的泛化能力,SSL 发展出两种主要范式:
- 对比 SSL (Contrastive SSL):
- DGI [40]: 通过最大化节点嵌入与其全局图表示之间的互信息来学习表示。
- GCA [67]: 引入自适应增强,生成多样化的图视图进行对比学习。
- 其他:GraphCL [59] (利用多种数据增强进行对比学习), JOAO [58] (自动化对比增强), DSGC [56] (双空间对比), gCooL [20] (社区感知对比学习)。
- 生成式 SSL (Generative SSL):
- GraphMAE [11]: 借鉴掩码自编码器 (Masked Autoencoders) 的思想,通过重建被掩盖的节点特征来学习表示。
- S2GAE [35]: 自监督图自编码器,通过图掩码 (graph masking) 学习可泛化的表示。
- 其他:AutoCF [53] (用于推荐的自动化自监督学习)。
3.2.3. 图的提示学习 (Prompt-Tuning for Graphs)
- GPPT [33]: 一种迁移学习范式,GNN 在掩码边预测任务上预训练,然后通过
token对进行下游节点分类的提示。 - GraphPrompt [26]: 将预训练和下游任务集成到统一的任务模板中。
- Sun et al. [34]: 提出了统一的提示格式,将任务重构到图级别,并结合元学习 (meta-learning) 提升多任务性能。 局限性: 尽管这些方法有所进展,但它们通常仍需要下游任务的监督标签进行微调,限制了在零样本场景下的应用。
3.2.4. 大型语言模型 (LLMs)
- 基础 LLMs: ChatGPT [29], Claude [1], Llama [36, 37], ChatGLM [62], Baichuan [54]。
- 增强 LLM 能力的技术:
- 上下文学习 (In-Context Learning) [28]: 通过在提示 (prompt) 中提供少量示例,引导 LLM 完成任务。
- 思维链 (Chain-of-Thought, CoT) [47, 57]: 通过引导 LLM 生成逐步的推理过程,提高其复杂推理能力。
- RLAIF (Reinforcement Learning from AI Feedback) [19]: 从 AI 反馈中进行强化学习,对齐 LLM 的行为。
- Self-Instruct [45]: 利用 LLM 自身生成指令数据来微调模型,提升指令遵循能力。
3.2.5. LLMs 与图结构对齐的挑战
尽管 LLMs 在文本领域取得了巨大成功,并且出现了多模态 LLMs [23, 66] 成功对齐视觉信息,但 LLMs 与图结构的对齐仍然是一个未充分探索的领域。之前的研究 [2, 5] 尝试使用自然语言将图信息融入 LLMs,但在处理复杂图结构和实现深度理解方面面临挑战,因为它们过度依赖基于文本的提示。
3.3. 技术演进
图学习领域经历了从早期的图嵌入 (Graph Embedding) 方法,到基于消息传递机制的 GNNs 的兴起,再到引入自监督学习 (SSL) 来增强模型鲁棒性和泛化能力的演进。SSL 使得 GNNs 能够从无标注数据中学习,减轻了对大量标签的依赖,但多数 SSL 预训练的模型仍需要在下游任务上进行微调。
同时,在自然语言处理 (NLP) 领域,LLMs 凭借其大规模预训练和指令调优 (instruction tuning) 的能力,展现出强大的零样本和少样本泛化能力。将 LLMs 的这种泛化能力引入图领域,以克服 GNNs 对特定任务标签的依赖,成为了一个新的研究方向。
本文的工作正处于这一技术演进的交汇点。它旨在结合 GNNs 处理图结构数据的优势和 LLMs 的卓越泛化能力,通过创新的 图指令调优 (graph instruction tuning) 范式,解决图模型在零样本场景下的泛化瓶颈。
3.4. 差异化分析
本文 GraphGPT 与现有工作的主要区别和创新点在于:
-
与传统 GNNs 的区别:
- 泛化能力: 传统 GNNs (包括 SSL-增强型 GNNs,如 DGI, GraphMAE 等) 虽然在特定任务上表现良好,但通常需要对下游任务的标签进行微调,泛化到未见过的数据集或零样本场景时性能会急剧下降。
GraphGPT旨在实现无需下游标签的零样本泛化。 - 结构理解深度: GNNs 主要通过消息传递和聚合来学习局部结构信息。
GraphGPT通过将图结构信息与 LLM 的强大语言理解和推理能力结合,期望实现对图结构更深层次、更语义化的理解。
- 泛化能力: 传统 GNNs (包括 SSL-增强型 GNNs,如 DGI, GraphMAE 等) 虽然在特定任务上表现良好,但通常需要对下游任务的标签进行微调,泛化到未见过的数据集或零样本场景时性能会急剧下降。
-
与图提示学习 (Graph Prompting) 的区别:
- 对标签的依赖: GPPT, GraphPrompt 等方法虽然引入了提示学习,但它们通常仍需要下游任务的监督标签来指导学习。
GraphGPT的目标是完全消除对下游任务标签的依赖,实现真正的零样本图学习。 - 图信息表示: 传统图提示学习可能直接将图信息编码为 GNN 的输入,或者通过文本化的方式提示 LLM。
GraphGPT引入了文本-图结构连接 (text-graph grounding)和轻量级对齐投射器 (lightweight alignment projector),更有效地将图token与语言token对齐,并通过图指令调优 (graph instruction tuning)直接引导 LLM 理解图结构。
- 对标签的依赖: GPPT, GraphPrompt 等方法虽然引入了提示学习,但它们通常仍需要下游任务的监督标签来指导学习。
-
与 LLMs-Graph 结合的早期尝试的区别:
-
处理复杂图结构: 早期尝试 [2, 5] 可能主要依赖于将图信息转换为纯文本提示来输入 LLM。这种方法在处理复杂或大规模图结构时效率低下,
token数量激增,且 LLM 难以从纯文本中捕获深层结构语义。GraphGPT通过图指令调优和图-文本对齐投射器,直接将结构信息有效地注入 LLM,避免了这些问题,实现了对复杂图结构的更深层理解。 -
效率与可扩展性: 之前的尝试可能需要微调整个 LLM,导致高昂的计算成本。
GraphGPT通过冻结 LLM 和图编码器,仅微调一个轻量级投射器,显著提高了训练效率和可扩展性。 -
推理能力:
GraphGPT引入思维链蒸馏 (COT distillation),增强了 LLM 的逐步推理能力,这在处理复杂图学习任务和应对分布偏移时至关重要,是早期尝试中较少考虑的方面。综上,
GraphGPT的核心创新在于提供了一个更为全面、高效且在零样本场景下泛化能力更强的框架,有效桥接了 LLM 的泛化能力与 GNN 处理图结构数据的特长。
-
4. 方法论
本节将详细阐述 GraphGPT 框架的核心方法,包括其结构信息编码、双阶段图指令调优和思维链蒸馏。
4.1. 结构信息编码与文本-图结构连接 (Structural Information Encoding with Text-Graph Grounding)
为了增强大型语言模型 (LLMs) 对图结构信息的理解,GraphGPT 框架首先致力于将图结构编码与自然语言空间对齐。这种对齐使得语言模型能够利用其强大的语言理解能力来有效地解释图的结构元素。为此,作者引入了一个 文本-图结构连接 (text-graph grounding) 范式,该范式能够生成保留图结构上下文的提示 (prompt) 给语言模型。这个范式充当了连接文本信息的语义理解与图内在结构关系之间的桥梁。
4.1.1. 图编码器 (Graph Encoder)
在 GraphGPT 中,图编码器 (graph encoder) 被设计为高度灵活的,可以利用各种图预训练范式中的 GNN 骨干网络。论文中采用了一种消息传递神经网络 (message-passing neural network) 架构,可以是图 Transformer [60] 或图卷积网络 (GCN) [17],作为结构层面的预训练图模型。在每个消息传递步骤中,图编码器会聚合来自邻居节点的信息,同时考虑它们之间的关系。
图编码器的消息传递过程可以用以下公式表示: 符号解释:
- : 第 层的图表示矩阵,其中 是节点数, 是特征维度。每行代表一个节点的特征向量。
- : 非线性激活函数(例如
ReLU)。 - : 带有自环的邻接矩阵 (self-loop adjacency matrix)。它通过将单位矩阵 加到原始邻接矩阵 上得到,即 。这确保了在聚合邻居信息时,节点也能聚合自身的信息。
- : 第
l-1层的图表示矩阵,作为当前层的输入。 - : 可学习的参数矩阵(权重矩阵),用于特征变换,其中 是输出特征维度。
4.1.2. 文本-结构对齐 (Text-Structure Alignment)
为了增强图结构信息与大型语言模型 (LLMs) 的对齐,本文关注探索能够与 LLMs 无缝协作的有效编码方法。借鉴先前的工作 [30, 49],论文通过将文本信息整合到图结构编码过程中,采用了对比学习 (contrastive approach)。一个预训练的图编码器被直接集成到 GraphGPT 框架中,以充分利用其能力。
形式上,给定一个图 ,其中包含 个节点的原始文本内容 (, 为第 个节点的文本长度, 为文本嵌入维度),我们可以获得编码后的图表示 和编码后的文本表示 ,如下所示: 符号解释:
-
: 经过图编码器 处理后得到的图表示。
-
: 图编码器,用于从输入图 生成结构层面的图表示。
-
: 图的节点特征矩阵。
-
: 经过文本编码器 处理后得到的文本表示。
-
: 文本编码器(例如 Transformer 或 BERT),用于编码与节点关联的原始文本内容 。
-
: 节点的原始文本内容。
-
: 对图表示 进行行归一化 (row-wise normalization) 后的结果。
-
: 对文本表示 进行行归一化后的结果。
-
: 归一化函数,通常是 L2 归一化。
不同模态间的文本-结构对齐通过以下公式进行: 其中,, 是节点数量。
符号解释:
-
: 用于计算对比损失的相似度矩阵。
-
: 归一化图表示矩阵 的转置。
-
: 归一化文本表示矩阵 的转置。
-
: 一个可学习的温度参数 (temperature parameter) 的指数形式,通常用于缩放相似度以影响对比学习的难度。
-
: 邻居节点文本表示的平均值。对于每个节点 , 是其邻居节点 的归一化文本表示 的平均。这捕获了局部上下文的文本信息。
-
: 节点 的邻居数量。
-
: 总体对比损失函数。
-
: 交叉熵损失函数 (Cross-Entropy loss)。
-
EPY : 用于对比对齐目标的标签向量。这里
EPY可能是指一个生成对角线为1的独热编码矩阵的函数,使得每个节点与其自身(或其对应文本)的相似度被最大化,而与其他节点的相似度被最小化。在对比学习中,这通常表示一个单位矩阵,即希望 与 对齐。 -
: 各项损失的权重系数。
在文本-图结构连接阶段,论文使用图 Transformer [61] 作为图编码器,而一个 vanilla Transformer [38] 作为文本编码器。
下图(原文 Figure 3)展示了文本属性与图结构信息的对齐工作流程:
该图像是一个示意图,展示了文本属性与图结构信息的对齐工作流程。图中分别通过GNN处理图结构,通过Transformer处理文本属性,最终对两者进行融合对齐。
4.2. 双阶段图指令调优 (Dual-Stage Graph Instruction Tuning)
本工作的双阶段图指令调优范式建立在指令调优 (instruction tuning) 的概念之上,旨在增强语言模型在特定领域的适应性。在这个范式中,目标是将模型的语言能力与图学习的细微之处对齐,使语言模型能够为图结构数据生成更准确和上下文适当的响应。
4.2.1. 自监督指令调优 (Self-Supervised Instruction Tuning)
在图指令调优的第一阶段,论文引入了自监督指令调优。该机制通过融入图领域特定的结构知识并有效理解图结构中的上下文信息,来增强语言模型的推理能力。具体而言,作者利用从无标注图结构中导出的自监督信号作为模型调优的指令。一个结构感知的图匹配任务被设计出来,它指导语言模型区分图 token 和语言 token。这项指令任务在准确地将图 token 与其对应的文本描述关联起来方面起着至关重要的作用,从而加深模型对图的理解。
指令设计 (Instruction Design): 图匹配任务的指令包含三个组成部分:
-
图信息 (Graph Information): 对于图中的每个节点,将其视为中心节点,并进行
h-hop随机邻居采样 (random neighbor sampling),从而得到一个子图结构。 -
人类问题 (Human Question): 作为 LLM 的自然语言输入。在图匹配任务中,指令包括指示符 和一个打乱顺序的节点文本信息列表。例如,在引文图 (citation graph) 中,节点文本信息对应于论文标题。
-
GraphGPT响应 (GraphGPTResponse): LLM 在图匹配任务中的目标是根据图token的顺序重新排序节点文本信息列表,从而将每个图token与其相关的文本描述关联起来。下图(原文 Figure 4 中的图匹配部分)展示了图匹配任务的指令设计:
Graph Information: <graph>: Central Node: 6844, Edge index: [src node., st node. Node list:]
Graph Matching 2. , please reorder the list of papers according to the order of graph tokens.
corresponds to smt based induction methods for timed systems. Graph token 2 corresponds to
(注:原文 Figure 4 包含三类指令示例,此处仅展示了图匹配的部分。GraphGPT 响应部分在原文示例中未完整展示,但描述其目标是重排列表。)
调优策略 (Tuning Strategy):
为了高效优化调优过程,论文提出了集成一个 轻量级对齐投射器 (Lightweight Alignment Projector)。在训练过程中,只优化投射器 的参数,而大型语言模型 (LLM) 和图编码器 (graph encoder) 的参数保持冻结。论文假设投射器成功地学习了将编码后的图表示映射到图 token,而 LLM 则擅长将这些 token 与各种节点文本信息对齐。为了将图 token 与语言 token 对齐,使用了一个投射器 ,它可以是一个简单的线性层。这个投射器建立了图 token 和语言 token 之间的对应关系。通过替换原始语言 token 序列中的指示符 ,对齐后的图 token 创建了一个修改后的 token 序列供 LLM 使用。这个修改后的序列表示为 ,其中 对应于给定提示所关联的图中的节点数量。由于图匹配过程是无监督的,这使得能够利用来自不同领域的大量无标注图数据来增强所学投射器的泛化能力。
数学上,对于投影后的图 token 和文本嵌入 tokenizer(instruction),一个长度为 的序列,生成目标输出 的概率计算如下:
符号解释:
- : 投影后的图
token,通过投射器 将图编码器的输出 映射得到。 - : 表示通过投射器 对图表示 进行处理。
- : 文本嵌入,通过
tokenizer处理指令文本得到。 - : 表示从
tokenizer得到的嵌入。 - : 输出序列的长度。
- : 在给定图
token和文本嵌入 的条件下,生成目标输出序列 的总概率。 - : 在给定图
token、部分文本嵌入 () 和部分已生成输出token() 的条件下,生成第 个输出token的概率。 - :
GraphGPT中可学习的参数,主要是指投射器的参数。
4.2.2. 任务特定指令调优 (Task-Specific Instruction Tuning)
在第二阶段,论文引入了任务特定指令调优,以针对不同的图学习任务(如节点分类 (node classification) 或链接预测 (link prediction))定制模型的推理行为。通过使用任务特定的图指令对 LLM 进行微调,模型被引导生成符合特定图学习任务约束和要求的响应。这增强了模型处理各种图学习任务的适应性和性能。
指令设计 (Instruction Design): 论文使用一个由三部分组成的统一指令模板。为了生成每个节点的图信息,采用与第一阶段相同的邻居采样方法,这确保了相关图信息的包含,其中每个节点都作为中心节点。对于节点分类任务,人类问题指令包含指示符 和关于中心节点的特定文本信息。该指令引导语言模型根据图结构数据和附带的文本信息预测中心节点的类别。原文 Figure 4 提供了不同任务的指令示例。
下图(原文 Figure 4)展示了任务特定指令设计示例:
Graph Information: <graph>: Central Node: , Edge index: [src node, [st node.], Node lis: [] Node Classification Question: Which arXiv cs sub-category does this paper belong to?
Graph Information: <graph Central Node: 81Edge index cnode [stnode Node ist :] Link Prediction <graph>: Central Node 2: 19368, Edge index 2: ([.src node..], [.st node.…], Node list 2: []
Humn Question:Given sequence graph tokens:raph>that constitute subgraph a citation raph, ... Abstract: … Titile: … and the other sequence of graph tokens:<graph>, Abstract: Title: are these two central nodes connected? Give me an answer of "yes" or "no". GraphGrr Response:Yes, they are connected. Based on the first paper, …. And the second paper proposes ….
(注:原文 Figure 4 包含三类指令示例,此处展示了节点分类和链接预测的部分。)
调优策略 (Tuning Strategy): 在第二阶段训练中,使用在自监督指令调优阶段训练的结构感知投射器 (structure-aware projector) 的参数作为初始状态。这使得可以针对下游任务进行专门的指令调优。在此训练过程中,大型语言模型 (LLM) 和图编码器 (graph encoder) 的参数保持固定,只专注于优化前一阶段投射器的参数。通过这样做,确保 LLM 进一步与下游任务的要求对齐,增强其理解和解释图结构的能力。
4.3. 思维链 (CoT) 蒸馏 (Chain-of-Thought (CoT) Distillation)
当面对多样化的图数据时,语言模型可能会遇到不熟悉的模式和结构,导致生成不准确或不连贯的响应。当不同类型图数据的节点类别数量不同时,这尤其会引起分布偏移 (distribution shift)。为了解决这一挑战并提高在分布偏移情况下的准确性,为 GraphGPT 配备逐步推理能力至关重要。因此,论文提出了融入思维链 (Chain-of-Thought, CoT) 技术 [47],该技术明确地建模思维流和推理步骤。通过利用 CoT,语言模型提高了生成文本的连贯性和一致性,使其能够遵循逻辑推理过程,增强对给定图数据的理解和推理能力。
由于模型参数规模的影响 [32],集成 CoT 技术可能具有挑战性。为了克服这一点,论文借鉴了先前研究 [32] 的启发,采用了蒸馏 (distillation) 方法。通过从一个闭源的、强大的语言模型(如 ChatGPT,拥有超过2000亿参数)中提取有价值的知识,可以生成高质量的 CoT 指令,并在不增加参数数量的情况下增强模型的 CoT 推理能力。
CoT 蒸馏范式 (CoT Distillation Paradigm):
论文的方法涉及为节点特定任务设计定制的 CoT 提示。对于引文图中的节点分类任务,输入包括摘要、论文标题和任务描述。使用 GPT3.5 语言模型,加入“请以逐步的方式思考分类 (Please think about the categorization in a step-by-step manner)”以启用逐步推理。通过进行序列思考,LLM 生成的输出包括节点类别的预测以及每个预测的详细解释。这确保了推理和决策的透明性和可理解性。为了进一步提高性能,将生成的 CoT 指令数据与先前为任务特定指令调优设计的指令进行整合。通过整合后的指令,继续执行所提出的指令调优范式。
下图(原文 Figure 2)展示了 GraphGPT 的整体架构图:
该图像是论文中图2,展示了GraphGPT整体架构及其图指令调优范式,包括结构信息编码、文本-图结构编码器、大语言模型、对齐投射器以及两阶段指令调优流程。
这张图清晰地展示了 GraphGPT 的主要组件和流程。Text-Graph Encoder 负责对文本和图结构信息进行编码和对齐。其输出经过 Lightweight Alignment Projector 投影后,与 LLM 的 Prompt (包含指令和人类问题) 结合,输入到 Large Language Model (LLM)。LLM 在 Dual-Stage Instruction Tuning (自监督指令调优和任务特定指令调优) 和 CoT Distillation 的指导下,生成 GraphGPT Response。整个过程旨在让 LLM 能够理解图结构并执行图学习任务。
5. 实验设置
5.1. 数据集
实验使用了三个公开可用的图数据集来评估 GraphGPT 的性能:
-
OGB-arxiv [12]:
- 来源与特点: 这是一个大型的引文网络图,代表了计算机科学领域
arXiv论文之间的引用关系,由MAG [41]索引。这是一个有向图。 - 规模与类别: 每篇论文都手动标注了一个研究类别,总共有40个主题领域。
- 用途: 用于节点分类任务,评估模型在较大且多类别图上的性能。
- 来源与特点: 这是一个大型的引文网络图,代表了计算机科学领域
-
PubMed [8]:
- 来源与特点: 包含来自
PubMed数据库的19,717篇关于糖尿病的科学出版物。同时包含一个包含44,338条链接的引文网络。 - 规模与类别: 文章被分为3个类别:实验诱导糖尿病、1型糖尿病和2型糖尿病。
- 用途: 用于节点分类和链接预测任务,评估模型在较小类别数量图上的性能。
- 来源与特点: 包含来自
-
Cora [49]:
-
来源与特点: 包含25,120篇通过引文连接的研究论文。本文使用的是其扩展版本。
-
规模与类别: 包含70个类别,比以前的版本 [17] 类别更多。
-
用途: 用于节点分类任务,评估模型在类别数量较多且粒度较细图上的性能。
特征处理: 为了在不同数据集之间进行比较,所有节点的特征都通过预训练的 BERT [3] 编码原始文本信息,映射到一个统一的向量空间中。
-
数据划分:
- Cora 和 PubMed: 按照 3:1:1 的比例划分训练集、验证集和测试集。
- OGB-arxiv: 遵循公开的划分设置 [12],训练集、验证集和测试集的比例为 6:2:3。
5.2. 评估指标
论文使用了针对节点分类和链接预测任务的常用评估指标。
5.2.1. 节点分类 (Node Classification)
-
准确率 (Accuracy)
- 概念定义: 准确率衡量的是模型正确预测的样本数量占总样本数量的比例。它直接反映了模型在所有类别上分类的正确程度。
- 数学公式:
- 符号解释:
TP(True Positives, 真阳性):实际为正例且被模型预测为正例的样本数量。TN(True Negatives, 真阴性):实际为负例且被模型预测为负例的样本数量。FP(False Positives, 假阳性):实际为负例但被模型预测为正例的样本数量。FN(False Negatives, 假阴性):实际为正例但被模型预测为负例的样本数量。
-
宏平均 F1 值 (Macro F1-score)
- 概念定义: F1 值是精确率 (Precision) 和召回率 (Recall) 的调和平均值,用于平衡两者。宏平均 F1 值是独立计算每个类别的 F1 值,然后取这些 F1 值的平均。这种方法给予所有类别相同的权重,无论其样本数量多少,因此在类别不平衡的数据集上能够更好地反映模型在所有类别上的整体性能。
- 数学公式:
首先,计算每个类别的精确率 和召回率 :
然后,计算每个类别的 F1 值
F1_i: 最后,计算宏平均 F1 值: - 符号解释:
- : 分别表示第 个类别的真阳性、假阳性、假阴性数量。
- (Precision, 精确率):对于第 个类别,模型预测为正例中实际为正例的比例。
- (Recall, 召回率):对于第 个类别,实际为正例中被模型预测为正例的比例。
F1_i: 第 个类别的 F1 值。- : 类别的总数量。
5.2.2. 链接预测 (Link Prediction)
-
曲线下面积 (AUC - Area Under the Receiver Operating Characteristic Curve)
- 概念定义: AUC 是接收者操作特征 (Receiver Operating Characteristic, ROC) 曲线下方的面积。ROC 曲线以真阳性率 (True Positive Rate, TPR,即召回率) 为纵轴,假阳性率 (False Positive Rate, FPR) 为横轴。AUC 值衡量了模型区分正负样本的能力,即随机选择一个正样本,其预测分数高于随机选择一个负样本的概率。AUC 越高表示模型性能越好。
- 数学公式: 或者,更一般地,AUC 可以定义为 ROC 曲线下的面积:
- 符号解释:
- : 第 个正样本的预测分数。
- : 第 个负样本的预测分数。
- : 指示函数,当括号内的条件为真时为1,否则为0。
- : 真阳性率。
- : 假阳性率。
- : 假阳性率为 时的阈值对应的 TPR。
-
平均精度 (AP - Average Precision)
- 概念定义: 平均精度是精确率-召回率 (Precision-Recall, PR) 曲线下方的面积。它通过在每个召回率点计算精确率,并对这些精确率进行加权平均来量化模型性能。AP 对于类别不平衡的数据集特别有用,因为它更关注模型在检索少量正样本时的性能。
- 数学公式:
- 符号解释:
- : 在第 个召回率阈值下的精确率。
- : 第 个召回率阈值。
- : 第
n-1个召回率阈值。 - 这个公式表示在 PR 曲线上,每个步骤的召回率变化 () 作为权重,乘以对应的精确率 。
5.3. 对比基线
论文为了进行全面的评估,考虑了各种最先进的方法作为性能比较的基线:
- 多层感知机 (MLP): 使用多层感知机来处理节点表示。这代表了不利用图结构信息的基线。
- 代表性图神经网络编码器 (Representative Graph Neural Encoders):
- GraphSAGE [7]: 一种归纳式图学习框架,通过采样和聚合邻居信息生成节点嵌入。
- GCN [17]: 图卷积网络,将卷积操作推广到图数据。
- GAT [39]: 图注意力网络,引入注意力机制以赋权不同的邻居。
- RevGNN [21]: 旨在解决深层 GNN 训练问题,支持构建更深的 GNN 模型。
- 自监督方法 (Self-Supervised Approach):
- DGI [40]: 图深度信息最大化,通过对比学习学习图表示。
- 知识蒸馏增强型 GNNs (Knowledge Distillation-enhanced GNNs):
- GKD [55]: 几何知识蒸馏,用于图神经网络的拓扑压缩。
- GLNN [63]: 无图神经网络,通过蒸馏技巧使传统 MLP 能够处理图任务。
- 强图 Transformer 网络 (Strong Graph Transformer Networks):
- NodeFormer [51]: 一种可扩展的图结构学习 Transformer,用于节点分类。
- DIFFormer [50]: 通过能量约束扩散引导的可扩展图 Transformer。
- 开源大型语言模型 (Open-sourced LLMs): 作为理解文本属性图数据的基线,这些模型仅依赖文本信息进行预测。
- Baichuan-7B [54]
- Vicuna-7B-v1.1
- Vicuna-7B-v1.5
5.4. 实现细节
- 实现框架: 主要使用
PyTorch和Transformers库。 - 基础 LLM: 采用
Vicuna-7B-v1.1和Vicuna-7B-v1.5作为基础大型语言模型。 - 超参数:
- 批处理大小 (Batch size):每块 GPU 为2。
- 学习率 (Learning rate):。
- 预热比率 (Warmup ratio):。
- LLM 最大输入长度 (Maximum input length):2048。
- 训练阶段:
- 第一阶段(自监督指令调优):训练过程运行3个
epoch。 - 第二阶段(任务特定指令调优):训练过程运行2个
epoch。
- 第一阶段(自监督指令调优):训练过程运行3个
- 参数初始化: 在自监督指令调优阶段微调得到的对齐投射器 (alignment projector) 参数,将作为第二阶段调优中投射器的初始参数。
- 指令数据组合: 在任务特定指令调优阶段,探索了各种指令数据组合,以评估模型在不同数据混合下的性能。
- 基线实现: 对于大多数基线模型,使用了它们公开可用的代码。
- 代码开放:
GraphGPT的模型实现已开源在https://github.com/HKUDS/GraphGPT。
6. 实验结果与分析
本节将详细分析 GraphGPT 在监督学习和零样本图学习任务中的表现,并深入探讨其泛化能力、各组件的贡献以及模型效率。
6.1. 整体性能对比 (RQ1)
论文在节点分类任务上进行了实验,包括监督学习和零样本学习场景。监督学习场景指模型在特定数据集上训练并在对应的测试集上评估(例如,在 Arxiv 数据集上训练并在其测试集上评估)。零样本学习场景指模型在特定数据集上训练,但无需额外训练即可在其他数据集上进行测试(例如,在 Arxiv 上训练并在 PubMed 数据集上测试)。为了处理跨数据集的类别数量差异,评估 GNN 模型时采用了迁移训练的分类器(如线性层)。
原文 Table 1 总结了在监督和零样本设置下的整体性能:
| Dataset | Arxiv-Arxiv | Arxiv-PubMed | Arxiv-Cora | (Arxiv+PubMed)-Cora | (Arxiv+PubMed)-Arxiv | ||||||
| Model | Accuracy | Macro-F1 | acc | Macro-F1 | Accuracy | Macro-F1 | Accuracy | Macro-F1 | Accuracy | Macro-F1 | |
| MLP | 0.5179 | 0.2536 | 0.3940 | 0.1885 | 0.0258 | 0.0037 | 0.0220 | 0.0006 | 0.2127 | 0.0145 | |
| GraphSAGE | 0.5480 | 0.3290 | 0.3950 | 0.1939 | 0.0328 | 0.0132 | 0.0132 | 0.0029 | 0.1281 | 0.0129 | |
| GCN | 0.5267 | 0.3202 | 0.3940 | 0.1884 | 0.0214 | 0.0088 | 0.0187 | 0.0032 | 0.0122 | 0.0008 | |
| GAT | 0.5332 | 0.3118 | 0.3940 | 0.1884 | 0.0167 | 0.0110 | 0.0161 | 0.0057 | 0.1707 | 0.0285 | |
| RevGNN | 0.5474 | 0.3240 | 0.4440 | 0.3046 | 0.0272 | 0.0101 | 0.0217 | 0.0016 | 0.1309 | 0.0126 | |
| DGI | 0.5059 | 0.2787 | 0.3991 | 0.1905 | 0.0205 | 0.0011 | 0.0205 | 0.0011 | 0.5059 | 0.2787 | |
| GKD | 0.5570 | 0.1595 | 0.3645 | 0.2561 | 0.0470 | 0.0093 | 0.0406 | 0.0037 | 0.2089 | 0.0179 | |
| GLNN | 0.6088 | 0.3757 | 0.4298 | 0.3182 | 0.0267 | 0.0115 | 0.0182 | 0.0092 | 0.3373 | 0.1115 | |
| NodeFormer | 0.5922 | 0.3328 | 0.2064 | 0.1678 | 0.0152 | 0.0065 | 0.0144 | 0.0053 | 0.2713 | 0.0855 | |
| DIFFormer | 0.5986 | 0.3355 | 0.2959 | 0.2503 | 0.0161 | 0.0094 | 0.0100 | 0.0007 | 0.1637 | 0.0234 | |
| baichuan-7B | 0.0946 | 0.0363 | 0.4642 | 0.3876 | 0.0405 | 0.0469 | 0.0405 | 0.0469 | 0.0946 | 0.0363 | |
| vicuna-7B-v1.1 | 0.2657 | 0.1375 | 0.5251 | 0.4831 | 0.1090 | 0.0970 | 0.1090 | 0.0970 | 0.2657 | 0.1375 | |
| vicuna-7B-v1.5 | 0.4962 | 0.1853 | 0.6351 | 0.5231 | 0.1489 | 0.1213 | 0.1489 | 0.1213 | 0.4962 | 0.1853 | |
| GraphGPT-7B-v1.1-cot | 0.4913 | 0.1728 | 0.6103 | 0.5982 | 0.1145 | 0.1016 | 0.1250 | 0.0962 | 0.4853 | 0.2102 | |
| GraphGPT-7B-v1.5-stage2 | 0.7511 | 0.5600 | 0.6484 | 0.5634 | 0.0813 | 0.0713 | 0.0934 | 0.0978 | 0.6278 | 0.2538 | |
| GraphGPT-7B-v1.5-std | 0.6258 | 0.2622 | 0.7011 | 0.6491 | 0.1256 | 0.0819 | 0.1501 | 0.0936 | 0.6390 | 0.2652 | |
| GraphGPT-7B-v1.5-cot | 0.5759 | 0.2276 | 0.5213 | 0.4816 | 0.1813 | 0.1272 | 0.1647 | 0.1326 | 0.6476 | 0.2854 | |
| p-val | 2.26e-9 | 1.56e-10 | 2.22e-7 | 1.55e-9 | 1.04e-9 | 9.96e-6 | 7.62e-8 | 1.97e-7 | 1.5e-13 | 4.63e-6 | |
符号解释:
Arxiv-Arxiv: 在 Arxiv 数据集上训练和测试的监督任务。Arxiv-PubMed: 在 Arxiv 上训练,在 PubMed 上测试的零样本任务。Arxiv-Cora: 在 Arxiv 上训练,在 Cora 上测试的零样本任务。(Arxiv+PubMed)-Cora: 在 Arxiv 和 PubMed 混合数据上训练,在 Cora 上测试的零样本任务。(Arxiv+PubMed)-Arxiv: 在 Arxiv 和 PubMed 混合数据上训练,在 Arxiv 上测试的监督/迁移任务,用于评估灾难性遗忘。-7B-: 表示模型参数量为 7 亿。-v1.1-,-v1.5-: 表示基础 Vicuna 模型的不同版本。-stage2: 表示仅采用第二阶段的任务特定指令调优。-std: 表示使用标准指令数据集。-cot: 表示使用经过CoT蒸馏生成的指令数据集。p-val: p-value,通常用于统计显著性检验。
观察1:GraphGPT 的整体优越性。
GraphGPT 在监督和零样本场景中始终优于各种最先进的基线方法。
- 即使是 NodeFormer、DIFFormer 和 GKD 等近期强大的 GNN 模型,在监督设置下表现出良好的结构建模能力,但在未进一步训练的情况下迁移到新数据集时,其性能会显著下降。
- 相比之下,
GraphGPT不仅在监督任务中超越了所有最先进的方法,而且在零样本图学习场景中实现了惊人的 2-10 倍的准确率提升。 - LLM-based 的解决方案(如 Baichuan-7B 和 Vicuna-7B)在不同数据集上保持了稳定的性能,但它们仅依赖文本信息进行预测。
GraphGPT则保留了图结构,为图学习任务提供了更全面的解决方案。
性能提升的两个关键因素:
- 双阶段图指令调优: 将图编码器编码的结构信息与自然语言
token对齐,使 LLM 能够理解图的固有特性。 - 图编码器与 LLM 的互补: 框架促进了图编码器和 LLM 之间的相互增强,弥补了 LLM 在结构理解上的不足,并使其能够对图的结构进行推理。
观察2:结构感知图匹配的益处。
第一阶段的自监督图匹配任务对指令调优起着至关重要的作用,可以增强 GraphGPT 的零样本迁移能力。第一阶段侧重于将编码丰富结构信息的图 token 与语言 token 对齐。这种对齐使模型能够更深入地理解图数据的内在结构特征。如果仅进行第二阶段的任务特定指令调优(GraphGPT-7B-v1.5-stage2),模型更容易过拟合到特定数据集。在这种情况下,模型的性能可能严重依赖于数据集特定的模式和特征,而非对底层图结构的真正理解,从而限制了模型泛化到新的、未见过数据集的能力。
观察3:CoT 蒸馏的益处。
-std 和 -cot 变体表明,CoT 蒸馏对更复杂的图学习任务有显著益处。
- 使用标准指令数据集调优的模型在迁移到像
PubMed(3个类别)这样更简单的任务时,已经可以取得显著成果(例如Arxiv-PubMed上的准确率为 0.7011)。 - 然而,当应用于像
Cora(70个类别)这样复杂的任务时,它们的性能往往表现平平。 - 通过
CoT蒸馏,利用闭源模型 (GPT-3.5) 强大的推理能力,GraphGPT可以整合这些知识,显著提高在复杂图任务上的性能。例如,GraphGPT-7B-v1.5-cot在Arxiv-Cora上的准确率为 0.1813,优于GraphGPT-7B-v1.5-std的 0.1256。
6.2. 泛化能力研究 (RQ2)
本节探讨了通过整合更多指令数据来微调 LLM,以有效处理各种类型任务的能力。
更多数据促进模型迁移能力。
在初步研究中,论文考察了数据量对 GraphGPT 迁移能力的影响,如 Table 1 中 (Arxiv+PubMed)-Cora 列所示。实验中,模型使用 Arxiv 和 PubMed 数据集的组合进行训练,并在 Cora 数据集上进行零样本测试。结果表明,通过结合相对较小的 PubMed 数据集(2万+项)和 Arxiv,GraphGPT 在 Cora 上的迁移性能显著提升。相比之下,GNN-based 模型(单独在 Arxiv 和 PubMed 上训练)的迁移性能反而下降了。
更多数据而不遗忘。
进一步验证了组合 Arxiv 和 PubMed 指令数据对原始 Arxiv 数据的影响,如 Table 1 中 (Arxiv+PubMed)-Arxiv 列所示。结果表明,大多数传统 GNN-based 方法在迭代训练后,在 Arxiv 上的性能会显著下降。这归因于 GNN 模型中发生了灾难性遗忘 (catastrophic forgetting),即仅在较小 PubMed 数据集上训练的模型结构建模能力受损。然而,GraphGPT 通过其统一的图指令调优范式有效缓解了这个问题。即使整合了额外的数据,GraphGPT 也能通过保留泛化的图结构模式来维持甚至提升其性能。
多任务图学习器的泛化。
最近关于指令调优的研究表明,混合不同指令调优数据可以进一步增强 LLM 的性能。本研究确保了指令条目数量一致,并混合了不同类型的指令数据,包括标准指令 (-std)、CoT 指令 (-cot)、标准与 CoT 的混合 (-mix,各占50%),以及链接预测指令 (Link)。
以下是原文 Table 2,展示了各种指令混合在 Arxiv 监督学习和 Cora 零样本节点分类任务上的性能对比:
| Dataset | Supervision. on Arxiv | Zero Shot on Cora | |||
| Model | Acc | Macro-F1 | Acc | Macro-F1 | |
| MLP | 0.5179 | 0.2536 | 0.0220 | 0.0006 | |
| GraphSAGE | 0.5480 | 0.3290 | 0.0132 | 0.0029 | |
| GCN | 0.5267 | 0.3202 | 0.0187 | 0.0032 | |
| GAT | 0.5332 | 0.3118 | 0.0161 | 0.0057 | |
| RvGNN | 0.5474 | 0.3240 | 0.0217 | 0.0016 | |
| DGI | 0.5059 | 0.2787 | 0.0205 | 0.0011 | |
| GKD | 0.5570 | 0.1595 | 0.0406 | 0.0037 | |
| GLNN | 0.6088 | 0.3757 | 0.0182 | 0.0092 | |
| NodeFormer | 0.5922 | 0.3328 | 0.0144 | 0.0053 | |
| DIFFormer | 0.5986 | 0.3355 | 0.0100 | 0.0007 | |
| baichuan-7b | 0.0946 | 0.0363 | 0.0405 | 0.0469 | |
| vicuna-7B-v1.1 | 0.2657 | 0.1375 | 0.1090 | 0.0970 | |
| vicuna-7B-v1.5 | 0.4962 | 0.1853 | 0.1489 | 0.1213 | |
| Arxiv-std + PubMed-std | 0.6390 | 0.2652 | 0.1501 | 0.0936 | |
| Arxiv-cot + PubMed-cot | 0.6476 | 0.2854 | 0.1647 | 0.1326 | |
| Arxiv-mix + PubMed-mix | 0.6139 | 0.2772 | 0.1544 | 0.1048 | |
| Arxiv-std + PubMed-std + Link | 0.5931 | 0.2238 | 0.1847 | 0.1579 | |
| Arxiv-mix + Pubmed-mix + Link | 0.6874 | 0.3761 | 0.1836 | 0.1494 | |
以下是原文 Table 3,展示了各种指令混合在 PubMed 链接预测任务上的性能对比:
| Dataset | PubMed | |
| Model | AUC | AP |
| MLP | 0.5583 | 0.5833 |
| GAT | 0.5606 | 0.6373 |
| GraphSAGE | 0.5041 | 0.5813 |
| RevGNN | 0.4538 | 0.5083 |
| Node2Vec | 0.6535 | 0.6885 |
| w/o Link | 0.5010 | 0.5005 |
| only Link | 0.6704 | 0.6087 |
| Arxiv-std + PubMed-std + Link | 0.8246 | 0.8026 |
| Arxiv-mix + PubMed-mix + Link | 0.6451 | 0.5886 |
观察:
- 有效的指令数据混合方案可以显著提高
GraphGPT在各种设置下的性能。 - 为链接预测任务添加任务特定指令,显著增强了模型在节点分类任务上的性能。
- 有趣的是,在整合节点分类指令后,链接预测的性能也超过了所选的最佳现有模型。
- 混合不同任务的指令后,
GraphGPT展现出有效处理各种图学习任务并将其知识迁移到其他未见数据集的能力。例如,Arxiv-mix + Pubmed-mix + Link在Arxiv监督任务上达到了 0.6874 的准确率和 0.3761 的 Macro-F1,在Cora零样本任务上也表现良好(Acc 0.1836,Macro-F1 0.1494),并在PubMed链接预测任务中达到了 0.6451 的 AUC。
6.3. 模块消融研究 (RQ3)
为了探究所提出框架中各个子模块的独立贡献,论文进行了消融研究。
以下是原文 Table 4,展示了在监督和零样本设置下的模块消融研究结果:
| Dataset | Arxiv-Arxiv | Arxiv-PubMed | Arxiv-Cora | |||
| Variant | Acc | Mac-F1 | Acc | Mac-F1 | Acc | Mac-F1 |
| w/ GS | 0.4962 | 0.1853 | 0.6351 | 0.5231 | 0.1489 | 0.1213 |
| w/o LR | 0.5807 | 0.2462 | 0.2523 | 0.1925 | 0.0050 | 0.0016 |
| ours | 0.6258 | 0.2622 | 0.7011 | 0.6491 | 0.1813 | 0.1272 |
符号解释:
- : 使用基础 LLM (Vicuna-7B-v1.5) 进行节点分类,但不结合图结构信息。这实际上是表中的
vicuna-7B-v1.5行。 w/o LR: 仅使用图编码器进行预测,不集成 LLM 的推理能力。ours: 完整的GraphGPT模型 (这里特指GraphGPT-7B-v1.5-cot或GraphGPT-7B-v1.5-std,具体取决于上下文,从数值看更接近std变体在Arxiv-Arxiv上的表现)。
图指令调优的效果 (Effect of Graph Instruction Tuning)。 变体 直接采用了基础 LLM (Vicuna-7B-v1.5) 在三个数据集上进行节点分类,但没有整合图结构信息。
- 结果显示,
GraphGPT显著优于缺乏结构信息的基础模型。例如,在Arxiv-Arxiv上, 的准确率为 0.4962,而ours(完整的GraphGPT) 达到了 0.6258。 - 这表明图指令调优范式使 LLM 能够更有效地理解图结构信息。重要的是,这种性能提升是在不改变 LLM 原始参数的情况下实现的,仅仅通过轻量级对齐投射器(通过一个线性投影操作)将图
token和自然语言token对齐。
LLM 增强的语义推理效果 (Effect of LLM-enhanced Semantic Reasoning)。
变体 w/o LR 仅使用默认的图编码器进行监督和零样本预测,没有集成 LLM 的推理能力。
- 结果表明,集成了 LLM 的
GraphGPT显著增强了图编码器的性能,尤其是在零样本设置下。例如,在Arxiv-PubMed上,w/o LR的准确率仅为 0.2523,而ours(完整的GraphGPT) 达到了 0.7011。在Arxiv-Cora上,w/o LR的准确率更是低至 0.0050,而ours达到 0.1813。 - 这表明 LLM 注入的丰富语义信息带来了显著的性能提升。
6.4. 模型效率研究 (RQ4)
本研究旨在评估模型在训练和推理阶段的计算效率。
图指令调优的训练效率 (Training Efficiency with Graph Instruction Tuning)。 指令调优框架遵循两阶段过程:LLM 和图编码器的参数被冻结,只微调图-文本对齐投射器。
-
在4卡 40G Nvidia A100 环境中,比较了冻结和调优 LLM 参数的情况(分别表示为
-freeze和-tune)。 -
研究分析了训练时间、调优参数数量和 GPU 占用(每 GPU 的 MiB)。
-
在相同实验条件下,调优 LLM 参数时,即使批处理大小为1,也会遇到内存溢出 (OOM) 错误。
-
然而,通过论文提出的调优策略(冻结大部分参数),训练过程即使在批处理大小为2的情况下也保持稳定。
-
此外,与调优整个 LLM 相比,调优参数的数量减少了50倍以上。
以下是原文 Table 5,展示了训练阶段的时间和空间效率:
Variants Training Time Tuned Parameters GPU Occupy Stage-1-tune OOM 6,607,884,288 OOM Stage-1-freeze 22:53:33 131,612,672 39517.75 improvement - ↓× 50.21 - Stage-2-tune OOM 6,607,884,288 OOM Stage-2-freeze 03:44:35 131,612,672 38961.75 improvement - × 50.21 -
符号解释:
Stage-1-tune: 第一阶段调优(即调优所有 LLM 参数)Stage-1-freeze: 第一阶段冻结(即冻结 LLM 和图编码器,只调优投射器)Stage-2-tune: 第二阶段调优Stage-2-freeze: 第二阶段冻结Training Time: 训练所需时间。OOM表示内存溢出。Tuned Parameters: 调优的参数数量。GPU Occupy: GPU 内存占用量 (MiB)。
模型推理效率 (Model Inference Efficiency)。
评估了 GraphGPT 的推理速度和准确性,并与 Baichuan-7B、Vicuna-7B-v1.1 和 Vicuna-7B-v1.5 LLM 进行了比较。
-
使用一块 40G Nvidia A100 GPU,在
Arxiv和Cora的CoT指令数据集上测量了推理时间(每响应秒数)。 -
GraphGPT展现出卓越的效率和准确性。 -
较低的推理时间并不一定意味着更好的性能:Baichuan-7B 响应迅速但通常不准确或不相关;Vicuna-7B-v1.1 和 Vicuna-7B-v1.5 需要更长、更复杂的推理步骤才能获得更好的答案。
-
相比之下,
GraphGPT通过简短的推理过程实现准确预测,从而提高了推理效率。以下是原文 Figure 5,展示了
GraphGPT的推理效率研究:
该图像是图表,展示了论文中GraphGPT在Arxiv和Cora数据集上的推理效率对比,横轴为不同模型,左纵轴为推理时间(秒),右纵轴为准确率。图中显示GraphGPT在推理时间与准确率上均表现优异。
图中显示,GraphGPT-v1.5-cot 在 Arxiv 和 Cora 数据集上,相比其他 LLMs 基线(baichuan-7B, vicuna-7B-v1.1, vicuna-7B-v1.5),在推理时间(秒/响应)上表现出更优的平衡,即在较短时间内实现了较高的准确率。例如,在 Cora 上,GraphGPT-v1.5-cot 的推理时间明显低于 Vicuna 模型,同时准确率显著高于 baichuan-7B。
6.5. 模型案例研究 (RQ5)
论文对 GraphGPT 在下游图学习任务中的性能与使用不同类型指令的传统 LLM 进行了详细分析。使用 Arxiv 数据,评估了 ChatGPT 和 GraphGPT,提示包括基于节点内容、基于节点内容与文本化图结构,以及论文设计的图指令。
以下是原文 Table 6,展示了 GraphGPT 与 ChatGPT 预测结果的对比:
| TTeo eeuaetks.0srede |
| Ground-Truth Category: cs.LG, Machine Learning |
| T A T . |
| TM-N c C |
(注:原文 Table 6 缺少完整的文本内容,仅给出了部分标题和分类信息。根据上下文,表格对比了 ChatGPT 在不同提示方式下与 GraphGPT 的表现。)
该图像是一个示意图,展示了图结构中的节点及其连接关系,图中标记了一个“Target Node”作为关注中心,体现了图神经网络对节点间信息传递的机制。
这张图展示了一个目标节点(Target Node)及其 h-hop 邻居构成的子图,用以说明 GraphGPT 如何利用结构信息。图中的节点表示论文,边表示引用关系。
观察:
- 尽管
ChatGPT参数庞大(超过2000亿),但仅依靠节点文本信息或结合文本化的图结构,它在做出准确预测方面仍存在困难。 - 当涉及到跨学科的论文(例如机器学习和硬件架构研究领域)时,这种挑战尤为明显。
- 相比之下,
GraphGPT始终提供准确的预测和合理的解释。这是因为GraphGPT整合了一个包含103个节点的子图结构,使其能够从邻居节点的引用关系中提取丰富的结构信息,从而做出准确的预测。 - 此外,论文认为使用图
token来表示图结构作为 LLM 输入比自然语言解决方案更高效。在一个103节点的子图案例中,GraphGPT仅需要 750 个token输入到 LLM,而基于文本的方法需要 4649 个token。这种token消耗的显著减少转化为训练和推理资源需求的显著降低。
7. 总结与思考
7.1. 结论总结
本论文提出了 GraphGPT 框架,这是一个有效且可扩展的图大型语言模型,旨在提高图模型的泛化能力。GraphGPT 通过一个双阶段图指令调优范式,将图领域特定的结构知识注入到大型语言模型 (LLM) 中。通过利用一个简单而有效的 图-文本对齐投射器 (graph-text alignment projector),GraphGPT 使得 LLM 能够理解和解释图的结构组件。在监督学习和零样本图学习场景中的广泛评估表明了该方法的有效性。此外,该模型展现出强大的泛化能力,能够处理多样化的下游数据集和任务,而不会遭受灾难性遗忘 (catastrophic forgetting)。通过引入 思维链 (CoT) 蒸馏,GraphGPT 进一步增强了其逐步推理能力,尤其是在处理复杂任务和分布偏移 (distribution shift) 时。同时,其参数冻结的调优策略也显著提高了训练和推理效率。
7.2. 局限性与未来工作
论文作者指出,未来的研究方向可以探索剪枝技术 (pruning techniques),以压缩 LLM 中冗余或不重要的参数,从而在保持性能的同时减小模型的整体大小。这表明作者意识到当前模型可能在参数量上仍有优化空间,以进一步提高部署效率。
7.3. 个人启发与批判
7.3.1. 个人启发
- 大模型时代下的图学习新范式:
GraphGPT提供了一个将 LLM 强大的泛化能力引入图学习领域的开创性框架。它指明了一条通过指令调优,让 LLM 学习理解和推理图结构,从而实现零样本图学习的有效路径。这对于解决实际应用中图数据标注稀缺的痛点至关重要。 - 效率与性能的平衡:
GraphGPT在设计上巧妙地平衡了效率和性能。通过冻结庞大的 LLM 和图编码器参数,只微调一个轻量级的图-文本对齐投射器,极大地降低了训练成本和 GPU 内存占用,同时实现了显著的性能提升。这种参数高效的调优策略对于实际部署和推广具有重要意义。 - 双阶段指令调优的精妙设计:
自监督指令调优利用无监督的图匹配任务,让模型从底层结构层面理解图token与语言token的对应关系,为后续任务特定调优打下坚实基础。这种由通用到特定的训练范式,是模型获得强大泛化能力的关键。 CoT蒸馏的实用价值: 从强大的闭源 LLM 中蒸馏CoT指令,是增强小规模模型推理能力的一种高效且经济的方法。它使得GraphGPT能够处理更复杂的图学习任务和分布偏移,无需大幅增加模型规模。- 图
token的高效性: 论文通过案例研究,量化了图token在表示图结构上的效率优势(显著减少token数量),这不仅节约了计算资源,也为 LLM 处理大规模图提供了可行性。
7.3.2. 批判与潜在改进
- 图编码器的选择和依赖性: 论文提到图编码器是灵活的,可以使用 GCN 或 Graph Transformer。然而,
GraphGPT的性能仍然可能受到所选图编码器自身结构建模能力的限制。如果底层图编码器无法捕获某些复杂的图模式,即使 LLM 具有强大的推理能力,也可能无法完全弥补。未来的工作可以探索更先进、更鲁棒的图编码器,或者针对特定类型的图数据(如异构图、超图)设计专门的编码器。 文本-图结构连接的深度: 尽管文本-图结构连接通过对比学习对齐了文本和图结构,但这种对齐的深度和细粒度可能仍有提升空间。例如,当前的方法可能主要关注节点级别的文本和结构对齐,但更复杂的图任务可能需要边级别、子图级别甚至更高级别的语义对齐。CoT蒸馏的通用性:CoT蒸馏的效果在很大程度上依赖于源 LLM 的能力以及蒸馏指令的质量。如果源 LLM 在某些图推理模式上存在偏差或不足,这可能会传递给GraphGPT。此外,目前CoT指令的生成可能还需要人工设计提示,未来可以探索更自动化、更鲁棒的CoT指令生成方法。- 零样本学习的定义和范围: 论文中的零样本学习主要指将模型从一个数据集(例如
Arxiv)迁移到另一个未见过的数据集(例如PubMed或Cora)上执行相同的任务(例如节点分类)。这属于数据集级别的零样本迁移。未来可以探索任务级别的零样本学习,即模型在一种图任务(例如节点分类)上训练后,能否在完全不同的图任务(例如图分类或社团检测)上实现零样本性能,这将是更具挑战性和通用性的目标。 - 对图类型和规模的泛化: 实验主要在引文网络上进行,这些是相对同构的图。
GraphGPT在处理其他类型图数据(如知识图谱、分子图、社交网络等)上的性能如何,以及其在更大规模图上的可扩展性(尤其是在 h-hop 邻居采样策略下),值得进一步探究。 - 可解释性: 虽然
CoT蒸馏提高了模型的推理可解释性,但整个GraphGPT框架作为 LLM 的扩展,其“黑箱”特性依然存在。如何更深入地理解 LLM 如何结合图结构信息进行决策,仍是未来研究的重要方向。
相似论文推荐
基于向量语义检索推荐的相关论文。