A Multi-modal Large Language Model with Graph-of-Thought for Effective Recommendation
TL;DR 精炼摘要
本文提出了一种名为GollaRec的推荐系统模型,结合多模态大语言模型及思维图技术,旨在高效处理用户-物品交互的图结构。GollaRec通过整合视觉和文本信息,利用文本-图对齐与图指令微调,提升了多模态推荐任务的性能,超越了12个现有模型。
摘要
Chain-of-Thought (CoT) prompting has been shown to be effective in guiding Large Language Models (LLMs) to decompose complex tasks into multiple intermediate steps, and constructing a rational reasoning chain for inferring answers. However, the linear nature of CoT falls short from enabling LLMs to effectively handle graph structures, which are essential for personalised recommendation tasks that rely on user-item interaction graphs. To bridge this gap, we propose GollaRec, which leverages a new Graph-of-Thought (GoT) prompting technique in a Multi-modal LLM, namely LLaVA, to effectively exploit the complex structure of the interaction graphs. GollaRec enhances the recommendation effectiveness by integrating both visual and textual "thoughts" into a graph-structured prompt, using both item images and descriptions to produce richer multi-modal user/item representations. In our proposed approach, GollaRec leverages text-graph alignment and graph instruction tuning to allow the Multi-modal LLM to capture complex graph structures. In addition, GollaRec leverages a graph adaptor to integrate user-item interactions into the resulting user/item embeddings, therefore effectively adapting the model to the recommendation task. Our extensive experiments on 6 benchmark datasets demonstrate the superiority of our proposed GollaRec model over 12 existing state-of-the-art models in various multi-modal recommendation tasks, including general and multi-domain recommendation tasks.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
一种带有思维图的多模态大语言模型用于有效推荐 (A Multi-modal Large Language Model with Graph-of-Thought for Effective Recommendation)
论文标题直接点明了研究的核心:它提出了一种结合了多模态大语言模型 (Multi-modal Large Language Model) 和一种名为 思维图 (Graph-of-Thought, GoT) 的新技术的推荐系统方法。其目标是实现更“有效”的推荐。
1.2. 作者
- Zixuan Yi, Iadh Ounis
- 两位作者均来自格拉斯哥大学 (University of Glasgow)。他们的研究背景主要集中在信息检索和推荐系统领域。
1.3. 发表期刊/会议
论文元数据显示的发表时间为 2025-01-01,这是一个未来的占位符日期。结合文中引用了多篇 2024 年的论文,可以推断这是一篇在 2024 年底完成,并可能投稿至 2025 年顶级会议(如 SIGIR, WWW, WSDM 等)的预印本。这些会议在信息检索和数据挖掘领域享有极高的声誉。
1.4. 发表年份
2025 (预期)
1.5. 摘要
论文摘要概括了研究的核心内容。现有的大语言模型(LLMs)通过思维链 (Chain-of-Thought, CoT) 提示技术,能将复杂任务分解为多个中间步骤,从而提升推理能力。然而,CoT 的线性推理结构无法有效处理对推荐任务至关重要的图结构数据(如用户-物品交互图)。为了解决这一问题,论文提出了 GollaRec 模型。该模型在多模态大语言模型 LLaVA 中引入了一种新的 思维图 (Graph-of-Thought, GoT) 提示技术,以有效利用交互图的复杂结构。GollaRec 将视觉(物品图片)和文本(物品描述)的“思维”整合到一个图结构的提示中,生成了更丰富的多模态用户/物品表示。具体来说,GollaRec 利用文本-图对齐 (text-graph alignment) 和 图指令微调 (graph instruction tuning) 使多模态大语言模型能够捕捉复杂的图结构。此外,GollaRec 还利用一个图适配器 (graph adaptor) 将用户-物品交互信息整合到最终的用户/物品嵌入中。在 6 个基准数据集上的大量实验证明,GollaRec 模型在多种多模态推荐任务(包括通用推荐和多领域推荐)中,其性能优于 12 个现有的最先进模型。
1.6. 原文链接
-
PDF 链接:
files/papers/6911d5d6b150195a0db74993/paper.pdf(这是一个本地/相对路径,无法直接访问) -
代码链接: 作者在论文中提供了源代码和模型的公共访问地址:https://github.com/zxy-ml84/GollaRec
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 尽管大语言模型 (Large Language Models, LLMs) 在自然语言处理任务上取得了巨大成功,但它们在处理需要复杂、结构化推理的任务时仍显不足。特别是对于推荐系统,其核心数据——用户-物品交互图 (user-item interaction graph)——是一种复杂的图结构数据,而 LLMs 在预训练中很少接触这类结构化数据,导致它们难以理解其中蕴含的领域知识和复杂关系。
-
现有挑战 (Gap):
- 思维链 (Chain-of-Thought, CoT) 是一种有效的提示技术,它引导 LLM 进行逐步推理。但
CoT的推理过程是线性的(像一条链),无法捕捉图数据中非线性的、复杂的节点关系。论文将此问题称为 图挖掘不足 (insufficient graph mining)。 - 推荐任务中,仅依赖语言推理可能过于抽象。物品的图片等多模态 (multi-modal) 信息是更直观的媒介,能极大丰富用户和物品的表示。
- LLMs 的输入有词元长度限制 (token length constraint),这使得将庞大的用户交互历史或图结构完整输入给模型变得非常困难。
- 思维链 (Chain-of-Thought, CoT) 是一种有效的提示技术,它引导 LLM 进行逐步推理。但
-
创新切入点: 论文的思路是,能否设计一种新的提示技术,让 LLM 能够像“思考”图一样进行推理?为此,论文提出了 思维图 (Graph-of-Thought, GoT),它将图的结构和多模态信息(文本+图像)一起编织成一个结构化的提示,引导多模态大语言模型(MLLM)进行推荐。
2.2. 核心贡献/主要发现
这篇论文的主要贡献可以总结为以下几点:
-
提出
GollaRec模型及GoT提示技术: 提出了一个名为GollaRec的新颖推荐模型,其核心是首次将 思维图 (Graph-of-Thought, GoT) 提示技术应用于多模态推荐任务。GoT旨在解决CoT在处理图结构数据时的“图挖掘不足”问题。 -
多模态与图结构的深度融合方法: 为了让 MLLM 有效理解
GoT中的图信息,论文提出了一套组合方法:- 文本-图对齐 (Text-graph Alignment): 将图节点的表示与物品文本描述的表示在语义空间中对齐。
- 图指令微调 (Graph Instruction Tuning): 通过特定的微调任务,教会 MLLM 理解代表图结构的特殊“图词元 (graph tokens)”。
-
解决 LLM 输入长度限制的实用方案: 针对 LLM 的词元长度限制问题,提出了一种 自适应图截断 (adaptive graph truncation) 策略。该策略利用一个预训练的传统推荐模型筛选出最可能相关的物品,从而在有限的输入长度内最大化信息密度。
-
全面的实验验证: 在通用推荐和多领域推荐两大场景下的六个数据集上进行了广泛实验,结果表明
GollaRec的性能显著超越了 12 个强大的基线模型,验证了该方法的有效性和优越性。
3. 预备知识与相关工作
3.1. 基础概念
-
大语言模型 (Large Language Models, LLMs): 指的是像 GPT-3、LLaMA 这样基于 Transformer 架构、在海量文本数据上进行预训练的模型。它们擅长理解和生成人类语言,能够执行问答、翻译、摘要等多种任务。
-
多模态大语言模型 (Multi-modal Large Language Models, MLLMs): 是 LLMs 的扩展,能够同时处理和理解多种类型的数据,如文本、图像、音频等。例如,
LLaVA模型通过一个视觉编码器(如CLIP)将图像信息转换为 LLM 能理解的表示,从而实现对图文内容的综合理解。 -
推荐系统 (Recommender Systems): 旨在根据用户的历史行为、偏好等信息,预测用户可能感兴趣的物品(如商品、电影、音乐)并进行推荐。其核心数据是用户和物品之间的交互,这些交互可以自然地构成一个二分图。
-
思维链 (Chain-of-Thought, CoT) 提示: 一种引导 LLM 解决复杂问题的方法。它不是直接要求答案,而是在提示中给出一个或多个示例,展示解决问题的详细、分步骤的思考过程。LLM 会模仿这种“思考链”,从而提高复杂推理任务(如数学应用题)的准确性。
- 示例:
- 标准提示: "问题:一个篮子里有5个苹果,又放进去3个,总共有多少个?答案:"
- CoT 提示: "问题:一个篮子里有5个苹果,又放进去3个,总共有多少个?思考过程:首先,篮子里原来有5个苹果。然后,又向篮子里添加了3个苹果。所以,总数是5 + 3 = 8个。答案:8"
- 示例:
-
图神经网络 (Graph Neural Networks, GNNs): 一类专门用于处理图结构数据的深度学习模型。其核心思想是通过消息传递机制,聚合邻居节点的信息来更新中心节点的表示(嵌入),从而捕捉图的拓扑结构和节点特征。
LightGCN是一个被广泛使用的简化版 GNN,它去除了非线性激活函数和特征变换矩阵,仅通过邻居聚合来学习嵌入,效率高且效果好。
3.2. 前人工作
-
LLM 用于推荐: 近期研究开始探索将 LLMs 直接用于推荐。
P5(Geng et al., 2022) 将各种推荐任务(如评分预测、序列推荐)统一转化为自然语言形式的“个性化提示”,并使用预训练的 T5 模型来生成答案。LMRecSys(Zhang et al., 2021b) 将用户的交互序列(由物品 ID 组成)看作一种“语言”,将推荐任务重新定义为语言模型任务,即预测序列中的下一个物品 ID。- 局限性: 这些方法虽然有创意,但它们在处理大规模用户-物品交互图时面临一个共同的难题:LLMs 的输入长度有限,无法将完整的图结构信息编码进去,导致信息损失。
-
思维链 (Chain-of-Thought):
CoT(Wei et al., 2022) 证明了通过展示推理步骤可以激发 LLM 的复杂推理能力。- 局限性:
CoT的成功主要体现在线性、顺序性的推理任务上。对于推荐系统中的用户-物品交互图这种非线性的复杂结构,CoT难以直接应用,因为它无法表达图的拓扑关系和节点间的复杂连接。
3.3. 技术演进
推荐系统的技术演进大致经历了以下阶段:
-
传统方法: 如协同过滤(CF),仅依赖用户-物品交互矩阵。
-
特征工程 + 机器学习: 引入用户和物品的属性(Side Information),使用如矩阵分解(MF)、因子分解机(FM)等模型。
-
深度学习时代: 使用深度神经网络(DNN)来学习复杂的非线性特征交互。
-
图神经网络 (GNNs) 时代: 将用户-物品交互建模为图,利用 GNN 学习高质量的节点嵌入,如
LightGCN、NGCF等,成为主流。 -
大语言模型 (LLM) 时代: 当前的前沿方向,试图利用 LLM 强大的语义理解和世界知识来增强推荐。
本文的工作处于第 5 个阶段,并试图解决该阶段的核心挑战:如何让擅长处理文本的 LLM 理解并利用 GNN 所擅长的图结构信息,同时融合多模态数据,是 GNN 和 LLM 范式的一次深度结合。
3.4. 差异化分析
与之前工作的核心区别在于:
-
VS. 传统 LLM 推荐: 之前的方法通常将图信息“压平”或“线性化”为文本序列,不可避免地丢失了大量结构信息。而本文提出的
GoT是一种结构化的提示 (structured prompt),它在提示中保留了图的推理逻辑,而非仅仅罗列节点。 -
VS. CoT:
CoT是线性的,而GoT是图结构化的。GoT明确地指导模型思考图中的连接、邻居和路径,这对于推荐任务至关重要。 -
VS. 传统多模态推荐: 传统模型通常独立地提取多模态特征,然后进行融合。而本文利用 MLLM 的能力,在同一个模型内部通过提示(prompting)的方式,实现了文本、图像和图结构三种模态信息的端到端推理。
4. 方法论
本节将详细拆解 GollaRec 模型的技术方案。其整体架构如下图(原文 Figure 2)所示,主要由一个多模态大语言模型 LLaVA 和一个图适配器 LightGCN 组成。其核心创新在于如何构建和利用 Graph-of-Thought (GoT) 提示。
该图像是GollaRec模型的架构示意图,展示了多模态大型语言模型(MLLM)如何通过视觉编码器、图指令调优和文本-图像对齐来生成用户嵌入和项目嵌入。图中还包含了图适配器的功能,旨在为目标用户推荐最相关的项目。
4.1. 方法原理
GollaRec 的核心思想是,将推荐任务转化为一个由 MLLM 执行的、基于结构化提示的推理任务。这个结构化提示就是 思维图 (Graph-of-Thought, GoT),它不仅包含任务描述,还模拟了一个在用户-物品交互图上进行推理的思考过程,并融合了物品的文本和图像信息。模型通过理解这个 GoT 提示,生成高质量的用户和物品嵌入,最后再通过一个图适配器进行微调,以融入更丰富的邻域信息,最终产出推荐列表。
42. 核心方法详解 (逐层深入)
GollaRec 的方法论主要围绕解决 GoT 在设计和应用中遇到的三个核心挑战 (C1, C2, C3) 展开。
4.2.1. 挑战 C1:有限输入长度 -> 自适应图截断 (Adaptive Graph Truncation)
-
问题: MLLM 的输入上下文长度是固定的(例如
LLaVA-7B为 2048 个词元),而单个图像就可能占用大量词元(文中提到为 576 个)。这使得能够输入到模型中的用户历史交互信息非常有限。 -
解决方案: 论文提出一种自适应图截断策略,其目标是在有限的词元预算内,尽可能多地包含对推荐最有价值的物品信息。该过程如算法 1 所示。
算法 1:GoT 中的自适应图截断
1: Input: 用户 ID, 物品 ID 和描述, Max Tokens = 2048 2: Output: 截断后的物品列表 3: 初始化一个预训练的推荐模型 (例如, LightGCN) 4: # 生成初始排序 5: items_list ← Recommender.RankItems(用户 ID, 物品 ID) 6: # 为视觉数据预留词元 7: total_tokens ← 576 8: 初始化 initial_list 为空 9: for each item in items_list do 10: description ← GetDescription(item) 11: tokens ← Tokenise(description) 12: if total_tokens + length(tokens) ≤ Max Tokens then 13: append description to initial_list 14: total_tokens ← total_tokens + length(tokens) 15: else 16: break 17: end if 18: end for 19: return initial_list 步骤分解:
-
预排序: 使用一个轻量级的、预训练好的传统推荐模型(如
LightGCN)对目标用户的所有候选物品进行一次初步排序,得到一个items_list。这个列表中的物品是按照推荐潜力从高到低排列的。 -
词元预算初始化: 首先为图像输入预留固定的词元数量(如 576)。
-
贪心填充: 从排序最高的物品开始,逐个将其文本描述(description)添加到
GoT提示中。每次添加前,检查是否会超出总的词元限制(2048)。如果超出,则停止添加。 -
生成最终列表: 这个过程最终会生成一个包含尽可能多高潜力物品描述的列表
initial_list,并将其作为GoT提示的一部分。下图(原文 Figure 3)直观地展示了这一过程:
该图像是一个示意图,展示了针对目标用户 的自适应图截断以及图思想(GoT)提示的构建过程。图中显示用户的喜欢与不喜欢的项目节点,以及文本与图节点嵌入的对齐示意,体现了图结构在推荐系统中的应用。
-
4.2.2. 挑战 C2:多模态关联 -> 文本-图像对齐 (Text-image Alignment)
-
问题: 如何让 MLLM 有效地理解物品图像和其文本描述之间的语义关联?
-
解决方案: 采用对比学习 (contrastive learning) 的方法,对
LLaVA模型进行预训练。目标是让匹配的(图像-文本)对在嵌入空间中距离更近,不匹配的对距离更远。具体地,使用图文对比损失 (Image-Text Contrastive, ITC) loss 进行优化。公式如下:
符号解释:
-
: 批次大小 (batch size)。
-
: 批次中的样本数量。
-
: 第 个物品的视觉嵌入 (visual embedding)。
-
: 第 个物品的文本嵌入 (textual embedding)。
-
: 构成一个正样本对 (positive pair),即匹配的图像和文本。
-
(其中 ): 构成一个负样本对 (negative pair),即不匹配的图像和文本。
-
: 相似度函数,这里使用余弦相似度。
-
: 温度系数 (temperature parameter),一个超参数,用于调节相似度分布的锐度。较小的值会使模型更关注区分难分的负样本。
通过最小化此损失函数,模型被激励去学习一个统一的语义空间,其中同一物品的图像和文本表示是紧密对齐的。
-
4.2.3. 挑战 C3:图结构理解 -> 文本-图对齐 (Text-graph Alignment) 和图指令微调
-
问题: 如何让本质上是文本处理器的 LLM 理解用户-物品交互图的结构信息?
-
解决方案: 论文采用了两步策略来实现文本空间和图空间的对齐。
第一步:文本-图预接地 (Text-graph grounding)
- 目标: 在 MLLM 介入之前,先让图节点的嵌入和文本嵌入在语义上对齐。
- 方法:
- 使用一个图编码器 (graph encoder)(如 Graph Transformer)处理交互图,为每个物品节点生成图嵌入 。
- 使用一个文本编码器 (text encoder)(如 BERT)处理物品的文本描述,生成文本嵌入 。
- 使用与 ITC 类似的对比损失,将匹配的 作为正样本对,不匹配的 作为负样本对,拉近匹配对的距离,推远不匹配对的距离。
- 作用: 经过这一步,图编码器被训练得能够产出与文本语义对齐的图节点嵌入。
第二步:图指令微调 (Graph instruction tuning)
- 目标: 让 MLLM(即
LLaVA)学会“读取”并理解图结构信息。 - 方法:
-
创建图词元 (Graph Tokens): 将上一步训练好的图编码器产出的图节点嵌入 ,通过一个多层感知机 (MLP) 投影成特殊的图词元 (graph tokens) 。这些图词元可以被 MLLM 当作一种新的“词汇”来处理。
-
构建指令微调任务: 设计一个“图-文匹配”任务。具体来说,从图中选择一个中心物品节点和它的 个邻居节点,将它们的图词元构造成一个序列
<graph_start>, <graph_token>1, ..., <graph_token>l, <graph_end>。然后,向 MLLM 提供这个图词元序列和这些物品对应的被打乱顺序的文本描述。 -
训练目标: MLLM 的任务是正确地将打乱的文本描述与有序的图词元序列一一对应起来。这迫使 MLLM 去理解每个图词元的含义及其在图结构中的位置关系。
-
优化: 通过一个标准的语言模型损失(交叉熵损失)来优化这个匹配任务。模型生成目标输出 (即正确的匹配序列)的概率由下式给出:
符号解释:
- : 输入的图词元序列的嵌入。
- : 输入的指令文本的嵌入。
- : 目标输出序列。
- : 目标输出序列中的第 个词元。
- : MLLM (
GollaRec中可学习部分) 的参数。 - : MLLM 在给定输入下生成第 个词元的概率。
-
4.2.4. 整体模型架构与推理流程
-
训练阶段:
- 通过文本-图像对齐(ITC损失)和文本-图对齐(图指令微调)来训练
LLaVA模型,使其具备理解多模态信息和图结构的能力。
- 通过文本-图像对齐(ITC损失)和文本-图对齐(图指令微调)来训练
-
推理阶段 (生成推荐):
-
输入构建: 针对一个目标用户,构建
GoT提示。该提示包含:- 任务描述(例如,“你是一个推荐系统…”)。
- 用户的部分历史交互物品的文本描述。
- 用户最后交互物品的图像。
- 通过自适应图截断筛选出的高潜力候选物品的描述。
- 代表图结构信息的图词元序列。
-
MLLM 推理: 将构建好的
GoT提示输入到训练好的GollaRec模型中。LLaVA部分会处理这些多模态和结构化信息,并在其最后一层生成初步的用户和物品嵌入。 -
图适配器 (Graph Adaptor) 优化:
- 将
LLaVA输出的嵌入作为LightGCN适配器的初始嵌入。 LightGCN在完整的用户-物品交互图上执行几层消息传播,从而将更广泛的图邻域信息(即协同过滤信号)融入到嵌入中,进行最终的微调。传播规则遵循LightGCN的标准形式,聚合邻居信息来更新节点嵌入。
- 将
-
生成排名: 使用经过适配器优化后的最终用户和物品嵌入计算推荐分数,并生成 Top-k 推荐列表。
-
5. 实验设置
5.1. 数据集
实验在两大类共六个公开基准数据集上进行,以验证模型的泛化能力。
-
通用推荐任务 (General Recommendation):
HM: 一个时尚领域的推荐数据集。Amazon Clothing: 亚马逊服装评论数据集。Amazon Baby: 亚马逊婴儿用品评论数据集。
-
多领域推荐任务 (Multi-domain Recommendation):
-
源领域 (Source Domains):
Food,Home,Clothing,Office(均来自亚马逊评论数据集)。 -
目标领域 (Target Domains):
Pantry,Electronics,Sports。模型在源领域数据上训练,在目标领域数据上测试,以评估其跨领域迁移能力。这些数据集的特点是包含了丰富的用户-物品交互记录以及多模态信息(物品的文本描述和图像)。下表(原文 Table 5)展示了数据集的详细统计信息。
数据集 #用户 #物品 #交互 稀疏度 通用推荐 HM 27,883 2,742 185,297 99.76% Clothing 39,387 22,499 185,297 99.99% Baby 19,445 7,037 271,001 99.99% 多领域推荐 Food 115,349 39,670 1,027,413 99.99% Home 731,913 185,552 6,451,926 99.99% Clothing 39,387 23,033 237,488 99.97% Office 87,436 25,986 684,837 99.97% Pantry 13,101 4,898 126,962 99.82% Electronics 192,403 63,001 1,689,188 99.99% Sports 87,436 25,986 684,837 99.95%
-
5.2. 评估指标
论文使用两种标准的 Top-k 推荐评估指标:Recall@k 和 NDCG@k,其中 设置为 20。
-
召回率@k (Recall@k):
- 概念定义: 该指标衡量的是在所有用户实际喜欢的物品中,有多大比例被成功推荐出来了。它关注的是推荐列表的“查全率”,即是否能够覆盖尽可能多的用户真正感兴趣的物品。
- 数学公式:
- 符号解释:
RecommendedItems@k: 为用户推荐的 Top-k 物品集合。GroundTruthItems: 用户在测试集中实际交互过(喜欢)的物品集合。- : 表示集合中元素的数量。
-
归一化折损累计增益@k (NDCG@k, Normalized Discounted Cumulative Gain):
- 概念定义:
NDCG@k是一个考虑推荐顺序的指标。它认为,将用户喜欢的物品排在推荐列表更靠前的位置会获得更高的分数。它不仅衡量推荐是否命中,还衡量命中的质量(位置)。NDCG的值在 0到1 之间,值越高表示推荐列表的排序质量越好。 - 数学公式: 其中,DCG (Discounted Cumulative Gain) 和 IDCG (Ideal DCG) 的计算方式如下:
- 符号解释:
- : 推荐列表的长度。
- : 排名第 位的物品的相关性。在Top-k推荐中,如果该物品是用户喜欢的(在
GroundTruthItems中),则 ,否则为0。 - : 折损因子,排名越靠后( 越大),分母越大,对总分的贡献越小。
IDCG@k: 理想情况下的 DCG,即把所有用户喜欢的物品排在最前面时能得到的最大 DCG 值,用于归一化。
- 概念定义:
5.3. 对比基线
论文将 GollaRec 与 12 个具有代表性的基线模型进行了比较,这些模型覆盖了不同的技术路线。下表(原文 Table 6)对此进行了总结:
| 方法 | 通用 | 多模态 | MLLM | 多领域 | 基于语言 |
|---|---|---|---|---|---|
| LightGCN | ✓ | × | × | × | × |
| VBPR | ✓ | ✓ | × | × | × |
| MMGCL | ✓ | ✓ | × | × | × |
| BM3 | ✓ | ✓ | × | × | × |
| CLIP | × | × | ✓ | × | × |
| BEiT-3 | × | × | ✓ | × | × |
| LLaVA | × | × | ✓ | × | × |
| MOME | × | × | × | ✓ | × |
| PLE | × | × | × | ✓ | × |
| MGFN | × | × | × | ✓ | × |
| P5 | × | × | × | × | ✓ |
| LMRecSys | × | × | × | × | ✓ |
| GollaRec | ✓ | ✓ | ✓ | ✓ | ✓ |
-
通用推荐器:
LightGCN(经典的 GNN 模型)。 -
多模态推荐器:
VBPR(早期的视觉推荐模型),MMGCL,BM3(基于对比学习的现代多模态推荐模型)。 -
MLLM 模型:
CLIP,BEiT-3,LLaVA(直接使用这些预训练 MLLM 进行图文匹配推荐)。 -
基于语言的推荐器:
P5,LMRecSys,TALLRec(将推荐任务转化为语言任务的 LLM 模型)。 -
多领域推荐器:
MOME,PLE,MGFN(专门为跨领域推荐设计的模型)。
6. 实验结果与分析
6.1. 核心结果分析 (RQ1)
论文通过对比 GollaRec 与各类基线模型的性能,来回答“GollaRec 的表现如何?”这一问题。
6.1.1. 通用推荐任务
以下是原文 Table 1 的结果,展示了在三个通用推荐数据集上的性能对比。GollaRec-CoT 是一个变体,使用传统的 CoT 替代 GoT。
| 数据集 | HM | Clothing | Baby | |||
|---|---|---|---|---|---|---|
| 方法 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 |
| LightGCN | 0.1254* | 0.0743* | 0.0553* | 0.0246* | 0.0714* | 0.0319* |
| VBPR | 0.1108* | 0.0717* | 0.0611* | 0.0277* | 0.0740* | 0.0329* |
| MMGCL | 0.1633* | 0.0964* | 0.0607* | 0.0277* | 0.0790* | 0.0352* |
| BM3 | 0.1711* | 0.0981* | 0.0797* | 0.0358* | 0.0863* | 0.0380* |
| CLIP | 0.0956* | 0.0687* | 0.0631* | 0.028* | 0.0664* | 0.0304* |
| BEiT-3 | 0.0874* | 0.0661* | 0.0617* | 0.0265* | 0.0688* | 0.0311* |
| LLaVA | 0.1346* | 0.0910* | 0.0702* | 0.0315* | 0.0674* | 0.0316* |
| P5 | 0.1417* | 0.0872* | 0.0766* | 0.0360* | 0.0825 | 0.0356* |
| LMRecSys | 0.1269* | 0.0801* | 0.0623* | 0.0322* | 0.0778* | 0.0322* |
| TALLREC | 0.1145* | 0.0782* | 0.0632* | 0.0335* | 0.0752* | 0.0313* |
| GollaRec-CoT | 0.1807 | 0.1039 | 0.0911* | 0.0404* | 0.0939* | 0.0410 |
| GollaRec | 0.1880 | 0.1064 | 0.0932 | 0.0423 | 0.0958 | 0.0425 |
分析:
GollaRec效果最佳: 在所有三个数据集上,GollaRec的Recall@20和NDCG@20指标均显著优于所有基线模型。相比于表现最好的基线BM3,GollaRec平均提升了 12.7%,证明了其方法的优越性。GoT优于CoT:GollaRec显著优于GollaRec-CoT变体,这直接证明了GoT在处理图结构化推荐任务时,比线性的CoT更有效。- 优于纯 MLLM/LLM 方法:
GollaRec远超CLIP、LLaVA、P5等模型。这表明,仅仅将 MLLM/LLM 直接应用于推荐或使用简单的提示,不足以捕捉推荐任务所需的复杂用户偏好和协同过滤信号。GollaRec的成功在于它通过GoT和图适配器有效整合了交互图信息。 - 多模态和图结构的重要性:
GollaRec同时优于仅依赖图的LightGCN和依赖多模态信息的BM3等模型,说明其成功融合了 LLM 的语义理解能力、多模态信息和图结构信息。
6.1.2. 多领域推荐任务
以下是原文 Table 2 的结果,展示了在三个目标领域数据集上的性能。
| 数据集 | Pantry | Electronics | Sports | |||
|---|---|---|---|---|---|---|
| 方法 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 |
| VBPR | 0.0723* | 0.0326* | 0.0442* | 0.0196* | 0.0771* | 0.0349* |
| MMGCL | 0.0907* | 0.0377* | 0.0627* | 0.0304* | 0.0913* | 0.0428* |
| BM3 | 0.0932* | 0.0417* | 0.0638* | 0.0310* | 0.0970* | 0.0438* |
| CLIP | 0.0683* | 0.0318* | 0.0461* | 0.0235* | 0.0727 | 0.0310* |
| BEiT-3 | 0.0596* | 0.0289* | 0.0481* | 0.0240* | 0.0748* | 0.0341* |
| LLaVA | 0.0659* | 0.0313* | 0.0604* | 0.0288* | 0.0709* | 0.0303* |
| MOME | 0.0797 | 0.0352* | 0.0573* | 0.0261* | 0.0749* | 0.0318* |
| PLE | 0.0862* | 0.0384* | 0.0595* | 0.0278* | 0.0866* | 0.0367* |
| MGFN | 0.0891* | 0.0413* | 0.0623* | 0.0305* | 0.0894* | 0.0383* |
| GollaRec (CoT) | 0.1183 | 0.0469* | 0.0655* | 0.0323* | 0.1046* | 0.0456 |
| GollaRec | 0.1213 | 0.0495 | 0.0681 | 0.0350 | 0.1112 | 0.0502 |
分析:
- 跨领域性能强大:
GollaRec在多领域推荐任务中同样取得了最佳性能,证明其不仅能学习领域内的知识,还能有效将在源领域学到的通用语义和推理能力迁移到新的目标领域。 - 多模态知识迁移: 包含多模态信息的模型(如
BM3,GollaRec)普遍优于专门的多领域模型(如MOME,PLE)。这表明,物品的视觉和文本内容作为一种通用的“知识”,有助于在不同领域之间建立桥梁,促进知识迁移。
6.2. 消融实验/参数分析 (RQ2, RQ3, RQ4)
论文通过一系列消融实验和参数分析,验证了模型各组件的有效性。
6.2.1. 组件有效性分析 (RQ2)
下表(原文 Table 3)展示了移除 GollaRec 不同组件后的性能变化。
| 数据集 | 通用推荐 (Clothing) | 多领域推荐 (Sports) | ||
|---|---|---|---|---|
| 变体 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 |
| w/o GoT (无 GoT) | 0.0885* | 0.0402* | 0.0982* | 0.0442* |
| w/o Adapter (无适配器) | 0.0821* | 0.0358* | 0.0848* | 0.0363* |
| w/o Text-image Alignment (无图文对齐) | 0.0868* | 0.0389* | 0.0941* | 0.0436* |
| w/o Text-graph Alignment (无文图对齐) | 0.0901* | 0.0402* | 0.1068 | 0.0468* |
| GollaRec | 0.0932 | 0.0423 | 0.1112 | 0.0502 |
分析:
GoT是核心: 移除GoT(w/o GoT) 导致性能显著下降,证明GoT提示是引导 MLLM 进行有效推荐推理的关键。- 图适配器不可或缺: 移除图适配器 (
w/o Adaptor) 性能下降最严重,说明仅靠 MLLM 的输出还不够。适配器LightGCN能够融入宝贵的协同过滤信号(即其他用户的行为),这对推荐至关重要。 - 对齐训练是有效的: 移除文本-图像对齐 (
w/o Text-image Alignment) 和文本-图对齐 (w/o Text-graph Alignment) 都会导致性能损失,验证了这两种对齐策略对于模型理解多模态和图结构信息的必要性。
6.2.2. 多模态融合效果分析 (RQ3)
为了验证 GollaRec 是否更好地融合了文本和图像信息,论文对 GollaRec 和最强基线 BM3 的物品嵌入进行了 t-SNE 可视化。

分析: 上图(原文 Figure 4)中,星形代表视觉嵌入,五边形代表文本嵌入。
- 在
BM3的可视化结果中(左上),同一物品的视觉和文本嵌入分布较为分散,表明其多模态语义空间的一致性较差。 - 在
GollaRec的结果中(左下),视觉和文本嵌入簇拥在一起,分布更紧凑,形成了更统一的语义空间。 - 从量化指标上看,
GollaRec的平均均方误差 (MSE) 值(1.66, 0.12)远低于BM3(12.23, 5.87),这进一步证实了GollaRec能够更有效地对齐不同模态的表示,解决了挑战 C2。
6.2.3. GoT 结构鲁棒性分析 (RQ4)
论文还探究了 GoT 提示的结构对性能的影响,包括提示步骤的顺序和提示的长度。
| 数据集 | 通用推荐 (Clothing) | 多领域推荐 (Sports) | ||
|---|---|---|---|---|
| 变体 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 |
| - RandomDemonstrationPos | 0.0920† | 0.0424† | 0.1027 | 0.0465† |
| - RandomImagePos | 0.0941† | 0.0426† | 0.1061† | 0.0508† |
| - RandomLenTrunction (80%) | 0.0834 | 0.0366 | 0.0983 | 0.0440 |
| - RandomLenTrunction (60%) | 0.0807 | 0.0334 | 0.0960 | 0.0425 |
| GollaRec | 0.0932 | 0.0423 | 0.1112 | 0.0502 |
分析:
-
对位置不敏感: 随机打乱
GoT中推理步骤的顺序 (- RandomDemonstrationPos) 或图像的位置 (- RandomImagePos),对模型性能影响不大。这表明 MLLM 能够理解提示的整体意图,而不严格依赖于固定的顺序。 -
对长度敏感: 将
GoT的最大长度限制为原始的 80% 或 60% (- RandomLenTrunction) 时,性能出现明显下降。这说明一个内容丰富、信息量大的GoT提示是至关重要的。这也反过来证明了论文提出的自适应图截断策略的有效性,因为它在有限空间内保留了最有价值的信息。
7. 总结与思考
7.1. 结论总结
本文成功地提出了一种新颖的推荐模型 GollaRec,它通过创新的 思维图 (Graph-of-Thought, GoT) 提示技术,有效地将多模态大语言模型 (MLLM) 的强大语义理解和推理能力应用于处理推荐系统中的复杂图结构数据。
- 核心贡献:
GoT作为一种结构化的推理框架,有效解决了CoT在图数据上的局限性。 - 关键技术: 论文通过文本-图对齐、图指令微调等方法,让 MLLM 具备了理解图结构的能力;同时,通过自适应图截断,巧妙地应对了 LLM 的输入长度限制。
- 成果: 大量实验证明
GollaRec在通用推荐和多领域推荐任务中均取得了最先进的性能,显著超越了各类强基线模型。消融实验也验证了模型各个设计组件的必要性和有效性。
7.2. 局限性与未来工作
作者在论文中坦诚地指出了当前工作的一些局限性,并展望了未来的研究方向:
- 提示设计的自动化: 目前
GoT中的推理步骤(demonstrations)是手动设计的。虽然作者尝试了 LLaMA-3 自动生成但效果无显著差异,但未来探索更先进、更具确定性的自动化提示生成策略(特别是针对推荐任务的)是一个有价值的方向。 - 候选物品生成: 当前模型依赖一个预训练的
LightGCN来生成初始候选列表。探索更先进的模型或直接在 MLLM 的隐藏空间中利用相似性度量来优化这一过程,可能会带来性能提升,甚至实现端到端训练。 - 应用场景扩展: 本文主要关注传统的 Top-k 推荐任务。将
GollaRec的GoT推理能力扩展到对话式推荐系统 (conversational recommender systems) 场景,是一个充满潜力的未来工作。
7.3. 个人启发与批判
这篇论文给我带来了深刻的启发,同时也引发了一些思考。
-
启发:
- 从“链式”到“图式”的思维跃迁:
Graph-of-Thought是对Chain-of-Thought一次非常自然且强大的扩展。它为如何将 LLM 的推理能力应用于各种结构化数据(如社交网络、知识图谱、分子结构等)开辟了新的思路。这不仅仅是推荐领域的进步,对整个 AI 领域都有借鉴意义。 - “提示工程”与“模型工程”的结合:
GollaRec的成功并非仅仅依赖于巧妙的提示设计,而是将提示工程与底层的模型训练(如指令微调、对比学习)深度结合。它告诉我们,要让 LLM 掌握新能力,不仅要在“嘴上”(提示)教它,还要在“脑子”(模型参数)里训练它。 - 实用主义的解决方案: 面对 LLM 的词元限制这一棘手问题,论文没有寻求颠覆性的模型架构,而是采用了一种务实且有效的“预筛选”策略(自适应图截断),这种解决问题的思路值得学习。
- 从“链式”到“图式”的思维跃迁:
-
批判性思考:
- “图词元”的真正含义: 论文提出了“图词元”的概念,并让 MLLM 通过指令微调来理解它。但这更像是一种“模式匹配”,即模型学会了将某个
graph_token符号与某个文本描述关联起来。模型是否真正理解了图的拓扑结构(如“这个节点是中心节点”、“那两个节点是二阶邻居”)?这一点尚不明确,其可解释性有待进一步深入探究。 - 两阶段方法的潜在问题:
GollaRec依赖一个外部推荐器进行候选物品的初步筛选,这本质上是一个两阶段(two-stage)流程。这种方法的性能上限会受到第一阶段模型的制约。如果第一阶段模型漏掉了一个真正相关的物品,GollaRec就永远没有机会推荐它。一个更理想的端到端(end-to-end)模型,虽然实现难度更大,但可能会有更高的理论性能上限。 - 计算成本:
GollaRec的训练过程涉及多个阶段(预训练、指令微调)和多个大型模型,其计算成本和时间成本(如附录 Table 10 所示,训练需 24.66 小时)相当高昂,这可能会限制其在工业界大规模、高频更新场景下的实际应用。
- “图词元”的真正含义: 论文提出了“图词元”的概念,并让 MLLM 通过指令微调来理解它。但这更像是一种“模式匹配”,即模型学会了将某个
相似论文推荐
基于向量语义检索推荐的相关论文。