论文状态：已完成

ITMPRec: Intention-based Targeted Multi-round Proactive Recommendation

发表：2025/04/22

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的基于意图的目标导向多轮主动推荐方法ITMPRec，针对个性化推荐系统常被动接受中间序列的问题，通过预匹配策略选择目标物品，结合多轮推荐和用户意图量化模块，优化推荐效果。此外，引入大型语言模型模拟用户反馈，在四个公开数据集上显示优越性能。

摘要

Personalized recommendations are integrated into daily life, but providers may want certain items to become more appealing over time through user interactions, yet this issue is often overlooked. The existing works are often based on the assumption that users will passively accept all intermediate sequences or not explore intention modeling in the targeted nudging process. Both of these factors result in suboptimal performance in the proactive recommendation. In this paper, we propose a novel intention-based targeted multi-round proactive recommendation method, dubbed ITMPRec. We first select target items using a pre-match strategy. Then, we employ a multi-round nudging recommendation method, incorporating a module to quantify users’ intention-level evolution, helping choose suitable intermediate items. Additionally, we model users’ sensitivity to changes caused by these items. Lastly, we propose an LLM agent as a pluggable component to simulate user feedback, offering an alternative to traditional click models by leveraging the agent’s external knowledge and reasoning capabilities. Through extensive experiments on four public datasets, we demonstrate the superiority of ITMPRec compared to eight baseline models.

思维导图

论文精读

中文精读约 34 分钟读完 · 23,618 字

1. 论文基本信息

1.1. 标题

ITMPRec: Intention-based Targeted Multi-round Proactive Recommendation (ITMPRec：基于意图的目标导向多轮主动推荐)

1.2. 作者

Yahong Lian (连亚虹)
Chunyao Song (宋春瑶)
Tingjian Ge (葛庭坚)

1.3. 作者机构

Yahong Lian & Chunyao Song: College of Computer Science, TJ Key Lab of NDST, DISSec, TMCC, TBI Center, Nankai University, Tianjin, China (南开大学计算机学院, TJ Key Lab of NDST, DISSec, TMCC, TBI Center)
Tingjian Ge: Department of Computer Science, University of Massachusetts Lowell, Lowell, MA, USA (马萨诸塞大学洛厄尔分校计算机科学系)

1.4. 发表期刊/会议

Proceedings of the ACM Web Conference 2025 (WWW '25), April 28-May 2, 2025, Sydney, NSW, Australia. 声誉和影响力: ACM Web Conference (WWW) 是计算机科学领域，特别是万维网和数据挖掘方向的顶级会议之一，具有极高的学术声誉和影响力。在该会议上发表的论文通常代表了该领域最前沿和高质量的研究。

1.5. 发表年份

2025年

1.6. 摘要

个性化推荐系统已融入日常生活，但服务提供者可能希望通过用户互动，使某些物品随着时间的推移变得更具吸引力，然而这一问题常被忽视。现有工作通常基于用户被动接受所有中间序列的假设，或未在目标引导 (targeted nudging) 过程中探索意图建模。这两个因素都导致了主动推荐 (proactive recommendation) 的性能不佳。

本文提出了一种新颖的基于意图的目标导向多轮主动推荐方法，名为 ITMPRec。首先，使用预匹配策略选择目标物品。然后，采用多轮引导推荐方法，其中包含一个量化用户意图级别演变的模块，以帮助选择合适的中间物品。此外，模型还对用户对这些物品引起的变化的敏感性进行了建模。最后，提出一个大型语言模型 (LLM) 智能体作为可插拔组件来模拟用户反馈，通过利用智能体的外部知识和推理能力，为传统点击模型提供了一种替代方案。在四个公开数据集上进行的广泛实验表明，ITMPRec 相较于八个基线模型具有优越性。

1.7. 原文链接

/files/papers/6911a6abc9b7d49a981aac07/paper.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

传统推荐系统，特别是序列推荐 (Sequential Recommendation, SR) 系统，主要通过建模用户的历史行为序列来预测用户下一个可能感兴趣的物品。然而，这种用户中心 (user-centric)的方法存在几个关键问题：

过滤气泡 (Filter Bubble) 和 信息茧房 (Information Cocoon)： 长期迎合用户历史偏好可能导致用户被困在狭窄的内容范围中，限制了内容曝光的多样性，并形成偏见反馈循环，最终损害用户和内容生态系统。
内容提供者的需求： 内容提供者有时希望更有效地引导用户的兴趣走向特定的目标内容，而传统推荐系统难以满足这种主动引导 (proactive nudging)的需求。

2.1.2. 现有研究的挑战或空白 (Gap)

针对上述问题，主动推荐 (Proactive Recommendation) 范式应运而生，旨在引导用户超越其过去的偏好。然而，现有主动推荐工作仍存在以下局限性：

目标物品选择的随机性： 现有方法（如 IRN 和 IPG）通常随机指定目标物品，这可能导致：
- 目标物品过于分散，不符合内容提供者推广特定主题或类别的实际需求。
- 包含冷启动物品 (cold-start items)，难以成功引导。
忽略用户意图建模： 在多轮引导过程中，现有方法忽略了用户意图 (intention) 的作用，而用户行为模式在很大程度上受其潜在意图的影响。
用户反馈模拟的简化假设： 现有工作通常假设用户会被动接受所有中间推荐序列，或者使用统一的固定阈值来衡量用户对中间物品的接受度（模拟点击），这与真实世界场景不符，导致次优结果。

2.1.3. 论文的切入点或创新思路

ITMPRec 的创新思路在于：

限定目标物品类别： 专注于引导用户走向某一特定类别或主题的物品，而非随机物品，使其更具目的性和聚焦性，同时兼容单目标物品推荐。
引入意图建模： 在多轮引导过程中，显式地建模用户意图的演变，并将其纳入中间物品的选择过程。
考虑用户敏感度： 引入目标个体唤醒系数 (Targeted Individual Arousal Coefficients, TIAC)，量化用户对新内容的接受度差异，实现更个性化的引导。
智能体模拟用户反馈： 利用大型语言模型 (Large Language Model, LLM)的外部知识 (external knowledge)和推理能力 (reasoning capabilities)，设计一个 LLM 智能体 (LLM agent) 来模拟用户点击反馈，克服传统点击模型的局限性。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

提出了基于类别的目标物品预匹配模块： 针对现有主动推荐中目标物品选择的随机性问题，设计了一个预匹配模块 (pre-match module)，通过聚合所有用户的偏好来生成候选目标物品，从而选定一个类别或主题下的目标物品集合进行引导。这使得推荐更具目的性，并能有效避免冷启动 (cold-start)问题。
引入意图引导分数和目标个体唤醒系数： 提出了意图引导分数 (intention-induced scores)来量化用户意图的演变，并结合目标个体唤醒系数 (targeted individual arousal coefficients)来建模用户对推荐物品的个性化敏感度，从而在多轮主动推荐过程中动态调整用户偏好。
设计了可插拔的 LLM 智能体点击模拟器： 利用 LLM 强大的外部知识 (external knowledge)和解释性 (interpretability)，设计了一个 LLM 智能体 (LLM agent) 作为可插拔组件，用于模拟用户在多轮引导中的点击反馈，更真实地反映用户决策过程。
全面的实验验证： 在四个真实世界数据集上进行了广泛实验，验证了 ITMPRec 相较于八种最先进的 (state-of-the-art)序列推荐和主动推荐方法的优越性，特别是在兴趣提升 (IoI@20)和排名提升 (IoR@20)指标上。

2.2.2. 关键结论与发现

ITMPRec 在引导用户兴趣走向目标内容方面表现出色，其在 IoI@20 和 IoR@20 指标上平均比最先进的 (SOTA)推荐方法分别提高了 36.47% 和 68.80%。
预匹配模块、意图引导分数和目标个体唤醒系数都是 ITMPRec 性能提升的关键组成部分，尤其在不同类型的数据集上贡献程度有所不同。
主动推荐方法 (如 ITMPRec、IRN、IPG) 在 IoI 和 IoR 指标上显著优于传统序列推荐方法，表明其在渐进式推荐 (progressive recommendations)方面的优势。
LLM 智能体 (LLM agent) 在模拟用户点击行为上表现出比传统基于分布的点击模型 (distribution-based click model)更优的性能，能够更好地捕捉用户决策的复杂性。
模型超参数 $Q$ (个人好奇心物品数量) 和 $N_C$ (意图数量) 对性能有显著影响，其最优值因数据集的稠密性和多样性而异。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 推荐系统 (Recommender Systems)

推荐系统 (Recommender Systems) 是一种信息过滤系统，旨在预测用户对物品的偏好，并向其推荐可能感兴趣的物品。其目标是帮助用户在海量信息中发现符合其需求和兴趣的内容，从而提升用户体验和平台效益。

3.1.2. 序列推荐 (Sequential Recommendation, SR)

序列推荐 (Sequential Recommendation, SR) 是推荐系统的一个分支，它不仅考虑用户过去的总体的偏好，更关注用户行为的时间顺序 (chronological order)。SR 模型通过分析用户历史交互序列（如点击、购买、浏览记录），来预测用户在下一个时间戳 (timestamp)最可能交互的物品。例如，用户连续观看了电影 A、B、C，SR 模型会利用这个序列信息来预测用户接下来可能观看的电影 D。

3.1.3. 主动推荐 (Proactive Recommendation, ProactRec)

主动推荐 (Proactive Recommendation, ProactRec) 是一种新兴的推荐范式，它超越了传统的被动迎合用户历史偏好的模式。ProactRec 不仅仅是预测用户可能喜欢什么，而是通过多轮 (multi-round)、渐进式 (progressive) 的方式，引导 (nudge) 用户探索新的兴趣领域，或使其对特定目标物品产生兴趣。其核心思想是，系统不仅要响应用户需求，还要主动塑造或扩展用户的兴趣，以实现更长远的价值（例如，平台希望推广某些新内容，或帮助用户摆脱过滤气泡 (filter bubble)）。

3.1.4. 嵌入 (Embedding)

在机器学习和自然语言处理中，嵌入 (Embedding) 是一种将高维稀疏数据（如用户 ID、物品 ID、词语）映射到低维稠密向量空间 (dense vector space) 的技术。在这个向量空间中，语义相似的实体（用户、物品或词语）的嵌入向量 (embedding vector)在空间中也更接近。嵌入 (Embedding) 能够捕捉实体之间的复杂关系，并作为机器学习模型的输入特征。例如，一个电影的嵌入向量 (embedding vector)可以捕获其类型、风格、演员等信息。

3.1.5. 对比学习 (Contrastive Learning)

对比学习 (Contrastive Learning) 是一种自监督学习方法，旨在通过对比 (contrasting) 学习有判别力的嵌入表示 (discriminative embedding representations)。其基本思想是，将相似的样本（正样本对 (positive pairs)）在嵌入空间中拉近，而将不相似的样本（负样本对 (negative pairs)）推远。例如，在序列推荐 (SR)中，一个用户行为序列 (behavior sequence)的两个不同数据增强 (data augmentation)视图可以被视为正样本对 (positive pair)，而与其他用户的行为序列 (behavior sequence)则构成负样本对 (negative pair)。

3.1.6. InfoNCE 损失 (InfoNCE Loss)

InfoNCE 损失 (InfoNCE Loss) 是一种常用的对比学习 (contrastive learning) 损失函数，其目标是最大化正样本对 (positive pairs)之间的互信息，同时最小化负样本对 (negative pairs)之间的互信息。InfoNCE 的计算通常涉及到 softmax 函数，它通过归一化操作使得模型能够从大量负样本 (negative samples)中区分出正样本 (positive sample)。

3.1.7. BPR 损失 (Bayesian Personalized Ranking, BPR Loss)

BPR 损失 (BPR Loss) 是一种针对隐式反馈 (implicit feedback)（如用户点击、浏览而非明确评分）推荐任务设计的成对排序 (pairwise ranking) 损失函数。其核心思想是，对于用户 $u$ ，一个被用户交互过的物品 $i$ 应该比一个未被交互过的物品 $j$ 获得更高的预测分数。BPR 损失旨在优化模型，使得这种相对顺序关系在所有可能的物品对中得到满足。

3.1.8. Sigmoid 函数 (Sigmoid Function)

Sigmoid 函数 (Sigmoid Function) 是一种常用的激活函数 (activation function)，其数学形式为 $f(x) = \frac{1}{1 + e^{-x}}$ 。它将任意实数值映射到 $(0, 1)$ 区间内，常用于二分类问题 (binary classification problems)中，将模型的输出解释为概率。在推荐系统中，Sigmoid 函数 (Sigmoid Function) 可以将用户对物品的相关性分数 (relevance score)转化为点击概率 (click probability)。

3.1.9. 余弦相似度 (Cosine Similarity)

余弦相似度 (Cosine Similarity) 是一种衡量两个非零向量 (non-zero vectors)之间方向相似性 (directional similarity)的度量方法。它计算两个向量夹角的余弦值 (cosine)，值的范围在 $[-1, 1]$ 之间。当两个向量方向完全一致时，余弦相似度 (Cosine Similarity)为 1；方向完全相反时为 -1；相互垂直时为 0。在推荐系统中，余弦相似度 (Cosine Similarity)常用于计算用户和物品嵌入向量 (embedding vectors)之间的相似度。

3.1.10. LLM 智能体 (LLM Agent)

LLM 智能体 (LLM Agent) 是指一个利用大型语言模型 (Large Language Model, LLM) 作为其核心推理引擎 (reasoning engine)，能够感知环境、进行决策、规划行动并执行任务的软件实体 (software entity)。LLM 智能体 (LLM Agent) 通常具备访问外部工具 (external tools)、利用外部知识 (external knowledge)、进行记忆 (memory)管理和自我反思 (self-reflection)的能力，使其能够执行更复杂、开放式的任务，而不仅仅是简单的文本生成。

3.2. 前人工作

3.2.1. 序列推荐 (Sequential Recommendation, SR)

SR 方法致力于建模用户时间序列行为 (chronological behaviors)以预测其未来兴趣。

基础 SR 模型： 早期工作主要关注如何从序列中提取精细化序列模式 (fine-grained sequential patterns)，例如使用Wasserstein 距离 (Wasserstein discrepancy) 或傅里叶变换 (Fourier transform)。
意图建模 SR： SR 任务中的意图建模 (intention modeling)已被证明有效，因为它能捕捉序列模式中的细粒度信息 (fine-grained information)。
- ICLRec [7]: 利用 K-Means 聚类物品嵌入 (item embeddings)，并通过交替计算模式来考虑用户意图。它通过对比学习 (contrastive learning)来学习用户意图中心向量 (intention center vector)，从而获得更有判别力 (discriminative)的用户表示。
- ICSRec [29]: 通过结合子序列提取 (subsequence extraction)构建辅助目标 (auxiliary objectives)来学习意图。 局限性： 尽管这些SR算法及其变体表现良好，但它们始终以下一个物品推荐 (next-item recommendation)为中心，并迎合用户历史偏好 (historical preferences)。这种用户中心 (user-centric)策略可能无意中将用户限制在过滤气泡 (filter bubbles)中。

3.2.2. 主动推荐 (Proactive Recommendation, ProactRec)

ProactRec 是一个新兴领域，主要分为两个研究方向：

偏好演化建模 (Preference Evolution Modeling)： 早期研究主要通过模拟技术 (simulation techniques)探索用户偏好对推荐系统交互的响应和演变。一些研究旨在最大化长期性能 (long-term performances)，而非短期行为 (short-sighted actions)。
用户偏好引导 (User Preference Guiding)：
- 对话推荐 (Conversational Recommendation)： 如 [10, 33, 36, 45] 通过对话引导用户达到预设目标。
- 多模态推荐 (Multi-modal Recommendation)： 如 [40] 旨在引导对话走向既定目标。
- 序列推荐 (Sequential Recommendation) 场景下的主动推荐：
  - IRN [46]: 是一种基于 Transformer 的主动推荐 (ProactRec)工作，它生成一系列中间物品序列以引导用户。
  - LLM-IPP [37]: 是一种纯 LLM 主动推荐 (ProactRec)方法，通过 LLM 生成目标导向的中间引导序列。
  - IPG [3]: 是一种模型无关 (model-agnostic)的后处理 (post-processing)方法，通过基于分布的点击模块 (distribution-based click module)进行主动推荐 (ProactRec)。 局限性：
- IRN 和 LLM-IPP 假设用户会接受所有中间推荐路径，这与真实世界不符。
- IPG 使用统一的固定阈值来衡量用户和中间物品之间的影响，导致次优结果。
- 现有主动推荐 (ProactRec)工作通常随机指定目标物品，且未充分探索意图建模 (intention modeling)的作用。

3.3. 技术演进与差异化分析

3.3.1. 技术演进

推荐系统 (Recommender Systems)从最初基于协同过滤 (collaborative filtering)和内容过滤 (content-based filtering)的静态推荐，发展到序列推荐 (SR)，强调用户行为的时序性 (sequentiality)。随着深度学习 (deep learning)的兴起，Transformer 等模型被引入 SR 任务，极大地提升了捕获复杂序列依赖 (sequential dependencies)的能力。与此同时，为了克服过滤气泡 (filter bubble)等问题，推荐系统开始从被动适应转向主动引导 (proactive guidance)，诞生了主动推荐 (ProactRec)这一新兴范式。大型语言模型 (LLM)的出现，则为ProactRec带来了外部知识 (external knowledge)和推理能力 (reasoning capabilities)，有望进一步提升其智能体 (agent)的模拟和引导能力。

3.3.2. 差异化分析

ITMPRec 与现有工作的核心区别和创新点体现在以下几个方面（参见原文 Figure 1 的对比）：

与传统推荐方法 (Traditional Recommendation, 图1a) 的差异： 传统方法只迎合用户历史偏好，导致过滤气泡 (filter bubble)和信息茧房 (information cocoon)。ITMPRec 则主动引导用户，旨在扩展其兴趣。
与先前主动推荐方法 (Previous Proactive Recommendation, 图1b) 的差异：
- 目标物品选择： 先前方法随机指定目标物品，可能导致目标分散或包含冷启动物品 (cold-start items)。ITMPRec 引入预匹配模块 (pre-match module)，根据所有用户偏好选择特定类别下的热门目标物品，更具目的性。
- 意图建模： 先前方法忽略用户意图 (intention)在引导过程中的作用。ITMPRec 显式建模用户意图级别演变 (intention-level evolution)，并通过意图引导分数 (intention-induced scores)辅助中间物品选择。
- 用户敏感度： 先前方法假设用户被动接受所有中间物品，或使用统一阈值。ITMPRec 引入目标个体唤醒系数 (TIAC)，对每个用户进行个性化敏感度建模。
- 用户反馈模拟： ITMPRec 引入 LLM 智能体 (LLM agent) 作为替代点击模型 (click model)，利用 LLM 的外部知识 (external knowledge)和推理能力 (reasoning capabilities)来模拟更真实的用户反馈，而非简单的基于分布的模拟 (distribution-based simulation)。
与 LLM-IPP [37] 的差异： LLM-IPP 是纯 LLM 主动推荐 (ProactRec)方法，资源消耗大，可扩展性 (scalability)受限。ITMPRec 采用基于 SR 的骨干模型 (backbone)，结合 LLM 智能体 (LLM agent) 作为可插拔组件，在资源消耗和性能之间取得平衡。

4. 方法论

ITMPRec 是一种新颖的基于意图的目标导向多轮主动推荐方法。它不采用纯 LLM 模型作为骨干 (backbone)，而是以 SR 模型为基础，并引入多个关键组件，包括预匹配模块 (pre-match module)、意图引导分数 (intention-induced scores)、目标个体唤醒系数 (Targeted Individual Arousal Coefficients, TIAC)，以及可插拔的 LLM 智能体 (LLM agent) 点击模拟器 (click simulator)。其整体框架如原文 Figure 3 所示。

4.1. 环境模拟器 (Environment Simulator)

由于主动推荐 (proactive recommendation)任务中难以获取实时用户反馈，ITMPRec 采用了一个环境模拟器 (environment simulator)来模拟用户在多轮引导 (multi-round guidance)过程中的行为和反馈。这种模拟器在先前的研究中已被广泛使用。

环境模拟器 (environment simulator)与推荐方法 (recommendation method)的交互如下图（原文 Figure 2）所示：

Figure 2: The interaction illustration between simulator and recommendation method. In the figure, dashed arrows indicate that the process runs only once, while solid arrows indicate multiple rounds…
该图像是示意图，展示了环境模拟器与推荐方法之间的交互过程。其中包括项嵌入和用户嵌入的初始化、基于点击模型的相关性评分计算、以及与TIAC（目标个体喧闹系数）相关的中间项更新流程。

4.1.1. 用户和物品嵌入 (User and Item Embeddings)

为了使用真实的用户-物品交互数据集，而不是仅依赖合成数据集 (synthetic datasets)，ITMPRec 利用基于图的推荐方法 GraphAU [42] 来生成预训练 (pre-trained)的用户嵌入 (embeddings) $\hat { e } _ { u } ^ { 0 }$ 和物品嵌入 (embeddings) $\hat { e } _ { i } ^ { 0 }$ 。这些嵌入 (embeddings)的维度为 $d$ 。

4.1.2. 偏好演化 (Preference Evolution)

用户的偏好在交互过程中是动态变化的。在回合 (round) $r$ 中，如果用户 $u$ 对物品 $z$ 产生了正向交互 (positive interaction)，那么用户 $u$ 的嵌入 (embedding) $\hat { e } _ { u } ^ { r }$ 应该随之改变。这种演化通过以下方式建模： $\hat { e } _ { u } ^ { r + 1 } \gets \beta _ { u } ^ { r } \cdot \hat { e } _ { u } ^ { r } + ( 1 - \beta _ { u } ^ { r } ) \cdot \hat { e } _ { z } ^ { r }$ 其中：

$\hat { e } _ { u } ^ { r + 1 }$ 表示用户 $u$ 在第 $r+1$ 轮的嵌入 (embedding)。
$\hat { e } _ { u } ^ { r }$ 表示用户 $u$ 在第 $r$ 轮的嵌入 (embedding)。
$\hat { e } _ { z } ^ { r }$ 表示用户 $u$ 在第 $r$ 轮点击的物品 $z$ 的嵌入 (embedding)。
$\beta _ { u } ^ { r }$ 是一个控制偏好演化程度的系数，它对每个用户都是不同的，来源于目标个体唤醒系数 (Targeted Individual Arousal Coefficients)，将在 4.4 节详细说明。这个系数决定了用户 $u$ 的新偏好是更倾向于旧偏好 ( $\hat { e } _ { u } ^ { r }$ ) 还是新交互物品的偏好 ( $\hat { e } _ { z } ^ { r }$ )。

4.1.3. 点击模型 (Click Model)

ITMPRec 使用点击模型 (click model) 来模拟用户 $u$ 和物品 $z$ 之间的交互概率 (interaction probability)。这在先前的合成数据 (synthetic data)实验中很常用。 $a _ { u } ^ { r } = \sigma \mathrm { ( } w \mathrm { ( } ( \hat { e } _ { u } ^ { r } ) ^ { T } \mathrm { ~ . ~ } \hat { e } _ { z } ^ { r } - b ) )$ 其中：

$a _ { u } ^ { r }$ 是一个二元值，表示用户是否点击（1 表示点击，0 表示未点击）。
$\sigma ( \cdot )$ 表示Sigmoid 函数 (sigmoid function)，将输入值映射到 $(0, 1)$ 区间，可解释为点击概率。
$w ( \cdot )$ 是点击模型 (click model)的参数，例如斜率和偏移量。
$b$ 是偏置项 (bias term)。

除了这种基于分布的点击模型 (distribution-based click model)，ITMPRec 还提供了一个 LLM 智能体 (LLM agent) 点击模型 (click model) 作为替代选择，以增强可解释性 (interpretability)和利用外部知识 (external knowledge)，详见 4.5 节。

4.2. 预匹配模块 (Pre-match module)

在主动推荐 (proactive recommendation)任务中，以往的大多数工作都随机为用户分配目标物品 (target item)。然而，ITMPRec 指出这种直接策略有待改进。在实际应用中，内容提供者通常有预设的主题 (topics)或标签 (tags)需要推广，这些主题/标签 (topics/tags)包含多个目标物品 (target items)。

为了解决这个问题，ITMPRec 提出了一个预匹配模块 (pre-match module)。它首先计算候选目标物品池 (candidate target pools)中所有物品对全体用户 (all users)的总体偏好分数，然后选择得分最高的 N _ { t a r } 个物品作为最终的目标物品 (target items)，引导所有用户向其靠近。这种方法旨在避免随机选择可能导致的冷启动物品 (cold-start items)问题，并确保所选目标物品与内容提供者 (content providers)的需求更一致。

具体地，给定预训练 (pre-trained)的用户表示 (representation) $e _ { u } ^ { 0 }$ ，目标物品 (target items)的选择过程如下： $L _ { N _ { t a r } } = c u t \{ s o r t ( L _ { N _ { c a n } } , \searrow ) , N _ { t a r } \} , L _ { N _ { c a n } } = \sum _ { u = 1 } ^ { U } ( e _ { l } ^ { T } \cdot e _ { u } ^ { 0 } )$ 其中：

L _ { N _ { t a r } } 是最终选定的 N _ { t a r } 个目标物品 (target items)的集合。
L _ { N _ { c a n } } 是候选物品 (candidate items)集合中每个物品的总偏好分数。
$l \in N _ { c a n }$ 表示一个候选物品 (candidate item)。
$e _ { l } ^ { T } \cdot e _ { u } ^ { 0 }$ 计算了用户 $u$ 对物品 $l$ 的偏好分数 (preference score)（内积 (inner product)）。
$\sum _ { u = 1 } ^ { U } ( e _ { l } ^ { T } \cdot e _ { u } ^ { 0 } )$ 表示所有用户对候选物品 (candidate item) $l$ 的总偏好分数。
$s o r t ( X , \searrow )$ 表示对列表 $X$ 进行降序排序 (descending sort)。
$c u t \{ X , n u m \}$ 表示从列表 $X$ 中截取前 num 个元素。
N _ { c a n } 是候选物品 (candidate items)的总数，N _ { t a r } 是目标物品 (target items)的数量， $N _ { t a r } \le N _ { c a n }$ 。

通过这种预匹配 (pre-match)设置，主动推荐 (proactive recommendation)可以兼顾所有用户的偏好，确保即使是那些偏好差异较大的用户也能得到关注。

4.3. 意图引导分数 (Intention-induced scores)

为了生成推荐，ITMPRec 使用内积 (inner product)来量化用户 $u$ 和物品 $i$ 在回合 (round) $r$ 的交互倾向 (interaction tendency)： $s c o r e _ { ( u , i ) } ^ { r } = ( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i }$ 。

4.3.1. 后处理策略 (Post-processing strategy)

借鉴先前工作 [3] 的思想，ITMPRec 综合考虑交互概率 (interaction probability)和引导激进程度 (nudging aggressiveness)。其公式表达为： $l _ { u i j } ^ { r } = s c o r e _ { ( u , i ) } ^ { r } \cdot n u d g e _ { ( u , i , j ) } ^ { r }$ 其中：

$s c o r e _ { ( u , i ) } ^ { r } = ( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i }$ 表示用户 $u$ 和中间物品 $i$ 之间的交互倾向 (interaction tendency)。
$n u d g e _ { ( u , i , j ) } ^ { r }$ 是与目标物品 (target item) e _ { j } 和用户演化表示 (evolved representation) $e _ { u } ^ { ( r + 1 ) }$ 相关联的引导项 (nudging term)，具体表示为用户在引导前后对目标物品兴趣的提升程度： $e _ { j } ^ { T } e _ { u } ^ { ( r + 1 ) } - e _ { j } ^ { T } e _ { u } ^ { ( r ) }$ 。

根据附录 A.1 中的数学推导，如果假设用户在回合 (round) $r$ 到 $r+1$ 的表示转换 (representation transition)遵循线性模式，即 $e _ { u } ^ { r + 1 } = \omega e _ { u } ^ { r } + ( 1 - \omega ) e _ { i }$ （其中 $\omega$ 为用户接受中间物品的系数），则上述公式可简化为： $l _ { u i j } ^ { r } = \{ ( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i } \} \quad \quad \cdot \{ ( e _ { i } - e _ { u } ^ { r } ) ^ { T } e _ { j } \}$ 其中：
第一项 $( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i }$ 衡量了用户 $u$ 在当前回合 (round) $r$ 对中间物品 $i$ 的交互倾向 (interaction tendency)。
第二项 $( e _ { i } - e _ { u } ^ { r } ) ^ { T } e _ { j }$ 衡量了如果用户 $u$ 接受了中间物品 $i$ ，其表示 (representation) $e _ { u } ^ { r }$ 演化为 e _ { i } 后，对目标物品 (target item) e _ { j } 的倾向 (tendency)变化。这个项旨在选择能够有效将用户偏好推向目标物品的中间物品。
$(1 -$ \omega) 项可以省略，因为它不影响最终选择得分最高的中间物品 $i$ 。

4.3.2. 意图级别分数 (Intention-level score)

以往的研究忽略了意图级别分数 (intention-level score)在引导 (nudging)过程中的重要性。ITMPRec 引入意图级别相似度 (intention-level similarity)来增强主动推荐 (proactive recommendation)。首先，利用预训练 (pre-trained) ICLRec [7] 模型得到的全局意图矩阵 (global intention matrix) $C \in \mathbb { R } ^ { N _ { C } \times d }$ （其中 N _ { C } 是总意图数，每行 c _ { m } 代表一个特定意图），计算用户 $u$ 在回合 (round) $r$ 的意图级别向量 (intention-level vector) $c _ { u } ^ { r }$ ： $c _ { u } ^ { r } = \underset { c _ { m } \in \{ c _ { 1 } , \ldots , c _ { N _ { C } } \} } { a r g m i n } ( | | c _ { m } - e _ { u } ^ { r } | | _ { 2 } ^ { 2 } )$ 其中：

$c _ { u } ^ { r }$ 是用户 $u$ 在回合 (round) $r$ 的意图级别向量 (intention-level vector)。
$e _ { u } ^ { r }$ 是用户 $u$ 在回合 (round) $r$ 的表示 (representation)。
$| | c _ { m } - e _ { u } ^ { r } | | _ { 2 } ^ { 2 }$ 是 L2 范数 (L2 norm)的平方，表示意图中心 (intention center) c _ { m } 与用户表示 (representation) $e _ { u } ^ { r }$ 之间的欧几里得距离 (Euclidean distance)。
argmin 操作意味着找到与用户表示 (representation) $e _ { u } ^ { r }$ 最接近的意图中心 (intention center)作为用户的当前意图向量 (intention vector)。

接着，将所有物品投影到意图空间 (intention space)中，计算物品 $i$ 的意图级别向量 (intention-level vector) c _ { i }： $c _ { i } = \underset { c _ { m } \in \{ c _ { 1 } , \ldots , c _ { N _ { C } } \} } { a r g m i n } ( | | c _ { m } - e _ { i } | | _ { 2 } ^ { 2 } )$ 其中：
c _ { i } 是物品 $i$ 的意图级别向量 (intention-level vector)。
e _ { i } 是物品 $i$ 的表示 (representation)。

用户和候选中间物品 (candidate intermediate items)之间的意图级别分数 (intention-level score)计算如下： $c _ { s c o r e } = ( c _ { u } ^ { r } ) ^ ^ { T } \cdot c _ { i }$ 其中：
c _ { s c o r e } 是用户 $u$ 和物品 $i$ 之间的意图级别分数 (intention-level score)。
$( c _ { u } ^ { r } ) ^ { T } \cdot c _ { i }$ 是用户 $u$ 和物品 $i$ 的意图级别向量 (intention-level vectors)之间的内积 (inner product)，衡量其意图相似性 (intention similarity)。

4.3.3. 最终得分公式

为了将意图 (intention)的影响纳入考虑，ITMPRec 保持 Equation (9) 的第二项不变，并修改第一项，使其不仅考虑用户 $u$ 和中间物品 $i$ 之间的表示相似度 (representational similarity)，还考虑它们在意图空间 (intention space)中的相似度。最终的公式如下： $l _ { u i j } ^ { r } = \langle ( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i } + \lambda ( c _ { u } ^ { r } ) ^ { T } \cdot c _ { i } \rangle \cdot ( e _ { i } - e _ { u } ^ { r } ) ^ { T } e _ { j }$ 其中：

$\lambda$ 是一个超参数 (hyperparameter)，用于控制意图引导分数 (intention-induced score)在回合 (round) $r$ 引导过程中与兴趣分数 (interest score)之间的权重。
$( e _ { u } ^ { r } ) ^ { T } \cdot e _ { i }$ 是用户和物品在原始嵌入空间 (original embedding space)中的兴趣分数 (interest score)。
$( c _ { u } ^ { r } ) ^ { T } \cdot c _ { i }$ 是用户和物品在意图空间 (intention space)中的意图级别分数 (intention-level score)。
最终，具有最大 $l _ { u i j } ^ { r }$ 分数的物品将被选作推荐给用户的中间物品 (intermediate item) $e _ { u i } ^ { r }$ ，并作为点击模型 (click model)的输入。

4.4. 目标个体唤醒系数 (Targeted individual arousal coefficients, TIAC)

以往的工作 [3] 假设用户及其新点击的中间物品 (intermediate items)之间存在线性关系，并且所有用户的组合系数 (combination coefficient)都是相同的。然而，大量研究表明，不同用户对新内容或外部刺激 (external stimuli)的接受度各异，表现出不同的好奇心水平 (levels of curiosity)。为了解决这个问题，ITMPRec 引入了目标个体唤醒系数 (Targeted Individual Arousal Coefficients, TIAC)，以解释用户在主动推荐 (proactive recommendation)场景中对新内容的不同接受程度。

4.4.1. 历史偏好方差 (Historical Preference Variances)

首先，ITMPRec 计算用户的历史偏好方差 (historical preference variances)，作为个性化系数： $\mathbf { h } \mathbf { p } ^ { r - 1 } ( u ) = T o p \mathcal { Q } \{ \phi ( e _ { u } ^ { r - 1 } , e _ { i d x } ) \} , e _ { i d x } \in E \backslash { S _ { u } ^ { r - 1 } }$ 其中：

$\mathbf { h } \mathbf { p } ^ { r - 1 } ( u )$ 表示用户 $u$ 在第 r-1 回合 (round)的短时偏好 (short-term preferences)集合。
$\phi ( x , y )$ 表示两个向量 $x$ 和 $y$ 之间的余弦相似度 (cosine similarity)。
$T o p Q \{ \cdot \}$ 函数从物品嵌入空间 (item embedding space) $E$ 中，排除用户 $u$ 在回合 (round) r-1 之前已经交互过的物品集合 $S _ { u } ^ { r - 1 }$ ，然后选择与用户当前表示 (representation) $e _ { u } ^ { r - 1 }$ 具有最高 $\phi$ 值的前 Q 个物品 (top-Q items)的嵌入 (embeddings)。
$Q$ 是短时偏好 (short-term preferences)的容量，即考虑的用户对未交互物品的好奇心 (curiosity)数量。

4.4.2. 唤醒值计算 (Arousal Value Calculation)

接着，基于用户 $u$ 的短时偏好 (short-term preferences) $\mathbf { h } \mathbf { p } ^ { r - 1 } ( u )$ ，通过池化操作 (pooling operation)计算用户对目标物品 (target item) e _ { j } 的唤醒值 (arousal value)： $\beta _ { u } ^ { r } = { \cal P } { \cal O } { \cal O } L ( \phi ( { \bf h } { \bf p } ^ { r - 1 } ( u ) , e _ { j } ) )$ 其中：

$\beta _ { u } ^ { r }$ 是用户 $u$ 在回合 (round) $r$ 的目标个体唤醒系数 (Targeted Individual Arousal Coefficient)。
$P O O L ( \cdot )$ 表示平均池化操作 (average pooling operation)。该操作对短时偏好 (short-term preferences)集合 $\mathbf { h } \mathbf { p } ^ { r - 1 } ( u )$ 中每个物品与目标物品 (target item) e _ { j } 的余弦相似度 (cosine similarity)取平均值。
这个 TIAC 值 $\beta _ { u } ^ { r }$ 被传递到环境模拟器 (environment simulator)中的偏好演化模块 (preference evolution module)（参见 4.1.2 节），以个性化地控制用户偏好演化的程度。

4.5. LLM-基于的点击模拟智能体 (LLM-based click simulation agent)

与以往主动推荐 (proactive recommendation)方法仅使用基于分布的点击模型 (distribution-based click model) [3] 或假设用户被动接受所有中间物品 (intermediate items) [46] 不同，ITMPRec 提供了一种替代方案：使用LLM 智能体 (LLM agent) 来生成用户反馈。选择 LLM 的理由在于其丰富的外部知识库 (extensive external knowledge base)和强大的推理能力 (robust reasoning capabilities)。

ITMPRec 使用 ChatGLM3 作为一个点击模型 (click model)。给定输入 $\mathcal { H } _ { u } ^ { r }$ （如果处于初始轮次，则 $\mathcal { H } _ { u } ^ { 0 } = \mathcal { H } _ { u }$ ，即用户历史序列），用户 $u$ 的动作（0 表示不点击，1 表示点击）通过 LLM 智能体获得： $a _ { u } ^ { r } = L L M ( \mathcal { P } _ { F } , \mathcal { H } _ { u } ^ { r } , N A M E S ( i _ { u } ^ { r } ) )$ 其中：

$a _ { u } ^ { r }$ 是用户 $u$ 在回合 (round) $r$ 的点击动作。
$L L M ( \cdot )$ 表示大型语言模型 (Large Language Model)。
$\mathcal { P } _ { F }$ 表示任务指令，包括少样本示例 (few-shot examples)。
$\mathcal { H } _ { u } ^ { r }$ 表示用户 $u$ 在回合 (round) $r$ 的历史交互序列 (historical interaction sequence)。
$N A M E S ( i _ { u } ^ { r } )$ 表示在回合 (round) $r$ 推荐给用户 $u$ 的中间物品 (intermediate item)的名称。

为了方便收集模拟点击结果，ITMPRec 会提供严格的提示 (prompts)来让 LLM 生成二元值：0 表示不点击，1 表示点击当前中间物品 (intermediate item)。然后，下一轮用户历史序列 (historical sequence) $\mathcal { H } _ { u } ^ { r + 1 }$ 将按以下方式更新： $\mathcal { H } _ { u } ^ { r + 1 } = \left\{ \begin{array} { l l } { C O N C A T ( \mathcal { H } _ { u } ^ { r } , N A M E S ( i _ { u } ^ { r } ) ) , \mathrm { i f } a _ { u } ^ { r } = 1 } \\ { \mathcal { H } _ { u } ^ { r } , \mathrm { i f } a _ { u } ^ { r } = 0 } \end{array} \right.$ 其中：
CONCAT 表示连接操作 (concatenation operation)。
如果用户点击了中间物品 (intermediate item)，则该物品的名称会被添加到用户的历史序列 (historical sequence)中。

4.5.1. 传统点击模型与 LLM 智能体的讨论

传统点击模型： 通常基于伯努利分布 (Bernoulli distribution) [8]，基本假设是用户与物品之间的分数越高，用户接受该物品的概率越大。然而，用户的点击行为受多种因素影响，高分数并非唯一标准。
LLM 智能体： 其优势在于能够利用丰富的外部知识 (copious external knowledge)和推理能力 (reasoning capabilities)来建模当前时代用户复杂决策 (intricate decision-making)因素。这使得 LLM 智能体 (LLM agent) 能够更真实地模拟用户行为，例如考虑物品的类别 (category)、情感 (sentiment)、甚至隐含的叙事结构 (narrative structure)，而这些是传统模型难以捕捉的。

4.6. 算法流程 (Algorithm Flow)

ITMPRec 的整体算法流程如附录 A.3 中算法 1 (Algorithm 1)所示。 Algorithm 1 ITMPRec Input: 用户集 $\boldsymbol { \mathcal { U } }$ ；物品集 $\boldsymbol { \mathcal { T } }$ ；历史序列 s _ { u }，其中 $u$ 从 1 变化到 $| \mathcal { U } |$ ；引导轮次 $R$ ；批次大小 $B$ Output: 每个用户对每个目标内容 $j$ 的引导路径 $P _ { u j } ^ { r }$ 。

1: 通过 Equation (7) 获取要引导的目标物品 (target items)。 2: while $j$ in range (N _ { t a r }) do 3: $\quad P _ { u j } ^ { 0 } = \left[ \right]$ // 初始化用户 $u$ 对目标 $j$ 的引导路径 4: $\quad$ for $r$ in range( $R$ ) do 5: $\quad \quad$ 根据 $S _ { u } ^ { r }$ 通过 Equation (5) 获取用户表示 (representation)。 6: $\quad \quad$ intermediate_list $intermids _ { r } = \left[ \right]$ ；recs $recs _ { u } ^ { r } = [ ]$ 。 7: $\quad \quad$ for u _ { b a t c h } in range( $U$ , step $= B$ ) do 8: $\quad \quad \quad$ 通过 Equation (12) 获取意图级别分数 (intention-level score)。 9: $\quad \quad \quad rec _ { u } ^ { r } = \arg \max _ { i } ( l _ { u i j } ^ { r } )$ // 通过 Equation (13) 获取中间物品的总分数 (overall score)。 10: $\quad \quad \quad$ 通过 Equation (15) 获取目标个体唤醒系数 (targeted individual arousal coefficient)。 11: $\quad \quad \quad recs _ { u } ^ { r }$ .extend ( $rec _ { u } ^ { r }$ ) 12: $\quad \quad \quad intermids _ { r } = clicks \{ rec _ { u } ^ { r } \}$ // 执行点击模拟 (click simulation)。 13: $\quad \quad \quad intermids _ { r }$ .extend(intermidsr) // 收集所有用户的点击结果 14: $\quad \quad$ end for 15: $\quad \quad$ for iidx in range (len(intermids _ { r })) do 16: $\quad \quad \quad$ if intermidsr[iidx] then // 如果中间物品被点击 17: $\quad \quad \quad \quad$ 更新 $S _ { u } ^ { r + 1 } = { C O N C A T } ( S _ { u } ^ { r } , recs _ { u } ^ { r } [ i i d x ] , \beta _ { u } ^ { r } )$ // 更新用户历史序列和表示 18: $\quad \quad \quad \quad P _ { u j } ^ { r }$ .extend ( $recs _ { u } ^ { r } [ i i d x ]$ ) // 将点击的物品添加到引导路径 19: $\quad \quad \quad$ end if 20: $\quad \quad$ end for 21: $\quad$ end for 22: end while 23: return $P _ { u j } ^ { r }$

流程说明：

第 1 行： 预匹配模块 (pre-match module) 首先根据 Equation (7) 选定一批目标物品 (target items)。
第 2-22 行： 对每个目标物品 (target item) $j$ 进行迭代引导。
第 3 行： 为每个用户 $u$ 和目标物品 (target item) $j$ 初始化一个空的引导路径 $P _ { u j } ^ { 0 }$ 。
第 4-21 行： 进行 $R$ $R$ 轮引导 (nudging)。
- 第 5 行： 根据当前用户的历史序列 (historical sequence) $S _ { u } ^ { r }$ ，使用序列编码器 (sequence encoder) (Equation 5) 获取用户的表示 (representation) $e _ { u } ^ { r }$ 。
- 第 7-14 行： 批量处理用户。
  - 第 8 行： 计算意图级别分数 (intention-level score) (Equation 12)。
  - 第 9 行： 根据意图引导分数 (intention-induced scores)和引导激进程度 (nudging aggressiveness)，使用 Equation (13) 计算中间物品 (intermediate items)的总分数 (total score)，并选择得分最高的物品 $rec _ { u } ^ { r }$ 作为推荐。
  - 第 10 行： 计算目标个体唤醒系数 (targeted individual arousal coefficient) $\beta _ { u } ^ { r }$ (Equation 15)。
  - 第 12 行： 执行点击模拟 (click simulation) (可以基于分布或 LLM 智能体)，得到用户是否点击推荐物品 (recommended item)的结果。
- 第 15-20 行： 根据点击模拟 (click simulation)结果更新用户的历史序列 (historical sequence)和引导路径 (nudging path)。
  - 第 17 行： 如果用户点击了中间物品 (intermediate item)，则根据偏好演化 (preference evolution)公式更新用户的历史序列 (historical sequence) $S _ { u } ^ { r + 1 }$ 。这个更新过程将目标个体唤醒系数 (TIAC) $\beta _ { u } ^ { r }$ 纳入考虑。
  - 第 18 行： 将点击的中间物品 (intermediate item)添加到用户的引导路径 (nudging path) $P _ { u j } ^ { r }$ 中。
第 23 行： 返回最终的引导路径 (nudging path) $P _ { u j } ^ { r }$ 。

5. 实验设置

5.1. 数据集

实验在四个公开可用的数据集上进行：

ML-100k (MovieLens-100k): 电影推荐数据集。
Lastfm: 音乐收听记录数据集。
Steam: 游戏平台交互数据。
Douban_movie (豆瓣电影): 电影评分和评论数据。

这些数据集涵盖了不同的领域（电影、音乐、游戏），具有不同的规模和密度 (density)，能够全面评估模型的性能。以下是原文 Table 2 的数据统计：以下是原文 Table 2 的结果：

Dataset	ML-100k	Lastfm	Steam	Douban_movie
#Users	943	945	12,611	2,623
#Items	1,348	2,782	2,017	20,527
#Interactions	98,704	246,368	220,100	1,161,110
Density	7.7649%	9.3712%	0.9686%	2.1565%
#Avg. Items per User	104.67	36.78	19.54	442.66

为什么选择这些数据集： 这些数据集是推荐系统研究中常用的基准数据集，具有不同的稀疏程度和用户行为模式，有助于验证模型在不同场景下的泛化能力 (generalization ability)和鲁棒性 (robustness)。例如，ML-100k和Lastfm相对稠密，而Steam和Douban_movie则更稀疏，这允许研究模型在数据稀疏性 (sparsity)方面的表现。

5.2. 评估指标

ITMPRec 的性能通过以下三个指标进行评估：

5.2.1. 命中率 (HitRatio, HR@P)

概念定义： 命中率 (HitRatio, HR@P) 量化了在 $P$ 轮主动推荐 (proactive recommendation)周期中，用户对推荐物品产生正向交互 (positive interaction)（即点击）的比例。它衡量了推荐系统在限定轮次内成功引导用户点击的能力。 数学公式： $HR@P = \frac { 1 } { P | \mathcal { U } | } \sum _ { p = 1 } ^ { P } \sum _ { u \in \mathcal { U } } a _ { u p }$ 符号解释：

HR@P: 在 $P$ 轮推荐中的命中率 (HitRatio)。
$P$ : 评估的推荐轮次上限。
$| \mathcal { U } |$ : 用户总数。
$a _ { u p } \in \{0, 1\}$ : 表示用户 $u$ 在第 $p$ 轮的点击模拟器 (click simulator)反馈，1 表示点击，0 表示未点击。

5.2.2. 兴趣提升 (Increase of Interest, IoI@P)

概念定义： 兴趣提升 (Increase of Interest, IoI@P) 衡量了经过 $P$ 轮主动推荐 (proactive recommendation)后，用户对目标物品 (target item)的兴趣增加程度。它通过比较用户在引导开始前和引导 $P$ 轮后对目标物品 (target item)的相似度 (similarity)来量化。 数学公式： $IoI@P = \frac { 1 } { | \mathcal { U } | } \sum _ { \boldsymbol { u } \in \mathcal { U } } ( \hat { e } _ { j } ^ { T } \cdot \hat { e } _ { \boldsymbol { u } } ^ { P } - \hat { e } _ { j } ^ { T } \cdot \hat { e } _ { \boldsymbol { u } } ^ { 0 } )$ 符号解释：

IoI@P: 在 $P$ 轮推荐中的兴趣提升 (Increase of Interest)。
$| \mathcal { U } |$ : 用户总数。
$\hat { e } _ { j }$ : 目标物品 (target item)的嵌入 (embedding)。
$\hat { e } _ { \boldsymbol { u } } ^ { P }$ : 用户 $u$ 经过 $P$ 轮引导后的表示 (representation)。
$\hat { e } _ { \boldsymbol { u } } ^ { 0 }$ : 用户 $u$ 在引导开始时的表示 (representation)。
$\hat { e } _ { j } ^ { T } \cdot \hat { e } _ { \boldsymbol { u } } ^ { P }$ : 目标物品 (target item)与用户 $u$ 在第 $P$ 轮结束时表示 (representation)的内积 (inner product)，表示用户 $u$ 对目标物品的兴趣程度。
$\hat { e } _ { j } ^ { T } \cdot \hat { e } _ { \boldsymbol { u } } ^ { 0 }$ : 目标物品 (target item)与用户 $u$ 在引导开始时表示 (representation)的内积 (inner product)，表示用户 $u$ 对目标物品的初始兴趣程度。

5.2.3. 排名提升 (Increase of Ranking, IoR@P)

概念定义： 排名提升 (Increase of Ranking, IoR@P) 衡量了经过 $P$ 轮主动推荐 (proactive recommendation)后，目标物品 (target item)在用户所有候选物品 (candidate items)中的排名 (ranking)的提升程度。这个指标直观地反映了目标物品 (target item)对于用户而言，从不那么靠前的位置移动到更靠前的位置的平均变化。 数学公式： $IoR@P = \frac { 1 } { | \mathcal { U } | } \sum _ { u \in \mathcal { U } } \mathsf { R a n } \{ \hat { e } _ { j } | \hat { e } _ { u } ^ { 0 } \} - \mathsf { R a n } \{ \hat { e } _ { j } | \hat { e } _ { u } ^ { P } \}$ 符号解释：

IoR@P: 在 $P$ 轮推荐中的排名提升 (Increase of Ranking)。
$| \mathcal { U } |$ : 用户总数。
$\mathsf { R a n } \{ \hat { e } _ { j } | \hat { e } _ { u } ^ { 0 } \}$ :目标物品 (target item) $\hat { e } _ { j }$ 在用户 $u$ 初始表示 (representation) $\hat { e } _ { u } ^ { 0 }$ 基础上，与其他所有物品的相似度 (similarity)排序中的离散排名 (discrete ranking)。
$\mathsf { R a n } \{ \hat { e } _ { j } | \hat { e } _ { u } ^ { P } \}$ :目标物品 (target item) $\hat { e } _ { j }$ 在用户 $u$ 经过 $P$ 轮引导后的表示 (representation) $\hat { e } _ { u } ^ { P }$ 基础上，与其他所有物品的相似度 (similarity)排序中的离散排名 (discrete ranking)。

注意： $P \le R$ ，即评估在不同的引导阶段进行，通常设定 $P \in [5, 10, 15, 20]$ 。

5.3. 对比基线 (Baselines)

ITMPRec 与以下八种最先进的 (SOTA)方法进行了比较，这些方法分为两大类：

5.3.1. 序列推荐方法 (Sequential Recommendation, SR)

这类方法旨在建模用户历史行为序列以预测下一个感兴趣的物品。

SASRec [18]: 经典的序列推荐 (SR)方法，利用 Transformer 中的自注意力机制 (self-attention mechanism)来捕捉用户序列中的长短期依赖 (long- and short-term dependencies)。
ICLRec [7]: 一种意图对比学习范式 (intent contrastive learning paradigm)，能够建模用户的潜在意图 (latent intention)，并通过新的对比自监督学习目标 (contrastive self-supervised learning objective)将其融入 SR 方法。
MStein [12]: 一种基于互 Wasserstein 距离最小化 (mutual Wasserstein discrepancy minimization)的序列推荐 (SR)方法，用于获取更细粒度 (fine-grained)的序列模式。
ICSRec [29]: 通过子序列 (subsequences)增强的序列推荐 (SR)方法，同时考虑用户的意图原型 (intention prototype)。
BSARec [34]: 一种结合了注意力归纳偏置 (attentive inductive bias)的序列推荐 (SR)方法。

5.3.2. 主动推荐方法 (Proactive Recommendation, ProactRec)

这类方法旨在通过多轮互动引导用户偏好。

IRN [46]: 一种基于 Transformer 的主动推荐 (ProactRec)工作，利用个性化印象掩码 (personalized impression mask)生成一系列中间物品 (middle items)来引导用户。
IPG [3]: 提出了一种迭代偏好引导 (iterative preference guidance)框架，可以执行主动推荐 (ProactRec)任务，并采用基于分布的点击模块 (distribution-based click module)。
LLM-IPP [37]: 一种纯 LLM 推荐方法 (recommendation method)，利用 LLM 的路径规划 (path planning)和指令遵循 (instruction following)能力，确保连续推荐之间的一致性并保持推荐物品的用户可接受性。为了实验公平性，本文使用 GLM-4-Flash 作为 LLM 的实现。

5.4. 实施细节 (Implementation Details)

ITMPRec 使用 PyTorch 实现，实验在 NVIDIA GeForce RTX 3090 服务器上进行。
嵌入维度 (embedding size) $d$ 对于所有方法均设置为 64。
总引导轮次 (total nudging rounds) $R$ 对于所有数据集均设置为 20。
目标物品数量 (target item number) N _ { t a r } 在 Lastfm 和 ML-100k 数据集上设置为 50，在 Steam 和 Douban_movie 数据集上设置为 20。
用户序列的最大长度设置为 50 (与以往 SR 工作一致)。
学习率 (learning rate) 为 $1 e ^ { - 3 }$ 。

6. 实验结果与分析

6.1. RQ1: 消融研究 (Ablation Study)

ITMPRec 的消融研究旨在分析其各个关键组件（预匹配模块 (Pre-match module, P)、意图引导分数 (Intention-induced scores, IIS)和目标个体唤醒系数 (Targeted Individual Arousal Coefficients, TIAC)）的贡献。研究通过移除这些组件来评估性能下降情况。

以下是原文 Table 3 的结果：

Dataset	Ablation	HR@20	IoI@20	IoR@20
ML-100k	w/o P	0.4067	0.4622	131.4221
	w/o IIS	0.3878	0.4596	136.6786
	w/o TIAC	0.3823	0.4006	118.3061
	ITMPRec	0.4113	0.6161	141.8555
Lastfm	w/o P	0.4016	0.469	139.6954
	w/o IIS	0.3324	0.403	97.2408
	w/o TIAC	0.3758	0.5149	116.5403
	ITMPRec	0.4135	0.6614	161.7352
Steam	w/o P	0.3907	0.3108	59.8572
	w/o IIS	0.3920	0.3321	71.5609
	w/o TIAC	0.3858	0.2472	38.4798
	ITMPRec	0.3923	0.3336	71.6806
Douban_movie	w/o P	0.3389	0.3201	73.9921
	w/o IIS	0.3329	0.3035	64.1521
	w/o TIAC	0.3303	0.2644	50.9361
	ITMPRec	0.3362	0.3374	77.2108

分析：

w/o P (without Pre-match)： 移除预匹配模块 (pre-match module)，意味着目标物品是随机选择的。
- 在 Lastfm 和 Douban_movie 数据集上，w/o P 的 IoI@20 和 IoR@20 性能略有下降，但整体影响相对较小。这表明预匹配模块 (pre-match module)在确保目标物品的普遍接受性 (general acceptability)和避免冷启动 (cold-start)方面起到作用，但其对最终引导效果的直接贡献可能不如其他两个模块显著，因为即使是随机目标，如果与用户兴趣有一定关联，系统仍能尝试引导。
- 然而，文章提到预匹配模块 (pre-match module)的设计是为了选择特定类别中的目标物品，避免随机选择导致冷启动 (cold-start)和目标分散。从结果来看，ITMPRec 整体性能优于 w/o P，说明其策略是有效的。
w/o IIS (without Intention-induced scores)： 移除意图引导分数 (intention-induced scores)。
- 在 Lastfm 和 Douban_movie 数据集上，w/o IIS 导致了显著的性能下降，尤其是在 Lastfm 上 IoI@20 从 0.6614 降至 0.403，IoR@20 从 161.7352 降至 97.2408。这强烈表明意图建模 (intention modeling)在引导 (nudging)过程中至关重要，它提供了粗粒度 (coarse-grained)的用户兴趣信息，有助于选择更合适的中间物品 (intermediate items)。
- 在 Steam 数据集上，w/o IIS 的影响相对较小。论文解释这可能是因为 Steam 数据集中用户可以搜索的物品数量有限，限制了候选物品池 (candidate item pools)，从而减少了不同选择策略（包括意图 (intention)）的影响。
w/o TIAC (without Targeted Individual Arousal Coefficients)： 移除目标个体唤醒系数 (TIAC)。
- w/o TIAC 在所有数据集上都导致了显著的性能下降，尤其是在 ML-100k、Lastfm 和 Douban_movie 上，IoI@20 和 IoR@20 都有明显降低。这强调了目标个体唤醒系数 (TIAC)在主动推荐 (proactive recommendation)中的重要性，它能捕捉用户对外部刺激 (external stimuli)的个性化敏感度，使引导过程更加个性化 (personalized)和有效。
- 论文指出 TIAC 在 Steam 和 Douban_movie 等多样化数据集上表现更好，进一步支持了其在多轮任务 (multi-round tasks)中个性化 (personalization)的重要性。
  
  总结： 尽管 ITMPRec 在 HR@P 上略有下降，但这是可接受的，因为它优先关注兴趣引导 (interest nudging) (IoI@P 和 IoR@P)。所有三个组件都对 ITMPRec 在兴趣引导 (interest nudging)指标上的优越性做出了贡献，其中意图引导分数 (IIS)和目标个体唤醒系数 (TIAC)的贡献尤为显著，这验证了它们在建模用户动态偏好演化和个性化用户响应方面的有效性。

6.2. RQ2: 整体性能比较 (Overall performance comparison)

ITMPRec 与八种最先进的 (SOTA)方法进行比较，所有方法均使用基于分布的点击模拟器 (distribution-based click simulator)以确保公平性。

以下是原文 Table 4 的结果：

Datasets	Methods HR@5IoI@5			IoR@5	HR@10IoI@ 10IoR@10			HR@15	IoI@15	IoR@15	HR@20	IoI@20			IoR@20
ML-100k	SASRec	0.3994	0.0455	-0.4036	0.3991	0.0866	-0.9826	0.398	0.1121	-1.2254	0.3979	0.1259			-1.1867
	SASRec	ICLRec			0.4124	0.0394	0.2398	0.4117	0.0744	0.2578	0.4102	0.0952	0.2476	0.4083	0.1052	0.0111
	MStein	0.3134	0.0074	-0.1127	0.3125	0.0141	-0.1355	0.3118	0.0204	-0.022	0.3114	0.0264			0.12
	BSARec	0.3705	0.0416	-0.3646	0.3702	0.0814	-0.7027	0.3692	0.1131	-1.1309	0.3689	0.1365			-1.2588
	ICSRec	0.3642	0.0412	-0.0593	0.3636	0.0866	0.0346	0.3628	0.1231	0.2145	0.3621	0.1503			0.2695
	IRN	0.4274	0.0299	0.0518	0.427	0.0578	0.2712	0.425	0.0867	1.3507	0.4237	0.0912			1.7407
	LLM-IPP	0.3695	0.0450	0.6572	0.368	0.0865	1.1868	0.3658	0.1184	1.3978	0.3659	0.1412			1.3998
Lastfm	SASRec	0.3263	0.0094	-0.1749	0.3254	0.0174	-0.6057	0.3248	0.0250	-0.7632	0.3243	0.0311			-1.1204
	ICLRec	0.4137	0.0083	0.1126	0.4129	0.0102	0.4359	0.4111	0.0066	0.8594	0.4106	0.0001			0.9521
	MStein	0.3289	-0.0024	-0.6893	0.3281	0.0023	-0.8823	0.3275	0.0139	-0.925	0.327	0.024			-0.9139
	BSARec	0.3334	0.0193	0.5216	0.3327	0.0297	0.7023	0.332	0.04	0.6054	0.3315	0.0493			0.5891
	ICSRec	0.3369	0.0115	-0.1695	0.3359	0.0251	-0.0528	0.3351	0.0362	0.0099	0.3345	0.0458			0.0688
	IRN	0.4028	0.0101	0.0185	0.4018	0.0203	0.0916	0.4008	0.040	1.8248	0.4002	0.0525			3.2734
	LLM-IPP	0.3516	0.1791	25.2901	0.3528	0.2976	52.9695	0.349	0.3879	0.5057	0.352	0.4544			100.1863
Steam	SASRec	0.4271	0.0486	-0.2202	0.4263	0.0991	0.3557	0.4257	0.1320	1.1601	0.4251	0.1521			1.6881
	ICLRec	0.3886	0.0583	0.8334	0.3878	0.114	2.0505	0.3872	0.1571	3.3948	0.3867	0.1898			4.6866
	MStein	0.3929	0.0584	1.1366	0.3921	0.1166	2.4076	0.3914	0.162	2.7133	0.3909	0.1942			2.5779
	BSARec	0.4096	0.0608	0.1626	0.4089	0.129	2.0218	0.4083	0.176	4.0323	0.4078	0.205			5.6237
	ICSRec	0.4005	0.0597	0.0492	0.3998	0.1223	0.7546	0.3991	0.1656	1.6664	0.3986	0.1927			2.0173
	IRN	0.4205	0.0418	0.3826	0.4195	0.0839	0.586	0.4188	0.1628	2.6768	0.4183	0.2016			6.6263
	LLM-IPP	0.3921	0.1036	17.6234	0.3907	0.1777	27.688	0.3898	0.2245	33.4087	0.3895	0.2554			37.4944
Douban_movie	SASRec	0.3673	-0.0021	0.0888	0.3669	-0.0042	0.2017	0.3662	-0.0046	0.3321	0.3655	-0.004			0.5044
	ICLRec	0.3277	0.0002	0.0062	0.3268	-0.0017	0.0043	0.3261	-0.0009	0.0475	0.3256	0.0019			0.175
	MStein	0.3174	0.003	0.018	0.3166	0.0076	0.0636	0.3159	0.0128	0.1195	0.3154	0.0176			0.2197
	BSARec	0.4217	-0.0046	0.0028	0.4215	-0.0095	-0.0768	0.4208	-0.013	-0.146	0.42	-0.015			-0.2929
	ICSRec	0.3304	0.0019	0.0858	0.3296	0.0016	0.1511	0.3289	0.0037	0.2715	0.3284	0.0066			0.4051
	IRN	0.3758	0.0037	0.1676	0.3753	0.0069	0.2913	0.3744	0.0052	0.4284	0.3739	0.001			0.6543
	LLM-IPP	0.331	0.0849	13.3451	0.3323	0.1418	21.2825	0.331	0.1885	30.0722	0.3303	0.2259			39.0427
ML-100k	IPG	0.3866	0.152	33.2767	0.3891	0.262	68.703	0.3895	0.3409	96.4608	0.3861	0.3898			111.8751
ML-100k	ITMPRec	0.4064	0.2433	70.0011	0.4024	0.3998	120.669	0.404	0.4556	136.867	0.4016	0.469			139.6954
Lastfm	IPG	0.3516	0.1791	25.2901	0.3528	0.2976	52.9695	0.349	0.3879	0.5057	0.352	0.4544			100.1863
Lastfm	ITMPRec	0.4129	0.3943	96.9189	0.4153	0.5938	146.0627	0.4115	0.6486	159.1564	0.4135	0.6614			161.7352
Steam	IPG	0.3921	0.1036	17.6234	0.3907	0.1777	27.688	0.3898	0.2245	33.4087	0.3895	0.2554			37.4944
Steam	ITMPRec	0.3918	0.2192	55.3553	0.3937	0.2955	66.6745	0.393	0.3239	70.6409	0.3923	0.3336			71.6806
Douban_movie	IPG	0.331	0.0849	13.3451	0.3323	0.1418	21.2825	0.331	0.1885	30.0722	0.3303	0.2259			39.0427
Douban_movie	ITMPRec	0.3366	0.1619	36.0797	0.3363	0.2408	50.5707	0.3361	0.296	65.3341	0.3362	0.3374			77.2108

分析：

主动推荐方法 (ProactRec) 与序列推荐方法 (SR) 的对比：
- 在兴趣提升 (IoI)和排名提升 (IoR)指标上，主动推荐 (ProactRec)方法（如 IRN, IPG, LLM-IPP, ITMPRec）普遍优于传统的序列推荐 (SR)方法（如 SASRec, ICLRec, MStein, BSARec, ICSRec）。许多SR方法甚至显示出负值的IoI和IoR，这表明它们倾向于将用户偏好引导偏离目标物品 (target items)。这验证了主动推荐 (ProactRec)范式在渐进式推荐 (progressive recommendations)中的优势。
- HR@P 指标上，主动推荐 (ProactRec)方法有时略低于一些SR方法，这是因为ProactRec为了引导用户偏好，可能会推荐一些不完全符合用户当前历史偏好 (historical preferences)的中间物品 (intermediate items)，导致短期点击率略有牺牲，但这种下降是可接受的。
IRN 的局限性： IRN 的引导性能 (guiding performance)有限，因为它假设用户会被动接受所有中间推荐路径 (intermediate recommendations)，并且其路径生成是一次性的。在实际的点击模拟反馈 (simulated click feedback)下，IRN 的IoI和IoR提升缓慢。
LLM-IPP 的性能与效率问题： 尽管 LLM-IPP 在 ML-100k 数据集上优于非主动推荐 (ProactRec)方法，并且在某些不现实假设 (unrealistic assumptions)（如用户被动接受所有中间物品）下可与 IRN 媲美，但在ITMPRec的用户点击模拟 (user click simulation)设置下，LLM-IPP 的 IoI@P 和 IoR@P 指标表现出显著的性能不佳 (underperformance)。此外，LLM-IPP 的时间消耗 (time consumption)超过 50 小时，而其他方法在 1 小时内完成，这严重限制了其可扩展性 (scalability)，因此只在一个小型数据集 ML-100k 上进行了实验。
ITMPRec 的优越性：
- ITMPRec 在IoI@P和IoR@P指标上显著优于所有SR和主动推荐 (ProactRec)基线方法。
- 与排名第二 (second-ranked)的主动推荐 (ProactRec)方法 IPG 相比，ITMPRec 在四个数据集上的IoI@20平均提升了 36.47%，IoR@20平均提升了 68.80%。
- 这表明 ITMPRec 能够有效解决引导用户 (guiding users)至目标类别 (target category)和单个物品 (single item)的问题。

6.3. RQ3: 参数敏感性与案例研究 (Parameter Sensitivity and Case Study)

6.3.1. 参数敏感性分析 (Parameter Sensitivity Analysis)

ITMPRec 进一步分析了模型超参数 (hyper-parameters)的影响，特别是 $Q$ （个人好奇心 (personal curiosity)物品数量）和 N _ { C }（意图数量 (intention number)）。以下是原文 Figure 4 的结果：

$Figure 4: The effect of hyperparameters $Q$ and `N _ { C }` for four datasets$
该图像是图表，展示了超参数 $Q$ 和 $N_{C}$ 对四个数据集的影响。上半部分的图表（左侧）显示了在不同采样数量 $Q$ 下的推荐效果（IOR），而下半部分（右侧）则呈现了在不同意图数量 $N_{C}$ 下的推荐效果。每个数据集包括 Lastfm、ML-100k、Steam 和 Douban movie，反映了这些超参数对个性化推荐性能的影响。

Figure 4: The effect of hyperparameters $Q$ and N _ { C } for four datasets

分析：

$Q$ (个人好奇心物品数量) 的影响 (图 4a)：
- 对于 Lastfm 和 ML-100k 等稠密数据集 (dense datasets)，采样 (sampling)前 5 个用户偏好并计算相似度分数 (similarity scores)可以有效地表征 (characterize)用户响应。这意味着这些数据集的用户兴趣模式可能相对集中，较少的物品即可反映其好奇心 (curiosity)。
- 对于 Douban_movie 和 Steam 等稀疏数据集 (sparse datasets)，需要更多的偏好（例如 20 个）来建模用户的唤醒水平 (arousal levels)。这可能因为稀疏数据集 (sparse datasets)中用户交互较少，需要更多信息来全面理解其潜在兴趣 (potential interests)和好奇心 (curiosity)。
N _ { C } (意图数量) 的影响 (图 4b)：
- 较大的 N _ { C } 值表示用户意图 (user intentions)的多样性 (diversity)更高。
- 意图数量 (intention number)的最佳值因数据集而异。
- 对于 Lastfm 和 ML-100k 等小型数据集，模型在 32 个意图时表现最佳。
- 对于 Steam 和 Douban_movie 等大型数据集，256 个意图能带来更好的性能。这表明大型数据集可能包含更丰富、更多样的用户意图模式 (intention patterns)，需要更多的意图聚类 (intention clusters)来有效捕捉。

6.3.2. LLM-基于点击模拟与基于分布点击模拟的深入分析 (In-depth analysis of two click simulation tactics)

论文在附录 A.5 中提供了LLM-基于 (LLM-based)和基于分布 (distribution-based)的点击模拟 (click simulations)的定量和定性比较。

定量比较 (Quantitative comparison)： 以下是原文 Figure 6 的结果：

Figure 6: The comparative results of the distributionbased and LLM-based click simulations on the Lastfm and Douban_movie datasets.
该图像是一个比较图表，展示了 Lastfm 和 Douban_movie 数据集上基于分布和 LLM 的点击模拟结果。上方为 Lastfm 的结果，左侧为 IoL，右侧为 IoR；下方为 Douban_movie 的结果，左侧为 IoL，右侧为 IoR。

Figure 6: The comparative results of the distributionbased and LLM-based click simulations on the Lastfm and Douban_movie datasets.

分析：

图 6 显示，LLM-基于 (LLM-based)的点击模型 (click model)在兴趣引导指标 (nudging metric) IoI@P 和 IoR@P 上均优于基于分布 (distribution-based)的方法。这表明LLM 智能体 (LLM agent)能够更有效地模拟用户对中间物品 (intermediate items)的接受度，从而产生更好的引导效果 (nudging effect)。

定性比较 (Qualitative comparison)： 为了更直观地理解两种点击模型 (click model)的区别，论文在 ML-100k 数据集上提供了一个真实的案例研究，如下表 (原文 Table 5) 所示。以下是原文 Table 5 的结果：

Target movies in target category Sci-Fi	Description
[1] Robert A. Heinlein's The Puppet Masters	Sci-Fi, Horror.
[2] Aliens	Sci-Fi, Action, Thriller.
[3] Mars Attacks!	Sci-Fi, Action, Comedy, War.
The latest five movies' categories in the viewing history: Drama, Animation, Children's, Comedy, War
Intermediate items by LLM agent Frighteners(Com, Hor) → Hunt for Red October(Act, Thr)	Intermediate items by distribution-based scheme Breakfast at Tiffany's (Dra, Rom) → While You Were Sleeping
→ Forbidden Planet (Sci) ✓ House Party 3 (Com) → Dumb & Dumber (Com) →	(Com, Rom) → Great Escape (War) → Best of the Best 3: No Turning Back (Act) → Strange Days (Sci, Act, Cri) ✓ Forget Paris (Com, Rom) → G.I. Jane (Act, Dra, War) → Great
Star Trek IV (Act, Adv, Sci) ✓ Drunks (Dra) → Balto (Ani,Chi) → Red Rock West (Thr)	Dictator (Com) → Star Trek IV (Sci) √ Dangerous Ground (Dra)→ Hour of the Pig (Dra, Mys) → Red Rock West (Thr)→ Canadian Bacon (Com, War)→ Moonlight
→ Canadian Bacon (Com, War) → Dangerous Minds (Dra) → Strange Days (Act, Cri, Sci) √	and Valentino (Dra, Rom) → Dangerous Minds (Dra) → Hunt for Red October (Act, Thr)

案例分析：

目标电影 1: "Robert A. Heinlein's The Puppet Masters" (科幻, 恐怖)
- LLM 智能体： 先推荐喜剧-恐怖 (comedy-horror)电影，然后是动作-惊悚 (Action-Thriller)电影，最后成功引导至科幻 (Sci-Fi)电影 "Forbidden Planet"。虽然 "Forbidden Planet" 在 ML-100k 中仅标记为科幻 (Sci-Fi)，但 LLM 利用其外部知识 (external knowledge)可能了解到它也包含动作 (Action)、惊悚 (Thriller)和冒险 (Adventure)元素，使其与用户点击路径中的惊悚 (Thriller)元素相吻合。
- 基于分布的方法： 先推荐剧情-浪漫 (Drama-Romance)电影，然后是战争 (War)电影（基于用户历史偏好），再通过战争 (War)与动作 (Action)的相似性引导至动作 (Action)电影，最终点击了包含科幻 (Sci-Fi)和动作 (Action)元素的 "Strange Days"。
目标电影 2: "Aliens" (科幻, 动作, 惊悚)
- 引导过程与第一个目标类似。
目标电影 3: "Mars Attack" (科幻, 动作, 喜剧, 战争)
- LLM 智能体： 从用户过去的剧情 (Drama)和动画 (Animation)兴趣开始，然后模拟用户接受了惊悚 (Thriller)电影 "Red Rock West" (具有冒险 (adventure)和犯罪 (criminal)元素)，最后预测用户会点击 "Dangerous Minds" (结合了动作 (Action)、犯罪 (Crime)和科幻 (Sci-Fi)元素)，与之前路径中的犯罪 (Crime)和动作 (Action)元素保持一致，从而更容易引导用户到达目标电影 (target movie)。
- 基于分布的方法： 在引导至科幻 (Sci-Fi)电影方面遇到了困难。
  
  总结： LLM 智能体 (LLM agent) 在点击模拟 (click simulation)中表现出更强的能力，它能利用外部知识 (external knowledge)和推理 (reasoning)来捕捉更复杂的用户决策因素 (user decision-making factors)，从而产生更符合直觉和真实世界场景的引导路径。这肯定了 LLM 智能体 (LLM agent) 在模拟环境中有效性 (effectiveness)。

6.3.3. 案例研究：用户嵌入演化可视化 (Case Study: User embedding evolution visualization)

为了进一步说明 ITMPRec 的目标导向引导 (target-driven nudging)有效性，论文在附录 A.6 中展示了一个案例研究 (case study)，可视化了多轮 (multiple rounds)中用户嵌入 (embedding)的演化。原文 Figure 7 显示了用户嵌入 (embedding)的演化过程：

该图像是热图，展示了ITMPRec模型在不同回合（Round）和维度（Dimension）下用户与目标之间的交互强度变化。横轴表示回合数，从用户到目标；纵轴显示不同的维度，色彩深浅反映了交互强度。图中信息有助于理解用户意图的发展。

(a) user embedding's evolution in ITMPRec 原文 Figure 8 显示了中间物品 (intermediate items)的推荐：

该图像是一个示意图，展示了 ITMPRec 方法中用户意图随每轮推荐变化的热力图。图中横轴表示推荐轮次，纵轴表示用户维度，颜色深浅反映了意图强度的变化。

(b) intermediate items recommended by ITMPRec
last column shows the target item's embedding.

分析：

图 7a 展示了一个Lastfm用户嵌入 (embedding)在 ITMPRec 引导下的演化过程。随着引导轮次 (nudging rounds)的进行，用户的嵌入 (embedding)逐渐向目标物品 (target item)的嵌入 (embedding)靠近。这直观地证明了 ITMPRec 能够有效地调整用户偏好，使其与预设目标 (target)对齐。
图 7b 显示了每个回合 (round)推荐给用户的中间物品 (intermediate items)的嵌入 (embedding)。这些中间物品 (intermediate items)在用户嵌入 (user embedding)和目标物品嵌入 (target item embedding)之间起到了桥梁 (bridge)的作用，逐步将用户引导至目标 (target)。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的基于意图的目标导向多轮主动推荐 (Intention-based Targeted Multi-round Proactive Recommendation)模型，名为 ITMPRec。该模型克服了传统序列推荐 (SR)方法仅关注用户兴趣的局限性，通过目标物品驱动 (target item-driven)策略实现主动引导 (proactive nudging)。

ITMPRec 的核心创新包括：

预匹配模块 (Pre-match module)： 有效地从特定类别中选择目标物品 (target items)，解决了随机目标选择带来的问题。
意图引导分数 (Intention-induced scores)： 捕捉用户粗粒度意图 (coarse-level intention)的演变，为下一轮引导推荐 (next-round steering recommendation)提供额外证据。
目标个体唤醒系数 (Targeted Individual Arousal Coefficients, TIAC)： 建模用户对外部刺激 (external stimuli)的个性化敏感度，从而提升模型的个性化 (personalization)和整体性能。
LLM 智能体点击模拟器 (LLM-based click simulator agent)： 作为一个可插拔组件，利用大型语言模型 (LLM)独特的外部知识 (external knowledge)和推理能力 (reasoning capabilities)，更真实地模拟用户对中间物品 (intermediate items)的点击反馈。

在四个真实世界数据集上进行的广泛实验表明，ITMPRec 相较于八个最先进的 (SOTA)基线模型具有显著优越性，尤其是在兴趣提升 (IoI@20)和排名提升 (IoR@20)指标上。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来研究方向：

因果理论 (Causal theory)应用： 未来将进一步研究引导过程 (nudging process)中的因果理论 (causal theory) [13]，以增强模型的可解释性 (explainability) [23] 和在复杂概率建模 (complex probabilistic modeling)中的鲁棒性 (robustness)。目前 ITMPRec 主要关注相关性 (correlation)，但深入理解引导行为的因果机制 (causal mechanism)将有助于设计更有效、更可信赖的主动推荐 (proactive recommendation)系统。
LLM 智能体 (LLM agent)的可扩展性 (scalability)和效率 (efficiency)： 尽管 LLM 智能体 (LLM agent) 在模拟用户反馈方面表现出色，但其计算成本 (computational cost)仍然很高（如 LLM-IPP 所示），这限制了其在超大规模推荐系统中的应用。未来的工作可能需要探索更高效的 LLM 压缩 (LLM compression)、蒸馏 (distillation)技术或更轻量级的代理模型 (proxy models)。
多目标引导 (Multi-target nudging)： 目前 ITMPRec 主要关注引导用户到一个或一类目标物品 (target items)。未来可以探索如何同时引导用户向多个甚至相互竞争的目标发展，这将增加系统的复杂性和实用性。
用户满意度 (User satisfaction)的长期影响： 主动推荐 (proactive recommendation)旨在长期扩展用户兴趣，但其对用户长期满意度 (long-term satisfaction)和留存率 (retention)的影响需要更深入的研究和评估。

7.3. 个人启发与批判

7.3.1. 个人启发

从被动到主动的范式转变： ITMPRec 强调了推荐系统从被动适应用户偏好到主动引导用户兴趣的范式转变，这对于缓解过滤气泡 (filter bubble)和信息茧房 (information cocoon)问题具有重要意义。在内容过载 (overload)的时代，主动帮助用户探索新领域，而不是仅仅强化现有偏好，能够带来更健康、更多样化的内容生态。
意图建模 (Intention modeling)在主动推荐 (proactive recommendation)中的潜力： 论文证明了意图 (intention)在多轮引导 (multi-round nudging)过程中的关键作用。意图 (Intention)作为比偏好 (preference)更粗粒度 (coarse-grained)的概念，能够为引导路径 (nudging path)提供更宏观、更稳定的方向，这在设计长期的用户教育 (user education)或兴趣扩展 (interest expansion)策略时尤为重要。
LLM 智能体 (LLM agent)作为仿真环境的关键组件： LLM 智能体 (LLM agent)在模拟用户行为方面的潜力令人印象深刻。它利用外部知识 (external knowledge)和推理能力 (reasoning capabilities)模拟的用户决策过程，比传统基于分布的点击模型 (distribution-based click models)更接近真实世界。这为离线评估 (offline evaluation)和策略优化 (policy optimization)提供了更可靠的仿真环境 (simulation environment)，尤其是在冷启动 (cold-start)或探索 (exploration)场景下，LLM可以提供更丰富的交互反馈。
个性化敏感度 (Personalized sensitivity)的考量： TIAC 模块的引入提醒我们，即使是在引导过程中，用户也不是同质的。每个人对新内容的接受程度、好奇心 (curiosity)和开放性 (openness)都不同。这种个性化 (personalization)的考量是提升主动推荐 (proactive recommendation)效果的关键。

7.3.2. 批判

LLM 智能体 (LLM agent)的黑盒特性 (Black-box nature)与可解释性 (interpretability)： 尽管 LLM 智能体 (LLM agent) 提供了更逼真的模拟，但其内部决策过程仍是黑盒 (black-box)。虽然论文提到 LLM 具有可解释性 (interpretability)，但在实际应用中，如何清晰地解释LLM 智能体 (LLM agent)为何做出某个点击决策，以及这种解释如何反哺推荐策略的优化，仍是一个挑战。尤其是在因果理论 (causal theory)的未来研究方向中，LLM的黑盒特性 (black-box nature)可能成为进一步分析的障碍。
因果性 (Causality)的缺失： 论文明确提到了未来将研究因果理论 (causal theory)，这正是当前 ITMPRec 的一个潜在局限。目前模型主要通过相关性 (correlation)进行引导 (nudging)，即推荐的中间物品 (intermediate items)与目标物品 (target items)在嵌入空间 (embedding space)中是相似的。然而，用户接受中间物品 (intermediate items)后，其偏好向目标物品 (target items)靠拢，这究竟是中间物品 (intermediate items)``因果性 (causally)地改变了用户的兴趣，还是仅仅因为中间物品 (intermediate items)本身就与用户的潜在兴趣 (latent interests)和目标 (target)相关联？缺乏因果分析 (causal analysis)可能导致次优引导策略 (suboptimal nudging strategies)。
多轮引导 (Multi-round nudging)的用户疲劳 (user fatigue)与反感 (aversion)： 论文主要关注引导效果 (nudging effectiveness)，但多轮 (multi-round)强制或过于激进的引导 (nudging)可能导致用户疲劳 (user fatigue)甚至反感 (aversion)。HR@P 的略微下降可能预示了这种风险。如何在实现引导目标 (nudging goals)的同时，最大化用户体验 (user experience)和长期留存 (long-term retention)，是主动推荐 (proactive recommendation)需要长期关注的问题。LLM 智能体 (LLM agent)在模拟时应更精细地建模用户负面反馈 (negative user feedback)。
领域依赖性 (Domain dependence)： 意图数量 (intention number) N _ { C } 和个人好奇心物品数量 (personal curiosity items) $Q$ 等超参数 (hyper-parameters)的最佳值在不同数据集上差异显著。这表明 ITMPRec 的某些组件可能存在领域依赖性 (domain dependence)，在新的应用领域可能需要大量的调优 (tuning)。如何设计更具领域无关性 (domain-agnostic)的意图 (intention)和好奇心 (curiosity)建模方法是一个值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。