论文状态：已完成

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

发表：2025/03/29

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了ReaRec，一个创新的推理时计算框架，旨在提高序列推荐系统的用户表示能力。通过隐式多步推理和特殊位置嵌入，ReaRec克服了传统方法在理解用户偏好和长尾物品方面的局限。实验证明，其性能提升显著，具有广泛的应用潜力。

摘要

Sequential Recommendation (SeqRec) aims to predict the next item by capturing sequential patterns from users' historical interactions, playing a crucial role in many real-world recommender systems. However, existing approaches predominantly adopt a direct forward computation paradigm, where the final hidden state of the sequence encoder serves as the user representation. We argue that this inference paradigm, due to its limited computational depth, struggles to model the complex evolving nature of user preferences and lacks a nuanced understanding of long-tail items, leading to suboptimal performance. To address this issue, we propose \textbf{ReaRec}, the first inference-time computing framework for recommender systems, which enhances user representations through implicit multi-step reasoning. Specifically, ReaRec autoregressively feeds the sequence's last hidden state into the sequential recommender while incorporating special reasoning position embeddings to decouple the original item encoding space from the multi-step reasoning space. Moreover, we introduce two lightweight reasoning-based learning methods, Ensemble Reasoning Learning (ERL) and Progressive Reasoning Learning (PRL), to further effectively exploit ReaRec's reasoning potential. Extensive experiments on five public real-world datasets and different SeqRec architectures demonstrate the generality and effectiveness of our proposed ReaRec. Remarkably, post-hoc analyses reveal that ReaRec significantly elevates the performance ceiling of multiple sequential recommendation backbones by approximately 30%-50%. Thus, we believe this work can open a new and promising avenue for future research in inference-time computing for sequential recommendation.

思维导图

论文精读

中文精读约 51 分钟读完 · 32,974 字

1. 论文基本信息

1.1. 标题

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation (推荐前思考：释放序列推荐的潜在推理能力)

1.2. 作者

Jiakai Tang, Sunhao Dai, Teng Shi, Jun Xu, Xu Chen (均来自中国人民大学)；Wen Chen, Jian Wu, Yuning Jiang (均来自阿里巴巴集团)

1.3. 发表期刊/会议

未明确指明具体期刊或会议，但已在 ArXiv 上发布。通常 ArXiv 上的预印本论文在计算机科学领域，尤其是在人工智能和机器学习子领域，具有较高的研究价值和影响力。

1.4. 发表年份

2025

1.5. 摘要

序列推荐 (Sequential Recommendation, SeqRec) 旨在通过捕捉用户历史交互中的序列模式来预测下一个物品，在许多现实世界的推荐系统中扮演着关键角色。然而，现有方法主要采用直接前向计算范式，其中序列编码器 (sequence encoder) 的最终隐藏状态被用作用户表示。本文认为，这种推理范式由于其有限的计算深度，难以模拟用户偏好复杂演变性质，并缺乏对长尾物品 (long-tail items) 的细致理解，导致次优性能。为解决此问题，本文提出了 ReaRec，这是第一个用于推荐系统的推理时计算框架，它通过隐式多步推理增强用户表示。具体而言，ReaRec 自回归地将序列的最后一个隐藏状态输入到序列推荐器中，同时引入特殊的推理位置嵌入 (reasoning position embeddings) 来解耦原始物品编码空间与多步推理空间。此外，本文还引入了两种轻量级基于推理的学习方法：集成推理学习 (Ensemble Reasoning Learning, ERL) 和 渐进推理学习 (Progressive Reasoning Learning, PRL)，以进一步有效利用 ReaRec 的推理潜力。在五个公共真实世界数据集和不同 SeqRec 架构上的大量实验证明了 ReaRec 的通用性和有效性。值得注意的是，事后分析表明 ReaRec 将多个序列推荐主干 (backbones) 的性能上限提高了约 30%-50%。因此，本文认为这项工作可以为未来推荐系统推理时计算领域的研究开辟一条新颖且有前景的途径。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.22675
PDF 链接: https://arxiv.org/pdf/2503.22675v3.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

序列推荐 (Sequential Recommendation, SeqRec) 的目标是根据用户历史交互序列预测其接下来可能感兴趣的物品。然而，当前主流的 SeqRec 模型（例如基于 Transformer 的模型如 SASRec 和 UniSRec）主要采用直接前向计算 (direct forward computation) 范式，即将序列编码器输出的最终隐藏状态直接作为用户表示。本文认为这种范式存在以下核心问题：

计算深度有限 (Limited Computational Depth): 难以捕捉用户偏好复杂且动态的演变过程。
长尾问题 (Long-tail Issue): 对具有较少交互的长尾用户和冷门物品的理解不足，导致推荐性能不佳。这些场景通常需要更细致的推理和更深层次的表示学习。
推理能力不足 (Lack of Reasoning Power): 现有模型缺乏在推荐前进行多步“思考”的能力，无法对复杂的用户兴趣模式进行深层次的挖掘和细化。

2.1.2. 为什么这个问题很重要

推荐系统在电子商务、音乐、视频流等领域无处不在，准确捕捉用户意图至关重要。现有方法的局限性导致了以下问题：

用户体验受损： 无法精确理解用户动态变化的偏好，导致推荐结果不够个性化和准确，影响用户满意度。
长尾物品曝光不足： 难以向用户推荐其可能感兴趣的长尾物品，这不仅影响长尾物品的销售/消费，也限制了用户发现新奇内容的可能性。
模型性能瓶颈： 缺乏深层推理能力使得模型在面对复杂、稀疏数据时达到性能瓶颈，难以进一步提升。

2.1.3. 论文的切入点或创新思路

本文受到自然语言处理 (Natural Language Processing, NLP) 领域中 思维链 (Chain-of-Thought, CoT) 推理的启发。CoT 允许大型语言模型 (Large Language Models, LLMs) 在生成最终输出之前进行多步推导，显著提高了模型在复杂任务上的性能。本文提出，类似的“先思考后行动” (think-before-action) 范式也能使序列推荐受益，尤其是在处理长尾用户和物品等挑战性场景时。

本文的创新思路在于：

将 CoT 思想引入推荐系统： 首次系统性地探索在推荐系统中引入推理时计算能力。
隐式多步推理 (Implicit Multi-step Reasoning): 通过自回归地将序列编码器的最终隐藏状态反馈给模型进行多轮计算，从而在潜在表示空间中实现隐式的多步推理，增加计算深度。
解耦编码和推理空间： 设计特殊的推理位置嵌入 (Reasoning Position Embeddings, RPE) 来区分原始物品编码阶段和推理阶段，防止模型混淆。
解决推理退化问题： 针对隐式推理缺乏中间监督信号可能导致的推理退化问题，提出了两种轻量级学习策略：集成推理学习 (ERL) 和渐进推理学习 (PRL)。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

提出了 ReaRec 框架： 引入了第一个推理时计算框架 ReaRec，它通过隐式多步推理增强用户表示，将“推荐前思考”范式应用于序列推荐。这是首次系统地探索推荐系统中的推理时计算能力。
设计了两种推理学习策略： 提出了 ERL 和 PRL 两种轻量级学习策略，分别利用集成学习 (Ensemble Learning) 和课程学习 (Curriculum Learning) 的思想，有效优化隐式推理过程，缓解推理退化问题。
广泛的实验验证： 在五个真实世界数据集和多种代表性 SeqRec 模型上进行了广泛实验，验证了 ReaRec 的通用性和有效性。
揭示性能提升潜力： 详细的事后分析表明，ReaRec 可以显著提升现有序列推荐主干模型的性能上限，最高可达 50%。
指出挑战与机遇： 识别了当前推理增强推荐方法面临的一些挑战和未来的机遇，刺激了推理时计算与序列推荐交叉领域的新研究方向。

2.2.2. 关键结论或发现

显著的性能提升： ReaRec 在所有评估指标上平均性能提升了 7.49%，而推理延迟仅增加了 3.51%。
对长尾效应的改善： 多步推理过程稳定地提高了稀疏交互用户和长尾物品的推荐质量，表明它能更好地理解不常见模式。
突破性能上限： 事后分析显示，ReaRec 可以将不同序列推荐主干模型的性能上限提高约 30%-50%，这表明了其巨大的潜力。
推理步骤的影响： 存在一个最优的推理步骤数，过多的推理可能导致“过度思考” (overthinking) 效应，反而降低性能。
策略的有效性： ERL 和 PRL 通过提供明确的监督信号和多样性正则化，有效缓解了隐式推理可能导致的模式退化和误差积累问题。
高效性： 即使增加了计算深度，由于采用了 KV 缓存 (KV Caching) 等技术，ReaRec 的推理延迟增长仍然可控，使其具有实际部署的潜力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 序列推荐 (Sequential Recommendation, SeqRec)

概念定义： 序列推荐是推荐系统领域的一个重要分支，其目标是根据用户历史交互序列（例如用户按时间顺序点击、购买或浏览的物品列表），预测用户在接下来最有可能与哪个物品进行交互。它强调捕捉用户兴趣的动态变化和序列模式，而非仅仅基于静态的用户-物品偏好。

3.1.2. 推荐系统 (Recommender Systems, RS)

概念定义： 推荐系统是一种信息过滤系统，旨在预测用户对物品（如电影、音乐、商品、新闻文章等）的“偏好”或“评级”，并向用户推荐他们可能感兴趣的物品。这些系统广泛应用于电子商务、社交媒体、流媒体服务等领域，帮助用户在海量信息中发现符合其需求和兴趣的内容。

3.1.3. 用户表示 (User Representation)

概念定义： 用户表示是将用户的特征、偏好和行为模式编码成一个低维向量（或向量集合）的过程。这个向量能够捕捉用户的潜在兴趣和特点，供推荐模型进行计算和预测。在序列推荐中，用户表示通常是从用户的历史交互序列中学习到的。

3.1.4. 物品表示 (Item Representation)

概念定义： 物品表示是将物品的属性、特征和上下文信息编码成一个低维向量的过程。这个向量能够捕捉物品的内在特性，例如类型、风格、功能等，供推荐模型进行匹配和推荐。物品表示可以是基于物品 ID (ID-based) 的嵌入，也可以是基于物品文本描述 (Text-based) 或其他模态特征的嵌入。

3.1.5. 隐藏状态 (Hidden State)

概念定义： 在循环神经网络 (Recurrent Neural Networks, RNN) 或 Transformer 等序列模型中，隐藏状态是模型在处理序列数据时，在每个时间步内部维护的一个向量。它包含了模型从当前时间步及之前所有时间步中提取的信息，可以看作是对序列当前上下文的抽象表示。最终隐藏状态通常用于生成序列的总结或进行后续预测。

3.1.6. Transformer 架构 (Transformer Architecture)

概念定义： Transformer 是一种基于自注意力 (Self-Attention) 机制的深度学习模型架构，最初为处理序列到序列任务（如机器翻译）而设计。它完全摒弃了传统的循环和卷积结构，通过并行计算在处理长序列时具有显著优势。在推荐系统中，Transformer 被广泛用于捕捉用户历史交互序列中的复杂模式。

3.1.7. 自注意力机制 (Self-Attention Mechanism)

概念定义： 自注意力机制允许模型在处理序列中的每个元素时，同时考虑序列中的所有其他元素，并根据它们之间的相关性分配不同的权重。这意味着模型可以“关注”序列中最重要的部分，从而更好地理解上下文。

数学公式： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：

$Q$ (Query): 查询矩阵，由输入序列经过线性变换得到。
$K$ (Key): 键矩阵，由输入序列经过线性变换得到。
$V$ (Value): 值矩阵，由输入序列经过线性变换得到。
$d_k$ : 键向量的维度，用于缩放点积结果，防止在 $d_k$ 很大时 $\frac{QK^T}{\sqrt{d_k}}$ 的梯度过小。
$QK^T$ : 查询和键的点积，表示查询与每个键的相似度。
$\mathrm{softmax}(\cdot)$ : 归一化函数，将相似度分数转换为权重分布。
$V$ : 值矩阵，加权求和后得到注意力机制的输出。

3.1.8. 位置嵌入 (Position Embedding)

概念定义： Transformer 架构本身不包含序列的顺序信息。位置嵌入是一种额外的向量，被添加到输入嵌入中，用于为模型提供序列中每个元素的位置信息。它可以是学习到的嵌入，也可以是固定编码（如正弦和余弦函数）。

3.1.9. 长尾物品 (Long-Tail Items)

概念定义： 在推荐系统中，长尾物品是指那些用户交互频率非常低、不那么受欢迎的物品。由于数据稀疏性，准确推荐这些物品是一个挑战。

3.1.1.0. 思维链 (Chain-of-Thought, CoT)

概念定义： 思维链是一种在大型语言模型中激发复杂推理能力的技术。它通过提示模型在给出最终答案之前，生成一系列中间推理步骤（即“思维链”），从而提高模型在算术、常识和符号推理等复杂任务上的表现。这类似于人类解决问题时逐步思考的过程。

3.1.1.1. 推理时计算 (Inference-Time Computing)

概念定义： 推理时计算是指在模型完成训练后，在进行实际预测（推理）阶段增加计算量，以期望获得更好的性能。这与传统的做法不同，传统上模型一旦训练完成，推理过程通常力求效率最大化。推理时计算通过增加计算深度或步骤来“思考”更久，从而提高输出质量，这在大型语言模型中通过多步 CoT 推理得到了验证。

3.1.1.2. 嵌入 (Embedding)

概念定义： 嵌入是将离散的、高维的实体（如物品 ID、词语）映射到连续的、低维的向量空间中的技术。在这个向量空间中，语义上相似的实体具有相近的向量表示。

3.1.1.3. 自回归 (Autoregressive)

概念定义： 自回归模型是一种统计模型，它将序列中当前时间步的输出作为输入来预测下一个时间步的输出。在本文中，ReaRec 自回归地将序列的最后一个隐藏状态反馈给模型，以生成更深层次的推理结果。

3.1.1.4. 交叉熵损失 (Cross-Entropy Loss)

概念定义： 交叉熵损失是分类任务中常用的损失函数，用于衡量模型预测的概率分布与真实标签分布之间的差异。目标是最小化此损失，使得模型的预测概率分布尽可能接近真实分布。

数学公式： 对于二分类问题： $L = -(y \log(p) + (1-y) \log(1-p))$ 对于多分类问题（本文推荐任务）： $L = -\sum_{i=1}^{C} y_i \log(p_i)$ 符号解释：

$y_i$ : 如果类别 $i$ 是真实标签，则为 1，否则为 0。
$p_i$ : 模型预测类别 $i$ 的概率。
$C$ : 类别总数。

3.1.1.5. KL 散度 (Kullback-Leibler Divergence, KLD)

概念定义： KL 散度是一种衡量两个概率分布之间差异的非对称度量。如果两个分布越相似，KL 散度越小。在本文中，它被用作正则化项，以鼓励不同推理步骤的预测分布具有多样性，避免模式退化。

数学公式： 对于两个离散概率分布 $P$ 和 $Q$ ： $D_{KL}(P || Q) = \sum_i P(i) \log \left(\frac{P(i)}{Q(i)}\right)$ 符号解释：

P(i): 分布 $P$ 中事件 $i$ 的概率。
Q(i): 分布 $Q$ 中事件 $i$ 的概率。

3.1.1.6. 对比学习 (Contrastive Learning)

概念定义： 对比学习是一种自监督学习范式，旨在通过学习数据的表示，使得相似（正样本对）的样本在嵌入空间中彼此靠近，而不相似（负样本对）的样本彼此远离。它通过构建正负样本对和设计对比损失函数来实现这一目标。

3.1.1.7. InfoNCE 损失 (InfoNCE Loss)

概念定义： InfoNCE 是一种常用的对比学习损失函数，它源自互信息 (Mutual Information) 最大化。它鼓励模型将查询样本与其对应的正样本区分开来，同时将其与一批负样本区分开来。

数学公式： $L_{\text{InfoNCE}} = -\log \frac{\exp(\mathrm{sim}(q, k_+) / \tau)}{\exp(\mathrm{sim}(q, k_+) / \tau) + \sum_{k_- \in K_-} \exp(\mathrm{sim}(q, k_-) / \tau)}$ 符号解释：

$q$ : 查询样本的表示。
$k_+$ : 正样本的表示。
$K_-$ : 负样本集合的表示。
$\mathrm{sim}(\cdot, \cdot)$ : 相似度函数，通常是点积或余弦相似度。
$\tau$ : 温度参数，用于调整相似度分布的平滑程度。

3.1.1.8. 课程学习 (Curriculum Learning)

概念定义： 课程学习是一种训练策略，其灵感来源于人类学习过程：模型首先从相对简单、容易学习的样本或任务开始训练，然后逐步引入更复杂、更难的样本或任务。这种渐进式的训练方式有助于模型更好地收敛和泛化。

3.1.1.9. 温度退火 (Temperature Annealing)

概念定义： 温度退火是一种在机器学习和优化算法中使用的技术，通过逐渐降低一个“温度”参数来平滑或锐化概率分布。在训练初期，高温度可以使分布更平滑，鼓励探索；随着训练的进行，低温度使分布更锐利，鼓励模型聚焦于更优的解决方案。

3.2. 前人工作

3.2.1. 序列推荐模型

SASRec [31]： 采用了Transformer的自注意力机制来捕捉用户交互序列中的因果模式。它将每个物品视为序列中的一个“词”，通过自注意力机制学习物品之间的依赖关系，并使用最后一个位置的编码作为用户表示。
BERT4Rec [49]： 借鉴了 BERT 在 NLP 领域的成功，将双向自注意力机制应用于序列推荐。它通过掩码 (masking) 策略预测序列中被遮盖的物品，从而学习更丰富的上下文依赖关系。
UniSRec [26]： 针对文本特征的序列推荐，通过参数白化 (parameter whitening) 和 MoE (Mixture-of-Experts) 适配器，从文本特征中学习通用的物品和序列表示，有效解决了冷启动和数据稀疏性问题。
MoRec [76]： 进一步利用 RoBERTa 和 ViT 等先进的文本和视觉编码器，建模物品的多模态表示，取代传统的 ID 特征。

3.2.2. 推理时计算与思维链 (CoT)

NLP 领域的 CoT [19, 45, 53, 62]： 大量研究表明，通过在推理时生成多步推导（思维链），可以显著提升大型语言模型在数学、编程等复杂任务上的性能。这表明增加计算深度可以帮助模型解决超出直接推理能力的问题。
CoT 的理论基础 [14]： 冯等人的研究从理论上揭示了 CoT 引入的计算深度增加了模型的表达能力，即使参数量受限，也能克服直接回答的表达限制，从而产生涌现的思考能力。
隐式 CoT 推理 [3, 15, 20, 67]： 除了显式生成中间步骤的 CoT，一些研究探索在潜在空间 (latent spaces) 中进行隐式 CoT 推理，以实现效率和性能的提升。例如，Coconut [20] 在 LLM 的潜在推理空间中引入了连续思考，Heima [46] 将多模态 CoT 过程压缩成一个高级思维词元。

3.3. 技术演进

推荐系统的发展经历了从协同过滤 (Collaborative Filtering) 到基于深度学习的序列模型。早期模型如马尔可夫链 (Markov Chain) 侧重于物品间的局部转换。随着深度学习的兴起，RNN (如 GRU4Rec)、CNN (如 Caser) 等模型被引入以捕捉更复杂的序列模式。Transformer 架构（如 SASRec、BERT4Rec）的出现，凭借其强大的自注意力机制，进一步提升了序列建模能力。在处理物品表示方面，从简单的 ID 嵌入，逐渐发展到利用文本、图像等多模态信息（如 UniSRec、MoRec），以缓解数据稀疏和冷启动问题。然而，这些模型普遍采用直接前向计算的推理范式。受 NLP 领域中思维链 (CoT) 机制在提升复杂任务推理能力方面的成功启发，本文首次将这种“推荐前思考”的推理时计算理念引入序列推荐，通过增加隐式多步推理来增强用户表示，从而将推荐系统的研究推向一个新方向。

3.4. 差异化分析

本文提出的 ReaRec 框架与现有序列推荐方法的核心区别和创新点在于：

推理范式变革：
- 现有方法： 采用直接前向计算 (direct forward computation) 范式，即序列编码器一次性输出用户表示并进行推荐，缺乏在推理阶段的额外“思考”或“细化”过程。
- ReaRec： 引入推理时计算 (inference-time computing) 框架，通过隐式多步推理 (implicit multi-step reasoning) 自回归地细化用户表示。这类似于 NLP 领域的“思维链”或“先思考后行动”范式，显著增加了计算深度以捕捉更复杂的模式。
用户表示增强机制：
- 现有方法： 用户表示通常是序列编码器最后一个隐藏状态的直接输出，其“计算深度”在训练时就已经固定。
- ReaRec： 通过将序列的最后一个隐藏状态自回归地反馈到模型中进行多轮计算，在潜在表示空间中逐步细化用户表示。这种机制在推理阶段增加了计算深度，从而能够更精确地逼近真实的用户偏好分布。
处理编码与推理空间混淆：
- 现有方法： 不存在推理阶段，自然也无此问题。
- ReaRec： 引入了推理位置嵌入 (Reasoning Position Embeddings, RPE)，显式地区分了原始物品序列编码阶段和多步推理阶段，有效避免了模型混淆这两个不同任务，从而提升了推理效果。
解决隐式推理的监督信号缺失问题：
- 现有方法： 缺乏中间监督信号不是其关注的问题。
- ReaRec： 针对隐式推理缺乏明确中间监督信号可能导致“推理模式退化”和“误差积累”的问题，提出了两种创新的学习策略：
  - 集成推理学习 (ERL)： 通过多步监督和 KL 散度正则化，鼓励模型从不同推理步骤中获取多样化的见解，并聚合多视图的用户表示。
  - 渐进推理学习 (PRL)： 借鉴课程学习思想，引入渐进温度退火 (Progressive Temperature Annealing, PTA) 机制指导推理过程，并结合推理感知对比学习 (Reasoning-aware Contrastive Learning, RCL) 增强推理鲁棒性和泛化能力。
    
    总而言之，ReaRec 的创新之处在于将 NLP 领域中成功的推理范式引入到序列推荐，并通过一套精心设计的机制和学习策略，克服了在潜在表示空间中进行多步推理所面临的挑战，显著提升了推荐性能，并为该领域开辟了新的研究方向。

4. 方法论

本文提出了 ReaRec，一个新颖、简单且高度可扩展的推荐框架，旨在释放模型的潜在序列推理能力。该方法通过多步隐式推理来细化用户表示，充分利用序列模型的计算潜力来逼近用户兴趣的真实分布。

4.1. ReaRec 骨干网络

ReaRec 是模型无关的，可以轻松集成到各种序列推荐器中。本文以广泛采用的 Transformer 架构作为示例，说明如何通过骨干网络扩展推理时的计算能力。

4.1.1. 自注意力序列编码 (Self-attention Sequence Encoding)

给定用户 $u$ 的历史交互序列 $S_u = [v_1^u, v_2^u, \ldots, v_n^u]$ ，首先通过查找嵌入矩阵 $\mathbf{E}$ 获取这 $n$ 个物品的嵌入。为了充分利用序列信息，将绝对位置嵌入 (Absolute Position Embeddings) 注入到输入层的物品嵌入中。具体来说，对于位于位置 $i$ 的物品 $v$ ，其输入表示通过将物品嵌入 $\mathbf{e}_v$ 和对应的位置嵌入 $\mathbf{p}_i^I$ 相加来构建： $\mathbf{h}_i^0 = \mathbf{e}_v + \mathbf{p}_i^I$ 符号解释：

$\mathbf{h}_i^0$ : 序列中位置 $i$ 处物品的初始输入表示。
$\mathbf{e}_v$ : 物品 $v$ 的嵌入向量，从嵌入矩阵 $\mathbf{E}$ 中查找得到。
$\mathbf{p}_i^I$ : 序列中位置 $i$ 的物品位置嵌入，从可学习的位置嵌入矩阵 $\mathbf{P}^I \in \mathbb{R}^{n \times d}$ 中查找得到， $n$ 是最大序列长度， $d$ 是嵌入维度。

接下来，通过堆叠多个多头自注意力层 (Multi-Head Self-Attention, MHSA) 和点式前馈网络 (Point-wise Feed-Forward Networks, FFN) 来构建物品序列编码器 $f(\cdot)$ ，以捕捉复杂的序列特征： $\mathbf{H}^l = f(\mathbf{H}^{l-1}) = \mathrm{FFN}(\mathrm{MHSA}(\mathbf{H}^{l-1}))$ 符号解释：
$\mathbf{H}^l$ : 第 $l$ 层拼接后的隐藏状态，其中 $\mathbf{H}^l = [\mathbf{h}_1^l, \mathbf{h}_2^l, \ldots, \mathbf{h}_n^l]$ 。
$f(\cdot)$ : 序列编码器中的一个层（MHSA 和 FFN 组成）。
$\mathrm{MHSA}(\cdot)$ : 多头自注意力机制。
$\mathrm{FFN}(\cdot)$ : 点式前馈网络。

在传统范式中，最后一层在最后一个位置的输出 $\mathbf{H}^L[-1]$ 被直接用作最终的用户表示，即 $\mathbf{h}_u = \mathbf{H}^L[-1]$ ，其中 $L$ 是层数。

4.1.2. 扩展推理时计算 (Extended Inference-Time Reasoning)

现有序列推荐器仅依赖非推理的前向推理，其在直接建模物品序列模式方面受到其有限计算能力的根本限制，难以捕捉细致的用户兴趣。为了解决这个问题，本文提出了隐式推理机制来增强计算能力，从而更精确地逼近真实偏好分布，实现用户兴趣建模的增强细化。

具体而言，ReaRec 不再直接使用 $\mathbf{H}^L[-1]$ 作为用户表示，而是自回归地将最后一个位置的隐藏状态反馈到编码器中，进行 $K$ 次前向计算。通过有效增加推理时的计算量，这种方法进一步释放了模型捕捉复杂序列依赖关系的潜力。然而，这种推理策略偏离了序列推荐模型的原始目标，即预测下一个物品。为了弥合这个任务差距，本文引入了推理位置嵌入 (Reasoning Position Embedding, RPE)，表示为 $\mathbf{P}^R \in \mathbb{R}^{K \times d}$ ，以区分序列编码阶段和推理阶段。

在第 $k$ 个推理步骤中，模型的输入嵌入定义为 $\mathbf{H}^0 \in \mathbb{R}^{(n+k-1) \times d}$ 。前 $n$ 个位置的输入保持不变（即遵循公式 (2)），而位置 $n+i$ 处的潜在表示 $\mathbf{h}_{n+i}^0$ 则通过前一步的最后输出 $\mathbf{h}_{n+i-1}^L$ 和第 $i$ 个推理位置嵌入 $\mathbf{p}_i^R$ 的总和来计算： $\mathbf{h}_{n+i}^0 = \mathbf{h}_{n+i-1}^L + \mathbf{p}_i^R$ 符号解释：

$\mathbf{h}_{n+i}^0$ : 在第 $i$ 个推理步骤中，作为模型输入的潜在表示。
$\mathbf{h}_{n+i-1}^L$ : 前一个推理步骤（或序列编码阶段的最后一步）的最后输出隐藏状态。
$\mathbf{p}_i^R$ : 第 $i$ 个推理步骤的推理位置嵌入，从可学习的推理位置嵌入矩阵 $\mathbf{P}^R$ 中查找得到。

为了区分物品编码输出和推理输出，将模型最终层从位置 $n$ 到 $n+K$ 的隐藏状态表示为 $\mathbf{R} = [\mathbf{r}_0, \mathbf{r}_1, \ldots, \mathbf{r}_K]$ ，其中 $\mathbf{r}_i \in \mathbb{R}^d$ 表示第 $i$ 个推理步骤的推理隐藏状态。为了获得用户表示，一种直接的方法是遵循传统范式，即使用最后一个推理输出 $\mathbf{r}_K$ 作为 $\mathbf{h}_u$ 。

然后，计算用户 $u$ 的预测概率为： $\hat{y} = \mathrm{softmax}(\mathbf{h}_u \cdot \mathbf{E}^\top)$ 符号解释：

$\hat{y}$ : 预测的物品概率分布。
$\mathbf{h}_u$ : 最终的用户表示（可以是 $\mathbf{r}_K$ 或其他聚合形式）。
$\mathbf{E}^\top$ : 物品嵌入矩阵 $\mathbf{E}$ 的转置，用于与用户表示计算相似度。

并使用交叉熵损失作为推荐目标： $\mathcal{L}_{\mathrm{Rec}} = -\log \hat{y}_{v^+}$ 符号解释：
$\mathcal{L}_{\mathrm{Rec}}$ : 推荐任务的交叉熵损失。
$\hat{y}_{v^+}$ : 对于用户 $u$ 的下一个交互真实物品 $v^+$ 的预测概率。

然而，这种简单的优化目标仍然面临一个关键问题：中间推理状态缺乏监督信号，使得模型容易出现推理模式退化 (reasoning pattern degradation)。接下来，本文介绍了两种简单而有效的推理学习策略来解决这些挑战。

4.2. 集成推理学习 (Ensemble Reasoning Learning, ERL)

为了为隐式推理过程提供有效的监督信号，本文提出了集成推理学习 (ERL) 方法。该方法将不同推理步骤的隐藏状态作为用户演变兴趣的多视图表示。换句话说，它应用了集成学习的思想来聚合来自不同推理步骤的多样化推理结果，从而避免仅依赖最终输出可能导致的次优性能。

4.2.1. 多步推理监督 (Multi-Step Reasoning Supervision)

具体来说，ERL 将多个推理步骤的隐藏状态视为多向量用户表示，并对集成后的序列表示应用交叉熵损失（如公式 (6) 所示）以增强过程指导。因此，ERL 不仅使用最后一步的推理状态，而是采用平均池化层来聚合所有步骤的推理隐藏状态，以获得最终的用户表示： $\mathbf{h}_u = \frac{1}{K} \sum_{i=0}^{K} \mathbf{r}_i$ 符号解释：

$\mathbf{h}_u$ : 最终的用户表示，通过对所有推理步骤的隐藏状态进行平均池化得到。
$K$ : 总推理步骤数。
$\mathbf{r}_i$ : 第 $i$ 个推理步骤的推理隐藏状态。

然后，按照公式 (5) 计算输出分布 $\hat{y}$ 。

4.2.2. KL 散度正则化 (KL Divergence Regularization)

仅仅使用上述推荐目标进行模型训练效率不高。推荐器可能会走捷径，直接复制之前的推理输出来优化参数，这可能导致模式崩溃 (pattern collapse) 效应，从而削弱推理过程中计算扩展的优势。为此，本文引入了 Kullback-Leibler (KL) 散度约束，这是一种流行且简单的正则化技术，用于缓解输出同质化问题。

具体来说，ERL 旨在增加不同步骤之间推理输出的多样性，鼓励模型的多步推理过程收集多视图的洞察力，更好地建模用户复杂的兴趣分布，最终提升整体序列推荐性能。形式上，ERL 将不同推理状态的预测概率分布进行两两组合，并最大化这些分布对之间的 KL 散度，这等价于最小化以下正则化项： $\mathcal{L}_{\mathrm{KL}} = - \sum_{i=0}^{K-1} \sum_{j=i+1}^{K} \mathrm{KL}(\hat{y}^{(i)} || \hat{y}^{(j)})$ 符号解释：

$\mathcal{L}_{\mathrm{KL}}$ : KL 散度正则化项。
$\mathrm{KL}(\cdot || \cdot)$ : KL 散度函数，衡量两个概率分布之间的差异。
$\hat{y}^{(i)}$ : 第 $i$ 个推理步骤的预测概率分布。

结合推荐损失和上述 KL 正则化项，ERL 方法的总体学习目标是最小化以下损失函数： $\mathcal{L}_{\mathrm{ERL}} = \mathcal{L}_{\mathrm{Rec}} + \lambda \mathcal{L}_{\mathrm{KL}}$ 符号解释：
$\mathcal{L}_{\mathrm{ERL}}$ : ERL 方法的总体损失函数。
$\mathcal{L}_{\mathrm{Rec}}$ : 推荐任务的交叉熵损失（如公式 (6) 所示）。
$\lambda$ : 一个超参数，用于平衡正则化强度。

4.2.3. 推理阶段 (Inference Phase)

在推理阶段，ERL 应用一个平均池化层来聚合所有推理步骤的隐藏状态，得到最终用户表示 $\mathbf{h}_u = \frac{1}{K} \sum_{i=0}^{K} \mathbf{r}_i$ 。然后，ERL 计算用户表示与所有候选物品嵌入之间的内积或余弦相似度（取决于具体的序列推荐算法），并将得分最高的物品作为最终推荐列表。

4.3. 渐进推理学习 (Progressive Reasoning Learning, PRL)

与集成推理学习方法不同，本文探索了另一种渐进推理学习 (PRL) 机制。其核心思想是设计一种渐进式的分布锐化策略，以指导中间推理链，逐步逼近用户的真实偏好分布。直观地，随着推理时分配的计算能力的增加，推荐模型应该能够更准确地捕捉细粒度的序列特征，从而缩小预测的用户兴趣分布与实际分布之间的差异。

4.3.1. 渐进温度退火 (Progressive Temperature Annealing, PTA)

借鉴人类认知过程，随着思考深度的增加，推理路径会逐渐细化，直至收敛到最优解决方案。类似地，本文期望随着模型计算的增加，推荐器能够逐渐澄清用户兴趣的演变模式，表现为更锐利的预测分布。受此启发，本文提出了一种简单的渐进温度退火 (PTA) 方法来指导推理过程。

为了实现这一点，PRL 首先为第 $k$ 个推理步骤引入一个温度系数 $\tau_k$ ，以调整预测分布的锐度，其公式如下： $\boldsymbol{\tau}_k = \boldsymbol{\tau} * \alpha^{K-k}$ $\hat{\boldsymbol{y}}^{(k)} = \mathrm{softmax}(\mathbf{r}_k \cdot \mathbf{E}^\top / \boldsymbol{\tau}_k)$ 符号解释：

$\boldsymbol{\tau}_k$ : 第 $k$ 个推理步骤的温度系数。
$\boldsymbol{\tau}$ : 基准温度 (base temperature)。
$\alpha$ : 控制温度衰减率的超参数。
$K$ : 总推理步骤数。
$\hat{\boldsymbol{y}}^{(k)}$ : 第 $k$ 个推理步骤的预测概率分布。
$\mathbf{r}_k$ : 第 $k$ 个推理步骤的推理隐藏状态。

与集成推理学习方法不同，PRL 对每个推理隐藏状态应用独立的推荐损失，以将过程监督注入到推理过程中，如下所示： $\mathcal{L}_{\mathrm{Rec}} = - \sum_{k=0}^{K} \log \hat{y}_{v^+}^{(k)}$ 符号解释：
$\mathcal{L}_{\mathrm{Rec}}$ : PRL 方法的推荐损失，是所有推理步骤损失的总和。
$\hat{y}_{v^+}^{(k)}$ : 第 $k$ 个推理步骤预测真实物品 $v^+$ 的 logit。

通过这种温度退火策略，模型在早期推理阶段被鼓励探索更广阔的解决方案空间，防止陷入局部最优。然后，随着推理过程的进行， $\tau_k$ 的值逐渐减小以缩小搜索空间，引导模型走向全局最优。因此，所提出的 PTA 可以更有效地逼近用户的真实偏好分布。

4.3.2. 推理感知对比学习 (Reasoning-aware Contrastive Learning, RCL)

然而，仅仅依靠温度退火策略可能不足以支持渐进推理学习的泛化能力。这是因为在推理过程中，模型可能会受到推理偏差 (reasoning bias) 的影响，即模型的推理方向偏离了正确的用户兴趣分布，最终导致推理错误的累积，从而恶化推理能力。为了解决上述挑战，本文设计了一种新颖的推理感知对比学习 (RCL) 方法来增强模型的鲁棒推理能力。

具体来说，PRL 通过向每个步骤的推理状态注入噪声向量来模拟先前累积的推理误差，生成带噪声的推理输入如下： $\tilde{\mathbf{h}}_{n+i}^0 = \mathbf{h}_{n+i}^0 + \epsilon, \quad i \in \{1, 2, ..., K\}$ 符号解释：

$\tilde{\mathbf{h}}_{n+i}^0$ : 带噪声的推理输入。
$\mathbf{h}_{n+i}^0$ : 原始的推理输入，根据公式 (2) 定义。
$\epsilon$ : 注入的噪声嵌入向量，从正态分布中采样，即 $\epsilon \sim \mathcal{N}(0, \gamma \mathbf{I})$ 。
$\gamma$ : 控制噪声强度的参数。
$\mathbf{I} \in \mathbb{R}^d$ : 维度为 $d$ 的单位矩阵。

然后，通过将带噪声的输入送入 Transformer 编码器，可以获得新的隐藏状态视图 $\tilde{\mathbf{R}} = [\tilde{\mathbf{r}}_1, \tilde{\mathbf{r}}_2, \ldots, \tilde{\mathbf{r}}_K]$ 。

为了增强模型在推理去噪方面的鲁棒性，本文设计了一个基于互信息最大化 (Mutual Information Maximization, MIM) 的自监督任务。形式上，给定变量 $X$ 和 $Y$ ，互信息 I(X, Y) 衡量观察 $Y$ 后 $X$ 的不确定性减少量，其定义为： $I(X, Y) = H(X) - H(X|Y)$ 符号解释：

I(X, Y): 变量 $X$ 和 $Y$ 之间的互信息。
H(X): 随机变量 $X$ 的熵。
$H(X|Y)$ : 在给定 $Y$ 的条件下，随机变量 $X$ 的条件熵。

通过最大化原始隐藏状态 $\mathbf{R}$ 和去噪隐藏状态 $\tilde{\mathbf{R}}$ 之间的互信息，可以有效地迫使模型从用户行为数据和历史推理过程中捕捉必要的序列信息，从而在隐式思维空间中实现自我反思。

然而，直接最大化互信息由于高维概率分布估计的不可行性而无法实现。受近期工作的启发，本文提出了一种基于 InfoNCE 的推理对比学习方法来优化互信息的下界，其定义为： $\mathcal{L}_{\mathrm{RCL}} = - \sum_{k=1}^{K} \log \frac{\exp(\mathrm{sim}(\tilde{\mathbf{r}}_k, \mathbf{r}_k^+) / \tau)}{\exp(\mathrm{sim}(\tilde{\mathbf{r}}_k, \mathbf{r}_k^+) / \tau) + \sum_{\mathbf{r}_k^- \in \mathbf{R}_k^-} \exp(\mathrm{sim}(\tilde{\mathbf{r}}_k, \mathbf{r}_k^-) / \tau)}$ 符号解释：

$\mathcal{L}_{\mathrm{RCL}}$ : 推理感知对比学习损失。
$\mathrm{sim}(\cdot)$ : 点积相似度函数。
$\tilde{\mathbf{r}}_k$ : 第 $k$ 个步骤的带噪声推理隐藏状态。
$\mathbf{r}_k^+$ : 第 $k$ 个步骤的原始推理隐藏状态（作为正样本）。
$\mathbf{r}_k^-$ : 第 $k$ 个步骤的负样本推理隐藏状态。
$\mathbf{R}_k^-$ : 负样本集合，由同一批次中其他物品序列对应的第 $k$ 个步骤推理状态构成。
$\tau$ : 温度参数。

通过结合推荐损失和推理对比损失，可以得到 PRL 方法的总体目标函数： $\mathcal{L}_{\mathrm{PRL}} = \mathcal{L}_{\mathrm{Rec}} + \mathcal{L}_{\mathrm{RCL}}$ 符号解释：
$\mathcal{L}_{\mathrm{PRL}}$ : PRL 方法的总体损失函数。
$\mathcal{L}_{\mathrm{Rec}}$ : 推荐任务的交叉熵损失（如公式 (10) 所示）。
$\mathcal{L}_{\mathrm{RCL}}$ : 推理感知对比学习损失。

4.3.3. 推理阶段 (Inference Phase)

在推理阶段，PRL 直接采用最终推理步骤的输出作为用户表示，即 $\mathbf{h}_u = \mathbf{r}_K$ 。然后，类似于 Sec. 3.2.3，计算 $\mathbf{h}_u$ 与候选物品嵌入矩阵 $\mathbf{E}$ 之间的相似度得分，生成用户 $u$ 的推荐列表。

4.4. 讨论

4.4.1. 原理分析

ReaRec 框架通过策略性地增加推理时计算量，从根本上扩展了模型的建模能力。通过自回归地将推理隐藏状态反馈给序列编码器，模型持续加深特征交叉深度，捕捉更细粒度的序列特征，最终提高推荐性能。此外，ERL 和 PRL 方法以不同方式释放了序列推荐器的潜在推理能力。ERL 将多层次的深层交叉特征整合到最终用户表示中，而 PRL 则基于课程学习的概念，随着推理过程的推进，逐步揭示更复杂的意图演变模式，从而更接近真实的用户兴趣分布。

4.4.2. 时间和空间复杂度

ReaRec 框架的时间和空间复杂度分析如下：

时间复杂度： 假设用户序列长度为 $C$ 。

无推理扩展的基线模型： 输入序列通过 $L$ 层 MHSA 模块（复杂度为 $O(C^2d + Cd^2)$ ）和 FFN 模块（复杂度为 $O(Cd^2)$ ），总时间复杂度为 $O(L(C^2d + Cd^2))$ 。
推理增强阶段： 采用 KV 缓存 (KV Caching) 技术来存储历史键值对，消除冗余计算。具体来说，在第 $k$ 个推理步骤，MHSA 和 FFN 的时间复杂度分别为 O((C+k-1)d) 和 $O(d^2)$ 。经过 $L$ 个 Transformer 块和 $K$ 个推理步骤后，总的额外时间复杂度开销为 $O(L(K(C+K)d + Kd^2))$ 。由于推理步骤数 $K$ (例如，通常 $K=2$ ) 远小于 $C$ ，这个开销可以简化为 $O(L(KCd + Kd^2))$ 。因此，ReaRec 框架并没有带来显著的时间成本，使其适合在现实世界的工业推荐系统中实际部署。

空间复杂度： ReaRec 方法只增加了 $K$ 个 $d$ 维的推理位置嵌入 $\mathbf{P}^R$ ，这与原始模型的参数相比几乎可以忽略不计。因此，ReaRec 框架高度轻量且灵活。

5. 实验设置

5.1. 数据集

为了评估所提出方法的有效性，本文在 Yelp 和 Amazon 平台上的五个真实世界推荐数据集上进行了广泛实验。数据集的详细统计信息汇总在 Table 1 中。

以下是原文 Table 1 的结果：

Dataset	Yelp	Video & Games	Software	CDs & Vinyl	Baby & Products
#Users	13,083	89,021	30,049	35,238	140,292
#Items	10,697	22,933	16,705	87,969	30,689
#Avg. Inter. / User	33.92	5.96	5.59	14.59	5.57
#Avg. Inter. / Item	41.49	23.15	10.06	5.84	25.44
#Avg. Inter.	443,807	530,989	168,029	513,991	780,809
Sparisty	99.68%	99.97%	99.97%	99.98%	99.98%

数据集特点：

Yelp：
- 来源： 知名商业评论网站。
- 特点： 提供丰富的多维度数据，支持用户行为和商业属性研究。
- 预处理： 评分大于 3 的交互被视为正样本；进行 20-core 过滤（每个用户和物品至少有 20 次交互）。
- 文本编码： 保留名称、位置（城市和州）和商业类别作为物品信息。
- 划分： 基于时间戳（2018年9月4日和2020年5月12日）按时间顺序划分为训练集、验证集和测试集。
Amazon 2023：
- 来源： 领先的全球电子商务平台 Amazon。
- 领域： 选择了四个不同领域的数据集：Video & Games (视频与游戏)、Software (软件)、CDs & Vinyl (CD 和黑胶唱片)、Baby & Products (婴儿与产品)。
- 文本特征： 保留产品属性，如标题、描述和价格。
- 预处理： 用户评分大于 3 的交互被视为正样本。
- 过滤：
  - Video & Games, Software, Baby & Products：过滤掉交互少于 5 次的用户。
  - CDs & Vinyl：过滤掉交互少于 10 次的用户。
- 划分： 遵循官方的绝对时间戳来划分物品序列，这与现实世界场景对齐，并有助于公平的性能比较。

5.2. 评估指标

本文采用Top-k 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG) 和 Top-k 召回率 (Recall) 来衡量推荐性能。这些指标在相关序列推荐研究中被广泛使用。

5.2.1. 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG)

概念定义： NDCG 是一种衡量排名列表质量的指标，它考虑了物品的相关性以及它们在推荐列表中的位置。相关性更高的物品如果排在列表前面，得分会更高。它首先计算折损累积增益 (Discounted Cumulative Gain, DCG)，然后除以理想折损累积增益 (Ideal DCG, IDCG) 进行归一化，使其值介于 0 和 1 之间。NDCG 旨在评估推荐列表中相关性高的物品是否被排在更靠前的位置。

数学公式： 首先计算 DCG@k： $\mathrm{DCG@k} = \sum_{i=1}^{k} \frac{rel_i}{\log_2(i+1)}$ 然后计算 IDCG@k（理想情况下的 DCG）： $\mathrm{IDCG@k} = \sum_{i=1}^{k} \frac{rel_{i_{ideal}}}{\log_2(i+1)}$ 最后计算 NDCG@k： $\mathrm{NDCG@k} = \frac{\mathrm{DCG@k}}{\mathrm{IDCG@k}}$ 符号解释：

$k$ : 推荐列表的长度（即 Top-k）。
$rel_i$ : 推荐列表中位置 $i$ 的物品的相关性得分。在二元相关性（相关或不相关）场景中， $rel_i$ 通常为 1（相关）或 0（不相关）。
$rel_{i_{ideal}}$ : 理想情况下，排名列表中位置 $i$ 的物品的相关性得分。这通常通过将所有相关物品按其相关性降序排列来获得。

本文具体报告了 $\mathrm{NDCG@\{10, 20\}}$ 。

5.2.2. 召回率 (Recall)

概念定义： 召回率衡量的是模型在所有实际相关物品中，成功推荐出的相关物品所占的比例。在 Top-k 推荐场景中，Recall@k 表示在 Top-k 推荐列表中包含了多少用户实际交互的物品（真实物品）。它评估了模型“回忆”出相关物品的能力。

数学公式： $\mathrm{Recall@k} = \frac{\text{Number of relevant items in top-k recommendations}}{\text{Total number of relevant items}}$ 符号解释：

$\text{Number of relevant items in top-k recommendations}$ : 在 Top-k 推荐列表中实际命中的相关物品数量。
$\text{Total number of relevant items}$ : 在测试集中用户实际交互的物品总数（通常是下一个交互物品）。

本文具体报告了 $\mathrm{Recall@\{10, 20\}}$ 。

5.3. 对比基线

为了全面评估所提出的推理增强框架的通用性，本文对不同类型的序列推荐模型进行了全面基准测试，包括基于 ID (ID-based) 和基于文本 (text-based) 的编码方法。

5.3.1. 基于 ID 的编码方法 (ID-based Encoding Methods)

这些方法使用物品的离散 ID 进行编码和嵌入。

SASRec [31]： 序列推荐的代表性基线，采用因果多头注意力机制来捕捉用户交互数据中的序列模式。
BERT4Rec [49]： 广泛使用的序列模型，利用双向自注意力层，通过掩码语言模型任务，在用户行为序列中注入更深层次的上下文信息。

5.3.2. 基于文本的编码方法 (Text-based Encoding Methods)

这些方法利用物品的文本描述来生成物品表示。

UniSRec [26]： 利用参数白化 (parameter whitening) 和 MoE (Mixture-of-Experts) 适配器，从物品的文本特征中学习通用的物品和序列表示，有效解决了冷启动和数据稀疏性挑战。
MoRec [76]： 通过结合先进的文本和视觉编码器（如 RoBERTa [38] 和 ViT [12]）来建模物品的多模态表示，取代传统的 ID 特征。

5.4. 实现细节

硬件： 所有实验均在 8 块 NVIDIA A100 GPU 上进行。
公平比较： 所有方法的嵌入大小 (embedding size) 和批次大小 (batch size) 分别设置为 256 和 2048。
优化器： 使用 Adam [32] 优化器，学习率为 0.001。
激活函数： 遵循先前工作 [49]，采用 GeLU 作为激活函数。
序列长度： 遵循现有工作 [7, 64]，用户序列的最大长度被截断为 50。
模型无关性： ReaRec 框架是模型无关的，可以无缝集成到各种序列推荐模型中。
- BERT4Rec 特殊处理： 对于 BERT4Rec 的双向 Transformer，采用前缀掩码 (Prefix Masking) 策略，其中物品序列部分使用双向注意力，而推理部分使用单向注意力。
早停 (Early Stopping)： 如果验证集上的指标在连续 10 个 epoch 内没有改善，则触发早停。
物品特征编码： 对于基于物品的编码方法，遵循先前工作 [37]，使用 LLaMA-3.1-8B [17] 编码物品文本特征。具体来说，对最后一层的平均隐藏状态应用主成分分析 (PCA)，保留核心特征并提取 768 维的模型表示。
超参数调优：
- ERL： KL 正则化超参数 $\lambda$ 在 $\{0.001, 0.005, 0.01, 0.05, 0.1\}$ 范围内搜索。
- PRL： 噪声强度 $\gamma = 0.01$ ；基准温度 $\tau$ 在 $\{0.05, 0.1, 0.5, 1.0, 2.0, 5.0\}$ 范围内调优；温度衰减率 $\alpha$ 在 $\{1.0, 1.2, 1.5, 2.0, 5.0, 10.0\}$ 范围内调优。
代码可用性： 代码将发布在 https://github.com/TangJiakai/ReaRec。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体性能

本文在五个数据集上比较了 ReaRec 框架下的 ERL 和 PRL 方法与不同类型的序列推荐模型（ID-based 和 Text-based）的性能。

以下是原文 Table 2 的结果：

Dataset	Method	SASRec					BERT4Rec
Dataset	Method	N@10	N@20	R@10	R@20	Avg.	N@10	N@20	R@10	R@20	Avg.
Yelp	Base	0.0347	0.0452	0.0626	0.1047		0.0364	0.046	0.0653	0.1038	-
	+ERL	0.0383	0.0474	0.0691	0.1056	↑6.62%	0.0371	0.0476	0.0661	0.1077	↑2.60%
	(Improv.)	(↑10.37%)	(↑4.87%)	(↑10.38%)	(↑0.86%)		(↑1.92%)	(↑3.48%)	(↑1.23%)	(3.76%)
	+PRL	0.0388	0.0493	0.073	0.1149	↑11.81%	0.0377	0.0487	0.0708	0.1149	↑7.14%
	(Improv.)	(↑11.82%)	(↑9.07%)	(↑16.61%)	(↑9.74%)		(↑3.57%)	(↑5.87%)	(↑8.42%)	(↑10.69%)
Video & Games	Base	0.0284	0.0353	0.0542	0.0816	-	0.0289	0.0355	0.0548	0.0810	-
	+ERL	0.0301	0.0385	0.0581	0.0915	↑8.59%	0.0311	0.0375	0.0578	0.0832	↑5.36%
	(Improv.)	(↑5.99%)	(↑9.07%)	(↑7.20%)	(↑12.13%)		(↑7.61%)	(↑5.63%)	(↑5.47%)	(↑2.72%)
	+PRL	0.0299	0.0379	0.0572	0.0890	↑6.81%	0.0306	0.0380	0.0584	0.0879	↑7.00%
	(Improv.)	(↑5.28%)	(↑7.37%)	(↑5.54%)	(↑9.07%)		(↑5.88%)	(↑7.04%)	(↑6.57%)	(↑8.52%)
Software	Base	0.0696	0.0895	0.1468	0.2264	-	0.0710	0.0893	0.1530	0.2258	-
	+ERL	0.0743	0.0935	0.1456	0.2224	↑2.16%	0.0769	0.0964	0.1554	0.2328	↑5.23%
	(Improv.)	(↑6.75%)	(↑4.47%)	(↓0.82%)	(11.77%)		(↑8.31%)	(↑7.95%)	(↑1.57%)	(↑3.10%)
	+PRL	0.0739	0.0949	0.1488	0.2324	↑4.06%	0.0762	0.0976	0.1500	0.2350	↑4.68%
	(Improv.)	(↑6.18%)	(↑6.03%)	(↑1.36%)	(↑2.65%)		(↑7.32%)	(↑9.29%)	(↓1.96%)	(↑4.07%)
CDs & Vinyl	Base	0.0148	0.0174	0.0317	0.0419		0.0149	0.0185	0.0326	0.0468	-
	+ERL	0.0182	0.0212	0.0363	0.0482	↑18.59%	0.0165	0.0208	0.0354	0.0524	↑10.93%
	(Improv.)	(↑22.97%)	(↑21.84%)	(↑14.51%)	(↑15.04%)		(↑10.74%)	(↑12.43%)	(↑8.59%)	(↑11.97%)
	+PRL	0.0155	0.0195	0.0315	0.0470	↑7.08%	0.0162	0.0202	0.0334	0.0496	↑6.59%
	(Improv.)	(↑4.73%)	(↑12.07%)	(↓0.63%)	(↑12.17%)		(↑8.72%)	(↑9.19%)	(↑2.45%)	(↑5.98%)
Baby & Products	Base	0.0112	0.0157	0.0260	0.0437	-	0.0109	0.0154	0.0257	0.0439	-
	+ERL	0.0116	0.0164	0.0228	0.0418	↓2.16%	0.0148	0.0195	0.0293	0.0481	↑21.49%
	(Improv.)	(↑3.57%)	(↑4.46%)	(↓12.31%)	(↓4.35%)		(↑35.78%)	(↑26.62%)	(↑9.57%)	(↑14.01%)
	+PRL	0.0135	0.0178	0.0281	0.0451	↑11.30%	0.0140	0.0185	0.0291	0.0466	↑16.99%
	(Improv.)	(↑20.54%)	(↑13.38%)	(↑8.08%)	(↑3.20%)		(↑28.44%)	(↑20.13%)	(↑6.15%)	(↑13.23%)

表 2 (ID-based Models) 观察：

BERT4Rec 优于 SASRec： 在大多数数据集上，BERT4Rec 在不同指标上略优于 SASRec。这表明结合左右上下文信息有助于模型更有效地捕捉序列模式。
ReaRec 显著提升： ERL 和 PRL 方法在 ReaRec 框架下，显著且一致地超越了基线模型。
- 例如，基于 SASRec 的 ERL 和 PRL 在所有五个数据集上平均提升了 6.76% 和 8.21%。
- 基于 BERT4Rec 的 ERL 和 PRL 在所有五个数据集上平均提升了 5.96% 和 7.12%。

个别情况： 在 Software 数据集上，SASRec + ERL 的 R@10 略有下降 (-0.82%)，但平均性能仍有提升。在 Baby & Products 数据集上，SASRec + ERL 的平均性能略有下降 (-2.16%)，这可能是由于该数据集的特点或特定超参数配置。

以下是原文 Table 3 的结果：

Dataset	Method	UniSRec					MoRec
Dataset	Method	N@10	N@20	R@10	R@20	Avg.	N@10	N@20	R@10	R@20	Avg.
Yelp	Base	0.0380	0.0495	0.0737	0.1195	-	0.0391	0.0516	0.0757	0.1258	-
	+ERL	0.0406	0.0521	0.0770	0.1227	↑4.81%	0.0417	0.0531	0.0832	0.1283	↑5.36%
	(Improv.)	(↑6.84%)	(↑5.25%)	(↑4.48%)	(↑2.68%)		(↑6.65%)	(↑2.91%)	(↑9.91%)	(↑1.99%)
	+PRL	0.0413	0.0529	0.0788	0.1253	↑6.83%	0.0410	0.0532	0.0804	0.1289	↑4.16%
	(Improv.)	(↑8.68%)	(↑6.87%)	(↑6.92%)	(↑4.85%)		(↑4.86%)	(↑3.10%)	(↑6.21%)	(2.46%)
Video & Games	Base	0.0328	0.0421	0.0683	0.1054	-	0.0350	0.0438	0.0716	0.1065	-
	+ERL	0.0364	0.0440	0.0711	0.1015	↑3.97%	0.0392	0.0485	0.0744	0.1112	↑7.76%
	(Improv.)	(↑10.98%)	(↑4.51%)	(↑4.10%)	(↓3.70%)		(↑12.00%)	(↑10.73%)	(↑3.91%)	(↑4.41%)
	+PRL	0.0352	0.0433	0.0658	0.0982	↓0.08%	0.0371	0.0462	0.0708	0.1067	↑2.64%
(Improv.)	(↑7.32%)	(↑2.85%)	(↓3.66%)	(↓6.83%)		(↑6.00%)	(↑5.48%)	(↓1.12%)	(↑0.19%)
Software	Base	0.0820	0.1041	0.1643	0.2522	-	0.0846	0.1050	0.1697	0.2510	-
	+ERL	0.0851	0.1075	0.1669	0.2556	↑2.49%	0.0881	0.1071	0.1711	0.2466	↑1.30%
	(Improv.)	(↑3.78%)	(↑3.27%)	(↑1.58%)	(↑1.35%)		(↑4.14%)	(↑2.00%)	(↑0.82%)	(↓1.75%)
	+PRL	0.0869	0.1076	0.1687	0.2518	↑2.96%	0.0917	0.1120	0.1723	0.2532	↑4.37%
	(Improv.)	(↑5.98%)	(↑3.36%)	(↑2.68%)	(↓0.16%)		(↑8.39%)	(↑6.67%)	(↑1.53%)	(↑0.88%)
CDs & Vinyl	Base	0.0150	0.0208	0.0298	0.0527	-	0.0186	0.0235	0.0405	0.0604	-
	+ERL	0.0208	0.0259	0.0428	0.0629	↑31.54%	0.0199	0.0248	0.0417	0.0609	↑4.08%
	(Improv.)	(↑38.67%)	(↑24.52%)	(↑43.62%)	(↑19.35%)		(↑6.99%)	(↑5.53%)	(↑2.96%)	(↑0.83%)
	+PRL	0.0191	0.0253	0.0394	0.0640	↑25.66%	0.0198	0.0249	0.0417	0.0618	↑4.42%
	(Improv.)	(↑27.33%)	(↑21.63%)	(↑32.21%)	(↑21.44%)		(↑6.45%)	(↑5.96%)	(↑2.96%)	(↑2.32%)
Baby & Products	Base	0.0152	0.0199	0.0315	0.0501	-	0.0176	0.0231	0.0371	0.0588	-
	+ERL	0.0183	0.0239	0.0367	0.0589	↑18.64%	0.0184	0.0242	0.0373	0.0602	↑3.06%
	(Improv.)	(↑20.39%)	(↑20.10%)	(↑16.51%)	(↑17.56%)		(↑4.55%)	(↑4.76%)	(↑0.54%)	(↑2.38%)
	+PRL	0.0182	0.0236	0.0359	0.0575	↑16.77%	0.0189	0.0247	0.0376	0.0611	↑4.89%
	(Improv.)	(19.74%)	(↑18.59%)	(↑13.97%)	(↑14.77%)		(↑7.39%)	(6.93%)	(↑1.35%)	(↑3.91%)

表 3 (Text-based Models) 观察：

Text-based 优于 ID-based： 基于文本的方法 (UniSRec 和 MoRec) 在所有数据集上始终优于基于 ID 的模型。例如，在 Yelp 数据集上，UniSRec 相对于 SASRec 在 NDCG@20 上提升了 9.51%，在 Recall@20 上提升了 14.14%。这归因于文本模型能够利用强大的语言模型编码物品信息，有效缓解数据稀疏性问题，学习领域不变的表示。
ReaRec 显著提升： 同样，ERL 和 PRL 方法在文本基线模型上也展现出显著提升。
- 例如，基于 UniSRec 的 ERL 和 PRL 平均提升了 12.29% 和 10.43%。
- 基于 MoRec 的 ERL 和 PRL 平均提升了 4.12% 和 3.89%。
个别情况： 在 Video & Games 数据集上，UniSRec + PRL 的平均性能略有下降 (-0.08%)。这可能是由于该数据集的特点或特定超参数配置。

总体结论：

ReaRec 框架通过在推理阶段增加潜在空间计算，加深了特征交叉深度，有效释放了各种 SeqRec 主干模型的潜在推理能力。
这表明增加推理时的计算量是提升推荐性能的一个有前景的方向。
ReaRec 在 ID-based 和 Text-based 模型上都表现出良好的通用性和有效性，尤其在 Text-based 模型上效果更佳，这可能与文本模型本身具有更丰富的语义信息，更容易进行推理有关。

6.1.2. 稳健性分析：不同用户和物品子组

为了深入了解多步推理框架的性能，本文将用户和物品分为不同的子组，并分析 ReaRec 的稳健性。

分组方式：

用户分组 (User Subgroups)： 根据序列长度将用户分为四个等大小的组：UG-0, UG-1, UG-2, UG-3。组号越高表示序列越长。
物品分组 (Item Subgroups)： 根据交互频率将物品分为四个组：IG-0, IG-1, IG-2, IG-3。组号越高表示物品越受欢迎（popular）。每个物品组包含相同数量的样本。

在训练时将 PRL 方法的推理步骤数固定为 3，然后在推理阶段分析推荐性能随推理步数增加的变化。

以下是原文 Figure 4 的结果：

$Figure 4: Robustness study w.r.t different user and item subgroups on Yelp dataset. 'Step `x '` represents the recommendation performance at the $x$ -th reasoning step. 'UG' and 'IG' denote User and Item Group, respectively, where higher group numbers indicate longer sequences and more popular items.$

观察与分析：

短序列用户和长尾物品的性能提升：
- 对于短序列用户组（如 UG-0，UG-1）和长尾物品组（如 IG-0，IG-1），推荐质量（NDCG@20）随着推理步骤的增加而稳步提升。
- 例如，在物品组 IG-1 中，更多的推理步骤带来了 12.08%、16.35% 和 18.69% 的性能提升。这表明对于稀疏交互和不流行物品，更多的“思考空间”有助于模型挖掘稀疏的交互信号，进行更细致的推理。
长序列用户和热门物品的性能下降：
- 对于长序列用户组（如 UG-2，UG-3）和热门物品组（如 IG-2，IG-3），随着推理步骤的增加，性能反而趋于下降。
- 解释： 作者推测，这主要是因为较长的用户序列本身就提供了丰富的上下文信息，使得模型更容易挖掘兴趣演变模式。在一定程度之后，额外的推理计算无法带来进一步的性能提升，甚至可能由于过度思考 (overthinking) 而导致性能下降。
- 类似地，对于高受欢迎度的物品，其训练充分的表示使得推荐器容易捕捉协作信号，因此更深层次的特征交叉可能收益不大。

结论：

ReaRec 的多步推理机制对不同用户和物品子组的影响是异质的。
长尾用户和物品通常需要更多的思考空间来推理稀疏的交互信号。
高活跃用户和热门物品可能不需要冗余的计算扩展，过度的推理反而可能导致性能下降。
这启发未来的研究可以探索开发差异化的快速和慢速推理机制，以根据用户序列的复杂性自适应地调整推理深度，从而进一步提升整体推荐性能。

6.1.3. 推理步数对推荐性能的影响

本文研究了不同推理步数下推荐性能的变化趋势。实验设置是使用指定数量的推理步数进行训练和推理。评估指标是 NDCG@20。

比较方法：

Base： 原始的 SASRec 序列推荐器，不进行推理增强，作为基线。
Naive： 在 Base 方法的基础上，扩展为多步推理范式，其中最后一个隐藏状态自回归地反馈给模型，且仅使用最终位置作为用户表示。
RPE (Reasoning Position Embeddings)： 在 Naive 方法的基础上，进一步集成推理位置嵌入，以弥合序列编码模式和推理模式之间的任务差距。
ERL (Ensemble Reasoning Learning)： 在多步推理下，采用集成推理学习方法。
PRL (Progressive Reasoning Learning)： 在多步推理下，采用渐进推理学习方法。

以下是原文 Figure 5 的结果：

观察与分析：

Naive 方法的失败： Naive 方法（缺乏专门设计）未能带来性能提升，甚至比基线模型表现更差。这很可能是因为模型无法区分序列编码阶段和推理阶段。
RPE 的重要性： 引入推理位置嵌入 (+RPE) 有效缓解了任务差距，带来了明显的性能提升。这验证了区分不同计算阶段的重要性。
ERL 和 PRL 的优势： 相比于 Naive 和 RPE，ERL 和 PRL 方法通过明确注入逐步监督信号，显著缓解了推理模式退化和误差积累问题。它们有效地提升了性能，证明了所提出学习策略的有效性。
“过度思考”现象：随着推理步数的增加，所有方法都观察到性能一致下降的趋势（在某个峰值之后）。这表明过多的推理可能导致“过度思考”——简单的用户交互模式可能不需要密集的潜在推理。
未来研究方向： 考虑到 Figure 2 中事后最优推理步分析，开发一种自适应推理深度选择机制来平衡推理深度和用户序列复杂性，是未来非常有意义的研究方向。

6.1.4. 推理步数对推理延迟的影响

本文评估了 ReaRec 框架在推理时计算需求增加所带来的额外开销。以 PRL 方法为例，测量了测试集上推理步数增加时的时延成本。

以下是原文 Table 4 的结果：

	Base	Step-1	Step-2	Step-3	Step-4	Step-5
SASRec	5.6761	5.7985	5.8752	5.9305	6.0310	6.2786
Cost Inc.	-	2.16%	3.51%	4.48%	6.25%	10.61%
BERT4Rec	5.6535	5.7685	5.9174	5.9621	6.0862	6.1224
Cost Inc.	-	2.03%	4.67%	5.46%	7.65%	8.29%
UniSRec	5.6061	5.6312	5.7596	5.8732	6.0303	6.0502
Cost Inc.	-	0.45%	2.74%	4.76%	7.57%	7.92%
MoRec	5.6638	5.7143	5.8391	5.9565	5.9659	5.9812
Cost Inc.	-	0.89%	3.10%	5.17%	5.33%	5.60%

观察与分析：

可控的额外延迟： 尽管采用了循环自回归推理机制，额外延迟仍然可控。
- 例如，在 SASRec 上，从 Base 到 Step-2 (通常是最佳性能点) 延迟增加 3.51%。
- 在 UniSRec 上，延迟增加 2.74%。
KV 缓存的效率： 这种效率得益于 KV 缓存 (KV Caching) 技术，该技术通过重用过去步骤的键和值向量，显著降低了注意力计算复杂度（从 $O(N^2)$ 降低到 $O(N)$ ），从而有效地最小化了冗余计算。
性能与效率的权衡： 结合 Figure 5 的结果，ReaRec 方法通常在两个推理步骤时达到最佳性能。这意味着在所有指标上平均性能提升 7.49% 的同时，仅带来了 3.51% 的适度延迟开销。
实际部署潜力： 这种权衡对于工业推荐系统的实际部署是可接受且实用的。这些结果表明 ReaRec 框架在实际应用中具有巨大的潜力。

6.1.5. 消融实验 (Ablation Study)

本节展示了所提出方法的消融实验。重点关注两个关键组件：

ERL 方法中的 KL 正则化项 (KL regularization term) (Sec. 3.2.2)。
PRL 方法中的 推理感知对比学习 (Reasoning-aware Contrastive Learning, RCL) (Sec. 3.3.2)。具体来说，通过从两种方法中移除辅助损失项并评估它们在 NDCG@20 上的性能来研究其影响。

以下是原文 Figure 7 的结果：

Figure 7: Ablation study for key components in ERL and PRL.

观察与分析：

ERL 中 KL 正则化的重要性： 没有 KL 正则化的 ERL 方法性能低于完整模型。这表明模型可能在推理状态中遭遇模式退化 (pattern degradation)，导致高度同质化的输出。KL 正则化鼓励推理步骤间的多样性，从而避免了这种同质化。
PRL 中 RCL 的重要性： 没有 RCL 的 PRL 方法也导致了次优的推荐性能。尽管渐进温度调度有助于调整不同步骤中学习分布的锐度，但缺乏鲁棒的推理机制会阻止推荐器纠正中间推理状态的偏差。因此，它难以有效逼近用户的真实偏好分布。
结论： 实验结果明确表明，KL 正则化和 RCL 在各自的方法中都是关键组件，它们有效地解决了多步推理序列模型中的核心挑战，例如推理模式退化和推理偏差。

6.1.6. 敏感性分析 (Sensitivity Analysis)

本节研究了三个关键超参数 $\tau$ , $\alpha$ , 和 $\lambda$ 在 Yelp 和 Video & Games 数据集上的影响。其中 $\tau$ 和 $\alpha$ 分别代表 PRL 方法中的基准温度 (base temperature) 和渐进温度衰减率 (progressive temperature decay rate)，而 $\lambda$ 表示 ERL 方法中的 KL 正则化强度 (KL regularization strength)。分析了每个超参数变化如何影响模型性能。

以下是原文 Figure 6 的结果：

$Figure 6: Performance comparison w.r.t. different hyperparameters, including base temperature $\\tau$ , temperature decay rate $\\alpha$ and KL regularization strength λ. The green and orange lines represent the PRL and ERL methods, respectively.$

观察与分析：

基准温度 $\tau$ 对 PRL 性能的影响：
- 趋势： 随着 $\tau$ 的增加，模型性能逐渐改善，直到某个点后又开始下降。
- 解释：
  - 过小的 $\tau$ 会使预测概率分布过于锐利 (sharp)，即模型对正负样本的偏好过于极端，这可能不符合用户潜在的偏好分布。强制模型从噪声交互数据中学习这种极端偏好会损害泛化能力。
  - 过大的 $\tau$ 同样导致推荐性能下降。高 $\tau$ 值可能会模糊候选物品之间的排名差异，使得推荐器难以学习有意义的序列模式。
- 结论： 设置一个适中的 $\tau$ 值对于实现令人满意的性能至关重要。
温度衰减率 $\alpha$ 对 PRL 性能的影响：
- 趋势： 适度的 $\alpha$ 通常能达到最佳性能，而过小或过大的衰减率都会导致次优结果。
- 解释：
  - 如果 $\alpha$ 过小（极端情况 $\alpha=1.0$ ），不同推理步骤学习到的分数分布保持不变，导致模型可能通过复制先前的推理状态来走捷径，从而阻止模型利用推理增强。
  - 如果 $\alpha$ 过高（例如 $\alpha=10.0$ ），在指数温度衰减策略下，剧烈的温度变化会导致分布锐度从平滑到锐利的快速转变，这会扰乱模型的课程式推理过程。
- 结论： 选择一个近似的温度衰减率对于降低模型的优化难度至关重要。
KL 正则化强度 $\lambda$ 对 ERL 性能的影响：
- 趋势： 模型对 $\lambda$ 的敏感度通常不高。然而，当 $\lambda$ 超过某个阈值（例如 0.05）时，推荐性能会显著下降。
- 解释： 过强的正则化（大 $\lambda$ 值）可能会强制模型在多步推理中学习过度发散的序列模式，这实际上可能会扰乱序列建模能力。尽管 KL 正则化旨在鼓励模型探索多样化的推理路径，但过强的正则化可能会主导梯度优化，增加优化挑战，最终导致性能下降。
- 结论： 尽管在一定范围内不敏感，但需要避免过大的 $\lambda$ 值以防止性能退化。

6.1.7. 嵌入可视化分析 (Embedding Visualization Analysis)

为了分析推理过程中隐藏状态的动态变化，本文可视化了不同方法的多步推理输出的相似度热力图。

以下是原文 Figure 9 的结果：

Figure 9: Visualization of similarity in multi-step reasoning hidden states for different methods.

观察与分析 (Figure 9)：

RPE 变体的同质性： 对比 Figure 9(a) 和 Figure 9(b)，RPE 变体在推理状态中表现出高度同质性。例如，最终输出与前两步之间的相似度分数几乎相同（1.00 和 0.98），这证实了之前声称的推理模式退化问题。
PRL 的有效性： 相比之下，PRL 方法通过引入渐进推理学习，有效地利用了推理增强计算来提升性能，其相似度矩阵显示出更合理的动态变化。
ERL 的挑战与 KL 正则化： ERL 方法也存在类似的问题（未经 KL 正则化时），但 KL 正则化通过鼓励模型捕捉多样化的序列模式，聚合多阶特征交叉来缓解了同质化问题。

以下是原文 Figure 10 的结果：

$Figure 10: The embedding visualization of the full ERL method vs. its ablated version without KL regularization. Dashed boxes highlight high similarity between different reasoning steps (Step $\\mathbf { 0 } \\sim$ Step 3) in the ablated version.$

观察与分析 (Figure 10)：
ERL w/o KL 的模式重叠： Figure 10 可视化了具体的推理表示。可以观察到，没有 KL 约束的 ERL 方法在不同推理步骤（Step 0 到 Step 3）之间显示出更多的重叠模式（虚线框突出显示了高相似度区域）。
验证所提出方法： 这进一步验证了所提出的方法能够有效地解决多步推理序列模型中的核心挑战，即避免推理状态的同质化和模式退化。ERL 和 PRL 通过其特定的设计（KL 正则化和 RCL）促进了推理过程中的多样性和鲁棒性。

6.2. 案例研究 (Case Studies)

6.2.1. 目标物品排名变化分析

本文评估了目标物品在多步推理过程中排名变化的轨迹，使用 PRL 方法在 Yelp 数据集上进行，并改变温度衰减系数 ( $\alpha$ ) 以及一个没有 RCL 的消融版本。

以下是原文 Figure 8 的结果：

该图像是一个示意图，展示了不同步长下预测得分与项目排名的关系。图中包含四个子图，分别对应不同参数设置与项目排名的影响，显现出各步骤（Step 0, Step 1, Step 2）下的预测得分变化情况。

观察与分析：

PRL 的渐进排名改进： 完整的 PRL 方法在推理深度增加时，逐步改善了目标物品在整个候选池中的排名，这与本文的预期相符。
$\alpha$ 的影响：
- 对于较小的 $\alpha$ ，不同推理步骤之间的得分分布平稳过渡。
- 对于较大的 $\alpha$ ，分布变化更剧烈，这与 4.3.5 节的分析一致。
RCL 缺失的推理错误： 在没有 RCL 的消融版本中，推理错误导致目标物品的排名在推理步数增加时反而进一步下降（例如，在 Figure 8(d) 中，目标物品排名从第 1 步的 #12 降至第 2 步的 #22）。这强调了 RCL 对于增强推理鲁棒性、防止错误积累的重要性。

6.2.2. 真实世界推荐场景案例研究

本文提出了一个案例研究，以说明 PRL 方法的逐步偏好细化效果。

以下是原文 Figure 11 的结果：

$Figure 11: Case study of multi-step inference on the Video & Games Dataset. $\\mathbf { \\widetilde { H } } \\mathbf { \\Phi } _ { X } \\mathbf { \\widetilde { \\Phi } }$ represents historical items, with smaller $x$ indicating more recent interactions. $\\mathbf { \\Delta } ^ { \\mathfrak { s } } \\mathbf { R } \\mathbf { \\boldsymbol { x } } ^ { \\mathfrak { s } }$ represents the top-1 recommended items at the $x$ -th reasoning step, with larger $x$ indicating later reasoning steps.$

案例描述： 用户在 Amazon 上购买了 Halo 和 Halo 5（两款 Xbox One 平台的第一人称射击 (FPS) 游戏）。之后，用户购买了相关的配件，即内存卡、防尘罩和支架。接下来，多步推理输出给出了相应的 Top-1 推荐物品，分别表示为 R0、R1 和 R2。

逐步推理分析：

R0 (第一步推理)： 模型成功捕捉到用户对 Xbox 平台上 FPS 游戏的偏好。然而，推荐的物品 (Conflict Desert Storm) 缺乏时效性，可能不符合游戏爱好者偏爱新发行的趋势。
R1 (第二步推理)： 模型调整后推荐了游戏控制器，这反映了用户最近的购买习惯（游戏配件）。然而，这个推荐仍然次优，因为它只反映了协作相关性而非序列特征（通常用户在购买配件如支架之前会先购买控制器），并且缺乏推荐多样性（因为最近购买的都是配件）。
R2 (最终推理步骤)： 令人惊喜的是，模型在最终推理步骤推荐了《生化危机 2》(Resident Evil 2)，这是一款与实际目标物品匹配的新发行射击游戏，并且与用户的真实偏好高度一致。

结论： 这个案例研究进一步验证了循环推理如何通过整合时间上下文、协作相关性和输出多样性来解决模糊性。模型在多步推理中，能够从最初的粗略判断，逐步细化其理解，最终做出更准确、更符合用户深层意图的推荐。这直观地展示了 ReaRec 框架如何通过增加“思考”深度来提升推荐质量。

7. 总结与思考

7.1. 结论总结

本文开创性地将深度推理整合到序列推荐中，引入了 ReaRec 框架，一个受“先思考后行动”范式启发的推理时计算框架。与传统的直接推理模型不同，ReaRec 通过多步隐式推理扩展了计算深度，使序列推荐模型能够在推荐前进行“思考”。为了解决多步推理过程中的优化挑战，本文提出了两种轻量级学习策略：集成推理学习 (ERL) 和渐进推理学习 (PRL)，它们分别增强了推理的鲁棒性和有效性。在五个真实世界数据集和不同 SeqRec 架构上的大量实验验证了 ReaRec 的有效性和通用性。值得注意的是，ReaRec 不仅提高了长尾用户和物品的性能，还通过事后最优步骤选择，将现有 SeqRec 主干模型的性能上限提高了约 30% 至 50%。这项工作揭示了 ReaRec 在序列推荐中尚未开发的潜力，并为推理与推荐交叉领域未来的研究开辟了有前景的方向。

7.2. 局限性与未来工作

7.2.1. 自适应推理深度选择 (Adaptive Inference Depth Selection)

局限性： 实验结果显示（如 Figure 4），虽然 ReaRec 有效提升了冷启动用户和长尾物品的推荐性能，但对于高活跃用户和热门物品，性能反而可能下降。这归因于“过度思考”现象——对于已充分学习的模式，额外的计算步骤带来的收益微乎其微，甚至可能导致性能退化。此外，Figure 2 中的事后最优步骤分析表明，模型的当前性能与理论上限之间仍存在显著差距。 未来工作： 如何开发一种自适应推理深度选择策略，以平衡计算深度和序列复杂性，是一个开放的研究方向。这意味着模型应根据用户和物品的特性，动态调整推理的步数。

7.2.2. 编码与推理之间的参数解耦 (Parameter Disentanglement Between Encoding and Reasoning)

局限性： 当前 ReaRec 框架采用隐式推理机制，与大型推理模型类似，物品序列编码阶段与推理计算共享参数。这种设计虽然保证了参数效率，但也带来了任务模糊性——相同的神经网络模块必须同时处理两个截然不同的目标：(1) 精确的物品表示学习和 (2) 多步前向推理。尽管本文提出了推理位置嵌入来缓解这个问题，但次优的性能轨迹（性能先提高后随步数增加而下降，如 Figure 5 所示）表明现有解决方案可能不是最优的。 未来工作： 探索在模型层面解耦物品编码和深层序列推理之间的参数，是一个有前景的方向。这种分离可能减少任务干扰，允许更专业的表示学习，并更好地适应多步推理，最终提高推荐质量。

7.2.3. 缺失的推理时扩展定律 (The Missing Inference-time Scaling Law)

背景： 在大型推理模型领域，最新研究 [48, 65] 表明，更长的推理链通常能带来更强的推理能力，从而提升下游任务性能——这种现象被称为推理时扩展定律 (inference-time scaling law)。 局限性： 然而，本文的实验（如 Sec. 4.3.2）表明，随着推理步数的增加，ReaRec 框架并未完美地展现出预期的扩展定律行为。这种差异引发了几个有趣的开放性问题。 未来工作：

推荐系统中的推理时计算是否存在扩展定律？
如果存在，如何设计更有效的推理增强序列推荐器，以更好地实现这种扩展定律？深入探索这个方向可以为模型的推理能力解锁新的见解，并最终推动推理增强推荐研究的边界。

7.2.4. 理论分析 (Theoretical Analysis)

直觉： 直观上，增加推理时计算深度可以使序列推荐器捕捉更高阶的序列特征交叉，从而带来更准确的用户偏好预测。 未来工作： 为了巩固这种直觉，未来的工作可以专注于理论分析，探究多步推理如何有助于提高推荐性能。为推理增强序列推荐建立一个强大的理论基础，可以为更原则性的模型设计和优化策略铺平道路。

7.2.5. 高效推理机制 (Efficient Inference Mechanism)

现状： 尽管效率实验 (Sec. 4.3.3) 证实 ReaRec 引入的延迟开销微乎其微，但随着序列推荐推理时扩展定律的未来发展，自回归生成范式仍可能引发效率担忧。 未来工作： 为解决这一问题，本文提出了一些潜在的优化策略供未来探索，包括：

整合线性注意力机制 (linear attention mechanisms) [60]。
模型量化 (model quantization) [73]。
长短推理蒸馏 (long-to-short reasoning distillation) 技术 [53]。这些技术旨在进一步实现工业级部署的更轻量、更快速的推理效率。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常重要的视角，即“推理时计算”或“先思考后行动”的范式不仅仅适用于大型语言模型，同样可以在推荐系统等其他领域发挥巨大作用。它启发我：

突破传统范式： 很多机器学习任务，尤其是深度学习，习惯于一次性前向传播得到结果。本文揭示了在推理阶段增加计算深度，进行多步隐式“思考”的潜力，这为模型性能提升打开了新的思路。
长尾问题的解决思路： 对长尾用户和物品的性能提升尤其令人鼓舞。这表明深度推理可以帮助模型从稀疏信号中提取更多有价值的信息，更好地理解复杂或不常见的模式，这对于推荐系统的公平性和多样性至关重要。
模型可解释性的潜在方向： 尽管本文的推理是隐式的，但通过可视化（如 Figure 11 的案例研究），我们可以初步看到模型“思考”过程的痕迹。未来可以探索如何让这种隐式推理更加显式化、可解释化，从而增强用户对推荐结果的信任。
跨领域思想迁移： 再次证明了机器学习领域不同子任务（如 NLP 和推荐系统）之间思想迁移的重要性。CoT 在 NLP 领域的成功，激发了在推荐系统中寻找类似机制的灵感。

7.3.2. 批判

尽管 ReaRec 取得了显著的进步，但仍存在一些可以批判和改进的地方：

“过度思考”的挑战：论文明确指出了“过度思考”问题，即推理步数过多反而导致性能下降。这表明当前模型在识别何时停止推理或如何自适应调整推理深度方面还不够智能。这不仅增加了计算开销，也限制了模型的泛化能力。如何设计一个动态推理停止机制（例如基于置信度或不确定性），将是一个关键的改进方向。
隐式推理的黑盒性质： 尽管作者试图通过可视化和消融实验来解释推理过程，但隐式推理本质上仍然是一个“黑盒”。模型内部到底发生了怎样的“思考”，哪些特征在哪个阶段被强化或抑制，这些深层机制仍不完全透明。这限制了我们对模型行为的理解和调试能力。
参数共享的权衡： 编码阶段和推理阶段共享参数虽然高效，但如作者所言，可能导致任务模糊性。未来的研究可以探索更精细的参数解耦策略，例如，在推理阶段引入轻量级的、专门用于推理的模块，或者采用 Adapter 机制，在保持大部分参数共享的同时，为推理任务添加特定参数。
理论基础的不足： 论文主要基于经验观察和类比，缺乏关于为何多步推理能够提升推荐性能的严格理论分析。构建一个坚实的理论框架，解释推理深度如何增加模型表达能力、如何避免局部最优等，将极大地增强这项工作的说服力和影响力。
效率与扩展定律的差异： 尽管作者声称效率可控，但在大规模工业场景中，即使是 3-5% 的延迟增加也可能带来巨大的成本。同时，推理时扩展定律的“缺失”表明当前方法可能还未真正捕捉到推理的本质，或者推荐任务的性质与 LLM 存在根本差异。这提示我们需要更深入地研究推荐任务的“推理空间”特性，而非简单复制 LLM 的成功模式。
适用场景的进一步明确： 论文强调了对长尾物品和冷启动用户的改善，但在高活跃用户和热门物品上的性能下降，意味着 ReaRec 并非“一刀切”的解决方案。未来的工作需要更细致地界定其最佳适用场景，或者开发混合模型，针对不同用户群体采用不同的推理策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。