论文状态：已完成

Experience as Source for Anticipation and Planning: Experiential Policy Learning for Target-driven Recommendation Dialogues

发表：2024/11/01

原文链接 PDF 下载

价格：0.100000

已有 6 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出经验策略学习框架，通过经验评分函数利用长期记忆中的相似交互，有效提升目标驱动推荐对话的预测与规划能力。树状EPL结合大语言模型和蒙特卡洛树搜索，实现无需训练的多层次推理，实验表明其性能优越。

摘要

Findings of the Association for Computational Linguistics: EMNLP 2024 , pages 14179–14198 November 12-16, 2024 ©2024 Association for Computational Linguistics Experience as Source for Anticipation and Planning : Experiential Policy Learning for Target-driven Recommendation Dialogues Huy Dao 1 , Yang Deng 1 , Khanh-Huyen Bui 2 , Dung D. Le 3 , Lizi Liao 1 1 Singapore Management University 2 FPT Software AI Center, 3 College of Engineering and Computer Science, VinUniversity qh.dao.2023@phdcs.smu.edu.sg , {ydeng,lzliao}@smu.edu.sg , huyenbk2@fpt.com , dung.ld@vinuni.edu.vn , Abstract Target-driven recommendation dialogues present unique challenges in dialogue man- agement due to the necessity of anticipating user interactions for successful conversations. Current methods face significant limitations: (I) inadequate capabilities for conversation anticipation, (II) computational inefficiencies due to costly simulations, and (III) neglect of valuable past dialogue experiences. To address these limitations, we propose a new framework, Experiential Policy Learning (EPL), to enhance such dialogues. Specifically, EPL embodies the principle of Learning From

思维导图

论文精读

中文精读约 38 分钟读完 · 25,479 字

1. 论文基本信息

1.1. 标题

Experience as Source for Anticipation and Planning: Experiential Policy Learning for Target-driven Recommendation Dialogues (经验作为预期和规划的来源：用于目标驱动推荐对话的经验策略学习)

1.2. 作者

Huy Dao, Yang Deng, Khanh-Huyen Bùi, Dung D. Le, Lizi Liao

1 新加坡管理大学 (Singapore Management University)
2 FPT Software AI Center
3 VinUniversity 工程与计算机科学学院 (College of Engineering and Computer Science, VinUniversity)

1.3. 发表期刊/会议

该论文发表于 EMNLP Findings 2024。EMNLP (Conference on Empirical Methods in Natural Language Processing) 是自然语言处理 (NLP) 领域顶级的学术会议之一，其 Findings 环节专门发表高质量、有价值但篇幅可能略短或贡献点相对集中于某个方面的研究。在此会议上发表的研究通常具有较高的学术质量和影响力。

1.4. 发表年份

2024年

1.5. 摘要

目标驱动的推荐对话 (Target-driven recommendation dialogues) 在对话管理中提出了独特的挑战，因为它需要预测用户交互才能成功进行对话。当前的方法面临显著限制：(I) 对话预测能力不足，(II) 由于代价高昂的模拟导致计算效率低下，以及 (III) 忽视了有价值的过往对话经验。为了解决这些限制，本文提出了一个新的框架，即经验策略学习 (Experiential Policy Learning, EPL)，以增强此类对话。EPL 体现了“从经验中学习”的原则，通过一个经验评分函数 (experiential scoring function) 来促进预测，该函数利用存储在长期记忆中的类似过往交互来估计对话状态的潜力。为了展示其灵活性，本文引入了 树状 EPL (Tree-structured EPL, T-EPL)，作为一种可能的、无需训练 (training-free) 的实现方式，它结合了大语言模型 (Large Language Models, LLMs) 和蒙特卡洛树搜索 (Monte-Carlo Tree Search, MCTS)。T-EPL 使用 LLMs 评估过往对话状态，同时利用 MCTS 实现分层和多层次推理。在两个已发布数据集上进行的广泛实验证明了 T-EPL 的优越性和有效性。

1.6. 原文链接

https://aclanthology.org/2024.findings-emnlp.829.pdf 该论文已在 EMNLP Findings 2024 上正式发表。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文聚焦于目标驱动推荐对话 (Target-driven recommendation dialogues) 中的核心挑战：如何有效地预测用户交互并规划对话路径，以成功推荐预设的目标物品。

2.1.2. 问题的重要性与现有挑战

重要性： 传统的会话推荐系统 (Conversational Recommender Systems, CRSs) 通常是反应式的，在对话中识别用户兴趣并进行推荐。然而，目标驱动的 CRSs 更具动态性，旨在通过各种对话策略（如闲聊、问答等）引导用户对特定目标物品产生兴趣，并在适当的时机进行推荐。这种主动引导能力对于推广新产品和提高销售收入至关重要。
现有挑战 (Limitations):
- (I) 对话预测能力不足 (Inadequate capabilities for conversation anticipation): 现有目标驱动 CRS 模型的一个显著缺点是无法预测未来的用户-系统交互。它们往往只关注单一的下一轮评估，而成功的目标驱动对话需要预测对话轨迹。
- (II) 计算效率低下 (Computational inefficiencies due to costly simulations): 现有方法（如基于强化学习 (Reinforcement Learning, RL) 或开放式蒙特卡洛树搜索 (MCTS)）尝试利用 LLMs 生成模拟用户交互进行策略学习或未来交互估计，但这些方法在推理时需要频繁访问 LLMs 进行状态评估，导致计算成本高昂。
- (III) 忽视了有价值的过往对话经验 (Neglect of valuable past dialogue experiences): 几乎所有现有工作都未能利用推理过程中获得的新交互来进一步提升性能，没有从历史经验中学习的能力。

2.1.3. 切入点与创新思路

论文的切入点是借鉴“从经验中学习”的原则，利用类似 (similar) 的过往对话经验 (past dialogue experiences) 来增强目标驱动推荐对话的预测和规划能力。具体而言，它提出：

通过一个经验评分函数 (experiential scoring function)，利用长期记忆中存储的类似过往交互来估计对话状态的潜力，从而实现对话预测。
构建一个无需训练 (training-free) 的框架，结合 LLMs 和 MCTS，使其能够适应新的交互，并提高计算效率。

2.2. 核心贡献/主要发现

论文的主要贡献体现在以下三个方面：

提出了新的对话策略学习框架 EPL (Experiential Policy Learning)： 该框架将过往交互融入到规划过程中，以实现未来的预测。
引入了 T-EPL (Tree-structured EPL) 作为 EPL 的无需训练实现： T-EPL 利用 LLMs 和 MCTS，能够快速适应新遇到的交互。
通过广泛实验验证了 T-EPL 的优越性和效率： 在两个已发布数据集上进行了交互式评估，结果表明 T-EPL 在性能和效率方面均优于现有最先进 (SOTA) 方法。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是一个用于建模决策过程的数学框架，其中结果（Outcome）是部分随机和部分由决策者控制的。它被广泛应用于强化学习 (Reinforcement Learning) 领域，用以描述一个智能体 (agent) 如何在一个环境中采取行动以最大化长期奖励 (reward)。一个 MDP 通常由以下五元组定义： $\mathcal { M } = ( \mathcal { S } , \mathcal { A } , R , T , \gamma )$ 。

$\mathcal { S }$ : 状态空间 (State Space)，表示环境中所有可能的状态。
$\mathcal { A }$ : 动作空间 (Action Space)，表示智能体在每个状态下可以采取的所有可能动作。
$R$ : 奖励函数 (Reward Function)， $R : \mathcal { S } \times \mathcal { A } \times \mathcal { S } \to \mathbb { R }$ ，表示智能体从状态 $s$ 采取动作 $a$ 转移到状态 $s'$ 时获得的即时奖励。
$T$ : 转移函数 (Transition Function)， $T : \mathcal { S } \times \mathcal { A } \to \mathcal { S }$ (或更一般地是概率分布 $\mathbf { P } ( s' | s, a )$ ) ，表示智能体在状态 $s$ 采取动作 $a$ 后转移到下一个状态 $s'$ 的概率。
$\gamma$ : 折扣因子 (Discount Factor)， $\gamma \in [0, 1)$ ，用于衡量未来奖励的重要性。

在本文中，对话状态 $s_t = (h_{\leq t}, a_{\leq t})$ 被实例化为对话上下文 $h_{\leq t}$ 和之前动作序列 $a_{\leq t}$ 的组合。

3.1.2. 会话推荐系统 (Conversational Recommender Systems, CRSs)

CRSs 旨在通过交互式的多轮对话为用户提供合适的推荐。它们结合了对话系统 (Dialogue Systems) 和推荐系统 (Recommender Systems) 的功能，能够更深入地理解用户需求并提供个性化推荐。

3.1.3. 目标驱动推荐对话 (Target-driven Recommendation Dialogues)

目标驱动推荐对话 是 CRSs 的一个特定类别，其目标是引导用户接受一个预先设定的目标物品 (target item)。这与传统 CRSs 的被动（用户主导发现兴趣）方式不同，更强调系统的主动引导和规划能力，例如在营销和推广场景中。

3.1.4. 蒙特卡洛树搜索 (Monte-Carlo Tree Search, MCTS)

MCTS 是一种用于在决策过程中进行搜索的启发式搜索算法，特别适用于状态空间非常大的场景（如围棋）。它通过构建一棵搜索树来模拟未来可能的决策路径，并使用蒙特卡洛模拟 (Monte-Carlo simulations) 来估计每个节点的价值。MCTS 通常包含四个阶段：

选择 (Selection): 从根节点开始，通过一个策略（如 UCT 算法）选择最佳子节点，直到到达一个未完全展开的节点。
扩展 (Expansion): 为选定的节点添加一个或多个新的子节点。
模拟 (Simulation) / 估值 (Estimation): 从新节点开始，进行随机模拟（或使用启发式方法）直到游戏结束，得到一个结果。
反向传播 (Backpropagation): 将模拟结果沿着搜索路径反向传播，更新所有父节点的统计信息（访问次数和价值）。

在本文中，MCTS 被用来实现分层和多层次推理，但其估值阶段不再依赖昂贵的在线模拟，而是使用经验评分函数。

3.1.5. 大语言模型 (Large Language Models, LLMs)

LLMs 是基于深度学习 (Deep Learning) 的神经网络模型，拥有数十亿甚至上千亿个参数，通过在海量文本数据上进行预训练 (Pre-training)，能够理解、生成和处理人类语言。它们在多种 NLP 任务中展现出卓越的性能，如问答、文本摘要、翻译、甚至复杂的推理任务。在本文中，LLMs 被用于评估对话状态的潜力，以及作为用户模拟器生成交互。

3.2. 前人工作

论文回顾了两个主要相关研究方向：目标驱动主动对话系统 (Target-driven Proactive Dialogue Systems) 和 经验反思 (Reflecting on Experience)。

3.2.1. 目标驱动主动对话系统

早期方法： 聚焦于引导对话达到预定义目标，例如谈判或推荐。提出了如布朗运动对话规划 (Brownian-motion dialogue planning) 和长短期策略平衡 (long-short term strategic balancing) 等方法。
挑战： 这些方法普遍缺乏对未来用户-系统交互的预见 (foresight) 能力，这对于对话预测至关重要。
引入 LLM/RL 的尝试：
- Deng et al. (2023a)：利用 LLM 生成的交互来微调预训练策略，但其静态策略在部署时对新情况适应性差。
- $Yu et al. (2023)$ ：提出使用开放式 MCTS 来估计未来交互，但由于频繁调用 LLM 进行评估，计算效率低下。
共同缺陷： 这些方法在推理阶段没有利用新获得的交互来进一步提升性能。

3.2.2. 经验反思 (Reflecting on Experience)

$Ye et al. (2022)$ ：在多模态对话系统 (Multimodal Dialogue Systems) 中，通过检索训练数据中的类似对话来增强响应生成质量。
$Lin et al. (2023)$ ：从与类似用户的对话中提取信息，以更好地理解当前用户的偏好，应用于推荐系统。
Shinn et al. (2023)：提出了一个反思框架，通过利用过往试验结果来增强当前任务（如决策、编程、推理）的预测性能。
启发： 这些工作表明，利用类似经验或历史试验可以加深对当前输入的理解，并减少对昂贵模拟的需求。

3.3. 技术演进

会话推荐系统 (CRS) 经历了从最初的反应式 (reactive) 模型（仅根据用户兴趣被动推荐）到主动式 (proactive) 甚至目标驱动 (target-driven) 模型（旨在引导用户接受特定物品）的演进。这种演进带来了对对话规划 (dialogue planning) 和未来交互预测 (anticipating future interactions) 的更高要求。

早期的方法往往缺乏对对话轨迹的预见性，或者在引入 LLM 和 MCTS 后，又面临计算效率和模型静态性的挑战。本文的工作正是在这样的技术背景下，试图通过引入“从经验中学习”的原则，结合 LLM 和 MCTS 的优势，同时克服其局限性，实现更高效、更具适应性的目标驱动对话策略。

3.4. 差异化分析

核心区别： 现有的 MCTS 或 RL 方法通常依赖于昂贵的在线模拟 (online rollout simulations) 或静态的预训练策略。这些方法在推理时缺乏对新交互的适应性，并且计算成本高。
本文创新： EPL 的核心创新在于，它不再依赖于昂贵的在线模拟或固定策略，而是通过构建一个记忆结构 (memory structure)，存储过往的对话经验及其评估价值。在推理时，EPL 通过检索与当前状态相似 (similar) 的过往经验，并聚合这些经验的价值来近似 (approximate) 当前状态的潜在价值。
效率与适应性： 这种基于经验的近似方法，避免了昂贵的实时 LLM 评估和模拟，显著提高了计算效率。同时，记忆结构可以在推理过程中动态更新，使得策略能够在线 (online) 适应新遇到的交互，从而克服了预训练策略的静态性限制。
评估方式： 论文还指出，现有工作仅依赖客观成功率 (ObjSR) 可能高估模型效果，因此本文引入了更全面的 LLM 辅助的主观成功率 (SubjSR) 评估。

4. 方法论

本章节将详细拆解论文提出的经验策略学习 (EPL) 框架及其具体实现树状 EPL (T-EPL) 的技术方案。

4.1. 方法原理

EPL 的核心思想是“从经验中学习 (Learning From Experience)”，通过利用类似 (similar) 的过往交互 (past interactions) 来促进未来对话的预测 (anticipation) 和规划 (planning)。它旨在解决现有方法在对话预测能力不足、计算效率低下以及忽视过往经验的局限性。

具体来说，EPL 不依赖于昂贵的在线模拟，而是通过一个经验评分函数 (experiential scoring function) 来估计对话状态的潜力 (dialogue state potential)。这个函数通过检索存储在长期记忆中的与当前状态相似的过往交互，并聚合这些交互的评估价值来实现。

4.2. 方法步骤与流程

4.2.1. 目标驱动评分函数 (Target-driven Scoring Function)

对话的结果可以简化为成功 (success) 或失败 (fail)。定义 $\mathcal { L } = \{ success, fail \}$ 为结果集。给定一个状态 $s$ 和一个目标物品 $v$ ，可以估计 F(s, v)，即状态 $s$ 和目标物品 $v$ 的潜在价值 (potential value)，公式如下： $\mathcal { F } ( s , v ) = \mathbb { E } _ { r \sim \mathbf { P } ( r \mid s , v ) } \left[ f ( r ) \right] = \sum _ { r \in \mathcal { L } } \mathbf { P } ( r \mid s , v ) f ( r )$ 其中：

f(r) 是一个将结果 $r$ 映射到其对应标量值 $\mathbb { R }$ 的函数。
$\mathbf { P } ( r | s, v )$ 是在给定状态 $s$ 和目标物品 $v$ 的情况下，结果为 $r$ 的概率。

挑战： 估计 $\mathbf { P } ( r | s, v )$ 很困难，因为状态 $s$ 可能只包含有限信息来预测对话结果。为了解决这个问题，可以重新形式化 F(s, v)，引入对话延续 (dialogue continuation) $c$ (包含后续的用户-系统交互)： $F ( s , v ) = \sum _ { r \in \mathcal { L } } f ( r ) \sum _ { c \sim \mathbf { P } ( c \mid s , v ) } \mathbf { P } ( r \mid c , s , v ) \mathbf { P } ( c \mid s , v )$ 其中：
$c$ 代表对话的延续。
$\mathbf { P } ( r | c, s, v )$ 是在给定延续 $c$ 、状态 $s$ 和目标物品 $v$ 的情况下，结果为 $r$ 的概率。
$\mathbf { P } ( c | s, v )$ 是在给定状态 $s$ 和目标物品 $v$ 的情况下，出现延续 $c$ 的概率。

新的挑战： 明确计算或建模 $\mathbf { P } ( c | s, v )$ 在计算上是难以处理的。虽然可以通过在线模拟 (online rollout simulations) 来近似采样，但这仍然会导致推理时模拟大量完整对话，计算效率低下。

4.2.2. 经验近似 (An Experiential Approximation)

为了克服上述挑战，论文提出了一种经验近似 (Experiential Approximation) 方法，利用类似 (similar) 的过往交互来近似评分函数 F(s, v)。核心思想是：类似用户倾向于表现出类似的偏好和行为，因此利用过往的、类似的经验可以为当前对话提供有价值的指导。

定义记忆 $\mathcal { M } = \{ ( s' , c' , v' , F(s', v') ) \}$ ，它存储了经验状态 $s'$ 、对应的延续 $c'$ 、目标物品 $v'$ 以及一个目标驱动评估分数 F(s', v') 的元组。由于 (s', c') 构成了一个完整的对话，可以将 $s'$ 视为 $c'$ 的代理 (proxy)。通过重新排列求和顺序，得到以下公式： $F _ { \mathcal { M } } ( s , v ) = \sum _ { ( s ^ { \prime } , c ^ { \prime } ) \sim \mathbf { P } _ { \mathcal { M } } ( s ^ { \prime } \mid s , v ) } \mathbf { P } ( s ^ { \prime } \mid s , v ) \cdot \sum _ { r \in \mathcal { L } } f ( r ) \mathbf { P } ( r \mid c ^ { \prime } , s , v )$ 进一步地，通过只考虑给定状态 $s$ 的 $k$ 个最相似状态 $s' \in \mathcal { M }_k$ ，并假设 $\mathbf { P } ( r | c', s, v ) \approx \mathbf { P } ( r | c', s', v )$ ，可以避免在推理时多次计算 $\mathbf { P } ( r | c', s, v )$ ，从而得到最终的近似形式： $F _ { \mathcal { M } } ( s , v ) \approx \sum _ { s ^ { \prime } \in \mathcal { M } _ { k } } \mathbf { P } ( s ^ { \prime } | s , v ) F ( s ^ { \prime } , v ) = \mathbb { E } _ { s ^ { \prime } \sim \mathbf { P } _ { \mathcal { M } } ^ { k } ( s ^ { \prime } | s , v ) } [ F ( s ^ { \prime } , v ) ]$ 其中：

$F_{\mathcal{M}}(s, v)$ 是经验近似的评分函数。
$\mathcal{M}_k$ 是从记忆 $\mathcal{M}$ 中检索到的 $k$ 个最相似的过往状态。
$\mathbf { P } ( s' | s, v )$ 是在给定当前状态 $s$ 和目标物品 $v$ 的情况下，检索到经验状态 $s'$ 的概率。
本文假设在策略 $\pi(a|s)$ 下的转移是确定性的，并且对于不在记忆 $\mathcal{M}$ 中的对话 (s', c', v)，其价值 $F(s', v) = 0$ 。这种形式避免了模拟，并通过利用类似过往交互快速近似目标驱动函数。

4.2.3. 树状 EPL (Tree-structured EPL, T-EPL)

为了将 EPL 框架具体化，并实现无需训练 (training-free) 且能适应新交互的特点，论文引入了 T-EPL。T-EPL 结合了 LLMs、一个密集检索模型 (dense retrieval model) 和 MCTS 算法。

T-EPL 的整体流程如 Algorithm 1 所示，并由图 2 进一步阐释。它遵循 MCTS 的四个阶段：选择 (Selection)、扩展 (Expansion)、估计 (Estimation) 和反向传播 (Backpropagation)。

以下是原文 Figure 2 的示意图，展示了 T-EPL 的工作流程：

该图像是一个示意图，展示了论文中基于大语言模型和蒙特卡洛树搜索的Tree-structured EPL框架，包含目标设定、对话历史、树搜索、对话状态检索、评估和估计等模块的交互流程。

图 2 展示了 T-EPL 的流程。它使用 MCTS 构建搜索树，并通过经验目标驱动评分函数来评估节点的潜在价值。检索阶段对应于公式 (3)，评估和估计阶段则分别由公式 (2) 和 (1) 数学描述。

Algorithm 1 Tree-structured EPL (T-EPL) 输入: 当前状态 $s_t$ ，UCT 参数 $c$ ，模拟次数 $n$ ，先验策略 $\pi_{prior}(. | . ; \theta)$ ，记忆 $\mathcal{M}$ ，检索经验数量 $k$ ，目标 $v$ 输出: 下一个动作 $a_{t+1}$

root $\gets s_t$
for $i \gets 1$ to $n$ do
```
  $s \gets \mathrm{root}$ 
```

 **while**  $s$  is not a leaf node **do** // 选择 (Selection) 阶段

      $s \gets \underset{s' \in Children(s)}{\operatorname{argmax}} \left[ V(s') + c \pi_{prior}(a_{s'} | s) \sqrt{\frac{2N(s)}{N(s')}} \right]$

```
 **end while**
```

  $\hat{\mathcal{A}}_{t+1} \sim \pi_{prior}(a | s ; \theta)$  // 根据先验策略采样潜在动作

 **for**  $\hat{a}_{t+1} \in \hat{\mathcal{A}}_{t+1}$  **do** // 扩展 (Expansion) 阶段

      $\hat{s}_{t+1} \gets T(s, \hat{a}_{t+1})$  // 根据动作生成新状态

    **if**  $\hat{s}_{t+1}$  not in tree **then**

        `children(s)`  $\gets children(s) \cup \hat{s}_{t+1}$

         $s \gets \hat{s}_{t+1}$

```
        **Break**
```
```
    **end if**
```
```
**end for**
```

 $\mathcal{M}_k \gets \mathrm{Retrieval}(\mathcal{M}, s, k)$  // 估计 (Estimation) 阶段：从记忆中检索  $k$  个相似经验

 $F_{\mathcal{M}}(s, v) \gets f_{score}(s, \mathcal{M}_k, v)$  // 计算经验目标驱动评分

 $V_s \gets V_s^{\mathcal{M}_k}$  // 使用经验评分更新状态价值

**while**  $s$  is not the root **do** // 反向传播 (Backpropagation) 阶段

     $p \gets \mathrm{parent}(s)$

     $V_p \gets \operatorname{max}(V_p, V_s)$  // 更新父节点价值

     $N(s) \gets N(s) + 1$  // 更新节点访问次数

     $s \gets \mathrm{Parent}(s)$

```
**end while**
```
end for
返回: 根状态 $s_t$ 中具有最高值 $R(s_t, \hat{a}_{t+1}, \hat{s}_{t+1}) + V_{\hat{s}_{t+1}}$ 的动作 $\hat{a}_{t+1}$ 。

4.2.3.1. MCTS 引导的树搜索 (MCTS-guided Tree Search)

T-EPL 利用 MCTS 过程构建搜索树，以促进分层和多步推理。与传统 MCTS 依赖昂贵模拟或无缝 LLM 评估不同，T-EPL 使用 $F_{\mathcal{M}}(s, v)$ 作为状态价值函数。这个价值函数从类似过往交互中估计，从而在增强规划能力的同时提高效率。

MCTS 阶段详解:

选择 (Selection): 从根节点 $s_t$ $s_{t}$ 开始，通过 UCT (Upper Confidence bounds applied to Tree) 算法选择节点进行树遍历，直到达到一个叶节点。 $s \gets \underset { s ^ { \prime } \in Children ( s ) } { \arg \operatorname* { m a x } } \left[ V ( s ^ { \prime } ) + c \pi _ { p } ( a _ { s ^ { \prime } } | s ) \sqrt { \frac { 2 \mathbf { N } ( s ) } { \mathbf { N } ( s ^ { \prime } ) } } \right]$ 其中：
- V(s'): 子节点 $s'$ 的估计价值。
- $c$ : UCT 参数，用于平衡探索 (exploration) 和利用 (exploitation)。
- $\pi_p(a_{s'} | s; \theta)$ : 一个骨干策略 (backbone policy)，提供在树搜索期间对动作的先验评估。本文使用 RTCP ( $\alpha=0$ ) 作为骨干策略。
- $\mathbf{N}(s)$ : 父状态 $s$ 的访问次数。
- $\mathbf{N}(s')$ : 子节点 $s'$ 的访问次数。
扩展 (Expansion): 达到叶节点 $s$ 后，使用骨干策略 $\pi_p(a | s; \theta)$ 采样一组潜在动作 $\hat{\mathcal{A}}_{t+1}$ 。选择一个动作 $\hat{a}_{t+1}$ ，并通过转移函数 $T$ 生成新状态 $\hat{s}_{t+1}$ 。如果新状态不在当前树中，则为其创建一个新节点并添加到树中。
估计 (Estimation): 对于新创建的节点 $\hat{s}_{t+1}$ 和预定义的目标物品 $v$ ，计算经验目标驱动评分函数 $F_{\mathcal{M}}(\hat{s}_{t+1}, v)$ 。这个计算通过检索记忆 $\mathcal{M}$ 中 $k$ 个最相似的过往交互来完成，并聚合它们的评估价值。
反向传播 (Backpropagation): 使用新状态的评估价值 $V_s$ 沿着从根节点到当前节点的路径，递归地更新所有节点的统计信息（访问次数和价值），确保父节点的价值是其子节点价值的最大值。在运行 MCTS 模拟 $n$ 次后，选择根节点 $s_t$ 中导致最高价值 $R(s_t, \hat{a}_{t+1}, \hat{s}_{t+1}) + V_{\hat{s}_{t+1}}$ 的动作 $\hat{a}_{t+1}$ 来生成响应。

4.2.3.2. 基于 LLM 的目标驱动评估 (LLM-based Target-driven Assessment)

为了实现 EPL 的无需训练 (training-free) 特性，论文利用 Llama 2 来评估对话 (s', c') 关于目标物品 $v'$ 的成功程度。此外，还引入了一个小项来惩罚过长的对话轨迹 (penalize lengthy trajectories)。评估分数 F(s', v') 的计算如下： $\frac { 1 } { T } \sum _ { i = 1 } ^ { T } \mathcal { V } _ { r } ( \mathbf { L L M } ( \mathcal { P } ( s ^ { \prime } , c ^ { \prime } , v ^ { \prime } ) ) ) + \lambda \cdot e ^ { \frac { - l _ { c ^ { \prime } } } { \alpha } }$ 其中：

$\lambda, \alpha$ 是超参数 (hyperparameters)。
$l_{c'}$ 是延续 $c'$ 的长度，以轮次 (number of turns) 衡量。
$\mathcal{V}_r(.)$ 将文本输出映射到标量值 $r \in \mathcal{R}$ 。
$\mathcal{P}(.)$ 将元组 (s', c', v') 映射为 LLM 的输入提示。
LLM 会被提示 $T$ 次，温度 $\rho=1.1$ 。本文使用 GPT-3.5-Turbo 作为 LLM 组件。

4.2.3.3. 对话状态的密集检索 (Dense Retrieval of Dialogue States)

为了建模概率分布 $\mathbf { P } _ { \mathcal { M } } ( s' | s, v )$ ，论文使用了一个检索模型 (retrieval model) $f_{rev}(s' | s; \theta_{rev})$ 。当前状态 $s$ 和记忆 $\mathcal{M}$ 中的经验状态 $s'$ 之间的相似性分数计算如下： $\mathbf { P } _ { \mathcal { M } } ( s ^ { \prime } | s ) = \frac { \exp \left( \phi ( s ^ { \prime } ) ^ { \mathrm { T } } \phi ( s , v ) \right) } { \sum _ { s ^ { \prime \prime } \in \mathcal { M } } \exp ( \phi ( s ^ { \prime \prime } ) ^ { \mathrm { T } } \phi ( s , v ) ) }$ 其中：

$\phi$ 是一个编码器函数 (encoder function)，将对话状态映射到其对应的高维表示 (high-dimensional representations)。
本文使用预训练编码器 all-MiniLM-L6-v2 (来自 Sentence Transformers 包) 来构建检索模型。

4.2.3.4. 记忆构建 (Memory Construction)

在实际应用中，推荐系统可能需要与用户无缝交互，并动态更新其数据库以供将来使用。因此，论文采用了一个场景：一个先验策略 (prior policy) $\pi_{prior}(a | s; \theta)$ 与模拟器多次交互，并用新对话更新记忆。对于每个生成的对话，使用上述公式 (2) 计算其评估分数。然后，将对话分解为对话状态和延续，并存储在记忆中。本文使用 Faiss 来实例化记忆 $\mathcal{M}$ 。

4.3. 数学公式与关键细节

4.3.1. 目标驱动评分函数 (Initial Formulation)

$\mathcal { F } ( s , v ) = \mathbb { E } _ { r \sim \mathbf { P } ( r \mid s , v ) } \left[ f ( r ) \right] = \sum _ { r \in \mathcal { L } } \mathbf { P } ( r \mid s , v ) f ( r ) \quad \quad (1)$

$s$ : 当前对话状态。
$v$ : 目标推荐物品。
$r$ : 对话结果，属于集合 $\mathcal{L} = \{ \text{success}, \text{fail} \}$ 。
$\mathbf{P}(r \mid s, v)$ : 在给定状态 $s$ 和目标 $v$ 的条件下，对话结果为 $r$ 的概率。
f(r): 将对话结果 $r$ 映射到其标量价值的函数。例如，成功可能映射为 1，失败映射为 0 或 -1。
$\mathbb{E}$ ：期望值。 目的： 计算给定状态 $s$ 和目标物品 $v$ 的对话潜在价值。

4.3.2. 引入对话延续的评分函数

$F ( s , v ) = \sum _ { r \in \mathcal { L } } f ( r ) \sum _ { c \sim \mathbf { P } ( c \mid s , v ) } \mathbf { P } ( r \mid c , s , v ) \mathbf { P } ( c \mid s , v ) \quad \quad (2)$

$c$ : 对话的延续 (dialogue continuation)，指从当前状态 $s$ 到对话结束的所有后续用户-系统交互。
$\mathbf{P}(c \mid s, v)$ : 在给定状态 $s$ 和目标 $v$ 的条件下，对话延续为 $c$ 的概率。
$\mathbf{P}(r \mid c, s, v)$ : 在给定对话延续 $c$ 、状态 $s$ 和目标 $v$ 的条件下，对话结果为 $r$ 的概率。 目的： 将对话的潜在价值分解为对所有可能延续的加权和，以更精确地建模。

4.3.3. 经验近似的评分函数 (Experiential Approximation)

$F _ { \mathcal { M } } ( s , v ) \approx \sum _ { s ^ { \prime } \in \mathcal { M } _ { k } } \mathbf { P } ( s ^ { \prime } | s , v ) F ( s ^ { \prime } , v ) = \mathbb { E } _ { s ^ { \prime } \sim \mathbf { P } _ { \mathcal { M } } ^ { k } ( s ^ { \prime } | s , v ) } [ F ( s ^ { \prime } , v ) ] \quad \quad (3)$

$F_{\mathcal{M}}(s, v)$ : 使用记忆 $\mathcal{M}$ 进行经验近似后的评分函数。
$\mathcal{M}_k$ : 从记忆 $\mathcal{M}$ 中检索到的与当前状态 $s$ 最相似的 $k$ 个过往状态的集合。
$\mathbf{P}(s' | s, v)$ : 在给定当前状态 $s$ 和目标物品 $v$ 的条件下，检索到记忆中的经验状态 $s'$ 的概率。
F(s', v): 经验状态 $s'$ 及其目标物品 $v$ 的真实评估价值（这部分由 LLM-based Target-driven Assessment 计算并存储）。 目的： 通过检索并聚合记忆中类似过往状态的价值，来高效近似当前状态的潜在价值，避免昂贵的在线模拟。

4.3.4. LLM-based Target-driven Assessment (用于计算 `F(s', v')`)

$\frac { 1 } { T } \sum _ { i = 1 } ^ { T } \mathcal { V } _ { r } ( \mathbf { L L M } ( \mathcal { P } ( s ^ { \prime } , c ^ { \prime } , v ^ { \prime } ) ) ) + \lambda \cdot e ^ { \frac { - l _ { c ^ { \prime } } } { \alpha } } \quad \quad (2 \text{ in text, but refers to } F(s',v')\text{ computation})$

$T$ : LLM 评估的重复次数。
$\mathcal{V}_r(.)$ : 将 LLM 的文本输出（如“accept”或“reject”）映射到标量奖励值（如 1 或 -1）的函数。
$\mathbf{LLM}(.)$ : 大语言模型 (GPT-3.5-Turbo)，根据输入提示进行评估。
$\mathcal{P}(s', c', v')$ : 将经验状态 $s'$ 、其延续 $c'$ 和目标物品 $v'$ 格式化为 LLM 输入提示的函数。
$\lambda, \alpha$ : 超参数，用于控制长度惩罚项。
$l_{c'}$ : 对话延续 $c'$ 的长度（轮次）。
$e^{-l_{c'}/\alpha}$ : 长度惩罚项，对话越长，该项越小，旨在鼓励生成短的有效对话。 目的： 使用 LLM 评估过往对话的成功程度，并结合长度惩罚，得到一个量化的评估分数 F(s', v')，用于构建记忆。

4.3.5. 对话状态的密集检索 (Probabilistic Formulation)

$\mathbf { P } _ { \mathcal { M } } ( s ^ { \prime } | s ) = \frac { \exp \left( \phi ( s ^ { \prime } ) ^ { \mathrm { T } } \phi ( s , v ) \right) } { \sum _ { s ^ { \prime \prime } \in \mathcal { M } } \exp ( \phi ( s ^ { \prime \prime } ) ^ { \mathrm { T } } \phi ( s , v ) ) } \quad \quad (4 \text{ in text, but refers to } \mathbf{P}_{\mathcal{M}}(s'|s)\text{ computation})$

$\mathbf{P}_{\mathcal{M}}(s' | s)$ : 在给定当前状态 $s$ 和记忆 $\mathcal{M}$ 的条件下，检索到经验状态 $s'$ 的概率。
$\phi(.)$ : 编码器函数 (encoder function)，将对话状态（或状态与目标物品的组合）映射到高维向量表示。
$\phi(s')^{\mathrm{T}} \phi(s, v)$ : 经验状态 $s'$ 的向量表示与当前状态 $s$ 和目标物品 $v$ 的组合向量表示之间的点积，衡量它们之间的相似性。
$\sum_{s'' \in \mathcal{M}} \exp(\phi(s'')^{\mathrm{T}} \phi(s, v))$ : 归一化项，对记忆中所有状态的相似性进行指数和。 目的： 使用密集检索模型，根据向量相似性计算记忆中每个经验状态被检索到的概率。

4.3.6. UCT (Upper Confidence bounds applied to Tree) Selection Formula

$s \gets \underset { s ^ { \prime } \in Children ( s ) } { \arg \operatorname* { m a x } } \left[ V ( s ^ { \prime } ) + c \pi _ { p } ( a _ { s ^ { \prime } } | s ) \sqrt { \frac { 2 \mathbf { N } ( s ) } { \mathbf { N } ( s ^ { \prime } ) } } \right]$

$s'$ : 当前节点 $s$ 的子节点。
V(s'): 子节点 $s'$ 的当前估计价值。
$c$ : 探索参数 (exploration parameter)，用于调整探索和利用的平衡。
$\pi_p(a_{s'} | s)$ : 骨干策略 (backbone policy) 在父节点 $s$ 选择导致子节点 $s'$ 的动作 $a_{s'}$ 的先验概率或评估。
$\mathbf{N}(s)$ : 父节点 $s$ 的访问次数。
$\mathbf{N}(s')$ : 子节点 $s'$ 的访问次数。 目的： 在 MCTS 的选择阶段，根据节点的当前价值、探索程度和先验策略，选择下一个要访问的子节点，以最大化长期奖励。

5. 实验设置

5.1. 数据集

实验使用了两个已发布的数据集：

DuRecDial 2.0 (Liu et al., 2021): 一个多领域 (multi-domain) 的数据集，包含跨电影 (Movie)、音乐 (Music)、食物 (Food) 和景点 (POI, Point-of-Interest) 四个领域的对话。
INSPIRED (Hayati et al., 2020): 专注于电影推荐场景的数据集。

以下是原文 Table 1 的结果，展示了数据集的详细统计信息：

DuRecDial 2.0 INSPIRED

# convs 16.5K 1001

# utterances 255K 35,811

# goals 13 14

# topics 646 1169

# target items 471/285/376 368/42/55

domains Movie/Music/Food/POI Movie
# convs: 对话数量。
# utterances: 话语数量。
# goals: 对话目标数量。
# topics: 对话主题数量。
# target items: 训练/验证/测试集中目标物品的数量。
domains: 数据集涵盖的领域。

数据特点： DuRecDial 2.0 领域多样，但数据分布可能不均（如附录 A.3 提及，音乐和电影领域数据量较大，POI 和食物较少）；INSPIRED 专注于电影领域，且对话轮次可能更长。 目标物品定义： 按照现有工作的做法，将用户在每段对话结束时接受的物品视为目标物品。

	DuRecDial 2.0	INSPIRED
`# convs`	16.5K	1001
`# utterances`	255K	35,811
`# goals`	13	14
`# topics`	646	1169
`# target items`	471/285/376	368/42/55
`domains`	Movie/Music/Food/POI	Movie

以下是原文 Table 5 的结果，展示了 DuRecDial 2.0 和 INSPIRED 数据集中不同领域目标物品的详细统计信息：

Domain	DuRecDial 2.0	INSPIRED
Movie	190/121/161	368/42/55
Music	139/109/120
Food	48/13/30
Point-of-interest (POI)	96/42/65

数字表示训练集/验证集/测试集中目标物品的数量。
DuRecDial 2.0 在数据预处理后识别出电影、音乐、食物和 POI 四个领域，其中音乐和电影领域的数据偏多。这暗示着 POI 和食物领域可能更难学习有效的对话策略。

INSPIRED 数据集仅包含电影推荐场景。

以下是原文 Table 6 的结果，展示了 DuRecDial 2.0 和 INSPIRED 数据集中对话策略的详细统计信息：

Strategy	Amount	Strategy	Amount
DuRecDial 2.0		INSPIRED
Greetings	4,948	Opinion inquiry	1,258
Ask about weather	4,393	Self modeling	235
Play music	10,034	Personal opinion	1,388
Q/A	6,072	Credibility	1,563
Music on demand	1,692	Encouragement	1,146
Movie recommendation	14,882	Similarity	539
Chat about stars	16,276	Rephrase preference	103
Say goodbye	12,819	Preference confirmation	436
Music recommendation	13,170	Acknowledgment	814
Ask about date	2,401	Personal experience	304
Ask questions	2,100	Experience inquiry	880
POI recommendation	5,451	Offer help	449
Food recommendation	4,465	Transparency	120
		No strategy	1,423

DuRecDial 2.0 有 13 种不同的对话策略，INSPIRED 有 14 种。
DuRecDial 2.0 中，音乐和电影领域相关的对话策略数量更多。

5.2. 评估指标

论文采用了自动评估 (automatic evaluation) 和人工评估 (human evaluation) 两种方式来衡量模型性能。

5.2.1. 自动评估指标

客观成功率 (Objective Success Rate, ObjSR)
- 概念定义： ObjSR 衡量生成的响应是否包含目标物品。这是一个比较直接和量化的指标，反映了系统在对话中是否“提到了”目标物品。
- 数学公式： 论文没有给出显式公式，但其定义为“是否在生成响应中包含目标物品”。可以理解为： $\text{ObjSR} = \frac{\text{对话中提到目标物品的成功对话数量}}{\text{总对话数量}}$
- 符号解释：
  - 对话中提到目标物品的成功对话数量：在某个对话中，系统生成的响应里包含预设目标物品的对话数量。
  - 总对话数量：所有进行评估的对话总数。
主观成功率 (Subjective Success Rate, SubjSR)
- 概念定义： SubjSR 通过 LLM 评估生成对话的质量，判断 LLM 基于评估分数是否认为该对话是成功的。它旨在反映用户对推荐的接受度和满意度，相比 ObjSR 更接近真实用户体验。
- 数学公式： 论文中定义为“如果 LLM 对生成的对话的评估分数超过预定义的阈值 $\epsilon$ ”。 $\text{SubjSR} = \frac{\text{LLM 评估分数 } F(s', v') > \epsilon \text{ 的成功对话数量}}{\text{总对话数量}}$
- 符号解释：
  - LLM 评估分数：通过基于 LLM 的目标驱动评估函数 F(s', v') 获得的分数。
  - $\epsilon$ : 预定义的评估分数阈值（实验中设置为 $\epsilon = 1$ ）。
  - $LLM \text{评估分数}$ F(s', v') > \epsilon $\text{的成功对话数量}$ ：LLM 评估为成功的对话数量。
  - 总对话数量：所有进行评估的对话总数。
平均轮次 (Average Number of Turns, Avg. T)
- 概念定义： Avg. T 衡量推荐目标物品所需的平均对话轮次。较低的 Avg. T 通常意味着更高的效率。
- 数学公式： $\text{Avg. T} = \frac{\sum_{i=1}^{N_{\text{convs}}} \text{对话 } i \text{ 的轮次}}{\text{总对话数量 } N_{\text{convs}}}$
- 符号解释：
  - $N_{\text{convs}}$ : 总对话数量。
  - 对话 $i$ 的轮次：第 $i$ 个对话从开始到推荐目标物品所需的轮次。
近似 API 调用次数 (Approx. Number of API Calls, #APIC)
- 概念定义： #APIC 衡量模型在推理时消耗的 API 调用次数，用于比较计算效率（以 Big-O 符号表示）。
- 数学公式： 论文以 Big-O 复杂度表示，例如 $O(TH)$ ，具体的数学公式取决于算法的复杂性，在论文的附录 A.8 中有详细推导。
- 符号解释：
  - $T$ : 目标物品的数量。
  - $H$ : 对话最大轮次（对话的 horizon）。
  - $K$ : MCTS 算法中模拟步数或检索经验数量。

5.2.2. 人工评估指标

随机抽取由每个模型生成的 20 段对话，由两名标注员进行评估。

满意度 (Satisfaction)
- 概念定义： 衡量在给定目标物品的情况下，哪段对话提供了更具说服力的理由来接受目标物品。
- 评估方式： 标注员对 T-EPL 与基线模型进行成对比较，判断 T-EPL 在满意度方面是“赢”、“输”还是“平局”。
连贯性 (Coherency)
- 概念定义： 衡量在给定目标物品的情况下，哪段对话提供了更合理的（主题）过渡，以引导至目标物品。
- 评估方式： 标注员对 T-EPL 与基线模型进行成对比较，判断 T-EPL 在连贯性方面是“赢”、“输”还是“平局”。 标注员间一致性： 使用 Fleiss' Kappa (McHugh, 2012) 衡量标注员之间的一致性。

5.3. 对比基线

论文将 T-EPL 与以下几种对话策略方法进行了比较：

BERT (Devlin et al., 2019): 基于 Transformer Encoder 的预训练语言模型，用于预测下一对话策略。属于预测性策略 (Predictive Policies)。
TCP (Wang et al., 2022): 早期目标驱动推荐系统，利用文本生成模型从目标动作到当前轮次生成动作序列。属于生成性策略 (Generative Policies)。
UNIMIND (Deng et al., 2023b): 目标感知 (goal-aware) 会话推荐系统，采用多任务学习范式 (multi-task learning paradigm) 和基于提示的学习 (prompt-based learning) 来统一多目标 CRS 设置的子任务。属于生成性策略。
COLOR (Wang et al., 2023b): 最新目标驱动对话系统，通过布朗运动桥随机过程 (Brownian-motion bridge stochastic process) 学习对话中的潜在传统。属于生成性策略。
RTCP (Dao et al., 2023): 最先进 (state-of-the-art) 目标驱动推荐模型，通过短时和长时规划模块指导对话，并通过策略平衡机制平衡两者。属于预测性策略。
MCTS: 香草版 (vanilla) 蒙特卡洛树搜索，带有模拟 (rollouts)。
GDP-Zero (Yu et al., 2023): 利用开放式 MCTS 进行前瞻性规划 (look-ahead planning)，其状态值由提示 LLM 产生。
PPDPP (Deng et al., 2023a): 利用背景数据集微调小型 LM 作为先验对话策略，并通过 RL 进一步微调以最大化长期奖励。

公平比较： 对于基于 MCTS 的方法（如 MCTS、GDP-Zero 和 T-EPL），均使用 RTCP 作为其先验策略 (prior policies)。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 自动评估结果

以下是原文 Table 2 的结果，展示了主要实验结果：

Model	#APIC	DuRecDial 2.0				INSPIRED
Model	#APIC	Obj_SR	Subj_SR	Avg. T(↓)	Obj_SR	Subj_SR	Avg. T (↓)
BERT* (Devlin et al., 2019)	O(TH)	0.851	0.773	6.045	0.090	0.062	13.647
UNIMIND* (Deng et al., 2023b)	O(TH)	0.720	0.668	6.873	0.163	0.109	13.321
TCP* (Wang et al., 2022)	O(TH)	0.742	0.679	7.091	0.201	0.168	13.178
COLOR* (Wang et al., 2023b)	O(TH)	0.805	0.749	7.067	0.206	0.172	13.283
RTCP* (Dao et al., 2023)	O(TH)	0.877	0.786	5.993	0.136	0.099	13.479
T-EPL * (ours)	O(TKH)	0.904	0.813	5.255	0.218	0.172	13.158
MCTS+	O(TKH²)	0.867	0.784	5.550	0.137	0.112	13.537
GDP-Zero (Yu et al., 2023)	O(TKH²)	0.850	0.825	4.475	0.250	0.217	13.216
PPDPP‡ (Deng et al., 2023a)	O(TH)	0.667	0.650	7.283	0.150	0.100	13.416
T-EPL+ (ours)	O(TKH)	0.900	0.833	5.034	0.225	0.225	13.000

ObjSR: 客观成功率。
SubjSR: 主观成功率。
Avg. T(↓): 平均轮次（越低越好）。
#APIC: 近似 API 调用次数（越低越好）。
*: 表示在整个测试集上报告的性能。
+: 表示为了计算成本，在数据集子样本上报告的性能。
‡: 表示 PPDPP 也因计算成本限制而对数据集子样本进行评估。

6.1.1.1. 客观与主观指标的差异

所有方法在 ObjSR 和 SubjSR 之间都存在一致且显著的差异。
这表明用户可能拒绝推荐的目标物品，因此仅依赖 ObjSR 可能会高估目标驱动推荐系统在实际应用中的有效性。这验证了论文引入 SubjSR 的必要性。

6.1.1.2. 生成性与预测性策略

预测性策略 (BERT、RTCP) 在 DuRecDial 2.0 上表现更优。
生成性策略 (TCP 和 COLOR) 在 INSPIRED 上更有效。
解释： INSPIRED 相比 DuRecDial 2.0 具有更大的动作空间 (action space)。预测性策略在处理大动作空间时常表现不佳，而生成性策略受此限制较小。

6.1.1.3. 与基线方法的性能比较

T-EPL (ours) 在各种数据集和评估指标上持续优于所有现有目标驱动对话策略 (用 * 标记)。例如，在 DuRecDial 2.0 上，T-EPL* 在 ObjSR (0.904) 和 SubjSR (0.813) 上均领先，且 Avg. T (5.255) 更低。在 INSPIRED 上，T-EPL* 在 ObjSR (0.218) 和 SubjSR (0.172) 上也表现出色。
优势归因： 这种优越性归因于 T-EPL 能够有效利用记忆中存储的类似过往交互，从而增强了对话规划能力。
PPDPP 表现不佳： PPDPP 性能相对较低，可能因为它在有限交互次数上微调预训练策略，限制了对推理时遇到新情况的泛化能力。
MCTS 限制： MCTS 由于计算限制，只能使用有限的模拟次数，阻碍了其学习有效策略的能力。
T-EPL 优于 GDP-Zero： T-EPL 甚至优于强大的 GDP-Zero 基线，这表明 T-EPL 的经验目标驱动评分函数相比 GDP-Zero 基于 LLM 的估计提供了更准确的对话状态评估。

6.1.1.4. 效率比较

离线策略 (*)： 需要最少的 API 调用来运行用户模拟器。其复杂度为 $O(TH)$ 。
MCTS 基线： 由于昂贵的模拟 (rollouts)，其计算成本与对话长度呈二次方关系 $O(T K H^2)$ 。
GDP-Zero： 同样需要高额的 API 调用来进行基于 LLM 的状态值估计，复杂度也为 $O(T K H^2)$ 。
T-EPL (ours)： 引入了额外的 API 调用来模拟过往交互，但这可以在推理前高效预计算。在推理时，T-EPL 的 API 调用次数与对话长度呈线性关系 $O(T K H)$ ，与离线策略模型相当。这表明 T-EPL 在效率上显著优于其他基于 MCTS 的在线方法。

6.1.2. 人工评估结果

以下是原文 Table 4 的结果，展示了在 DuRecDial 2.0 数据集上的人工评估结果：

T-EPL vs	Stat.		Coh.
T-EPL vs	Win.(%)	Lose.(%)	Win.(%)	Lose.(%)
RTCP	38 %	32 %	27 %	24 %
COLOR	45 %	34 %	21 %	18 %
PPDPP	27 %	19 %	34 %	23 %
GDP-Zero	32 %	29 %	26 %	22 %

Stat.: 满意度 (Satisfaction)。
Coh.: 连贯性 (Coherency)。
Win.(%): T-EPL 胜出的百分比。
Lose.(%): T-EPL 输出的百分比。
标注员间一致性得分为 0.69 (Fleiss' Kappa)。
T-EPL 的整体优势： T-EPL 在与 RTCP、COLOR、PPDPP 和 GDP-Zero 的比较中，在满意度和连贯性方面均取得了更好的表现。
超越骨干策略 RTCP： 即使与其骨干策略 RTCP 相比，T-EPL 也在满意度和连贯性方面有所改进。原因在于 RTCP 缺乏预见交互的能力，限制了其规划能力，而 T-EPL 通过利用记忆中的经验交互增强了预测能力。

6.1.3. 对话轮次与性能比较

以下是原文 Figure 3 的示意图，展示了目标项频率（左）和不同模型在不同对话轮次下的相对成功率（右）。

$Figure 3: Frequency of target items (left) and relative success rate (right) w.r.t conversation turns of different models. Green lines show the baseline BERT\\*. More results can be found in Appendix…$
该图像是论文中图3，展示了不同模型在不同对话轮次的目标项频率及相对成功率。左侧柱状图表示目标项频率，右侧折线图显示相对成功率。颜色区分基线(Base)与对比模型TCP、RTCP和T-EPL。

目标项频率 (左图)： RTCP 和 T-EPL 倾向于比 TCP 更早地引入推荐。
相对成功率 (右图)： T-EPL 在几乎所有对话轮次中都保持或超越了 RTCP 和 TCP，尤其是在早期轮次。
对话策略的推测： 论文推测存在两种常见的推荐策略：
1. 早期推荐策略： 优先在早期轮次推荐，然后在后续轮次进行解释和说服。
2. 晚期推荐策略： 早期专注于引入与目标物品相关的主题，实际推荐发生在对话后期。
尽管 T-EPL 和 RTCP 采用了相似的对话策略，T-EPL 仍能实现更好的性能提升，这表明其经验学习的有效性。

以下是原文 Figure 6 的示意图，展示了 T-EPL 与 TCP, UNIMIND, COLOR, RTCP 在不同对话轮次下的相对成功率。

该图像是图表，展示了在DuRecDial和INSPIRED两个数据集上，不同方法随对话轮次变化的相对成功率。图中T-EPL方法表现最佳，体现其利用经验学习提升目标驱动推荐对话管理的优势。
T-EPL 在 DuRecDial 2.0 和 INSPIRED 数据集上始终优于所有基线方法。
在早期对话轮次中，性能差距更为显著，表明 T-EPL 在管理早期推荐方面具有卓越能力。
在对话轮次更长的 INSPIRED 数据集上，T-EPL 在后期轮次仍保持优势，暗示其具有鲁棒的长程规划能力 (long-range planning capability)。

以下是原文 Figure 7 的示意图，展示了 T-EPL 与 MCTS, GDP-Zero, PPDPP 在不同对话轮次下的相对成功率。

该图像是两幅折线图，展示了在DuRecDial和INSPIRED数据集上不同方法随对话轮次变化的相对成功率，比较了T-EPL、PPDPP、GDP_Zero和MCTS(Base)四种策略的表现。
T-EPL 在不同对话阶段持续优于香草版 MCTS。
与 GDP-Zero 相比，T-EPL 取得了有竞争力的结果，特别是在后期对话轮次。尽管 GDP-Zero 在初始轮次表现可能更好，但这可能归因于其仅侧重早期推荐的倾向 (tendency to solely focus on early recommendations)。这种行为在某些情况下可能并不理想，因为早期频繁推荐可能会损害用户体验。
此外，GDP-Zero 性能虽有竞争力，但计算成本显著更高。

6.1.4. 不同推荐领域与性能比较

以下是原文 Table 8 的结果，展示了在 DuRecDial 2.0 数据集上不同推荐领域的性能比较：

Model	Movie		Music		POI		Food
Model	Subj_SR	Avg. T(↓)	Subj_SR	Avg. T(↓)	Subj_SR	Avg. T(↓)	Subj_SR	Avg. T(↓)
BERT*	0.869	6.782	0.833	4.333	0.723	6.938	0.533	6.600
UNIMIND*	0.788	6.503	0.858	4.825	0.261	7.769	0.500	7.566
TCP*	0.832	6.881	0.791	5.975	0.569	7.000	0.200	8.600
COLOR*	0.782	7.391	0.800	6.700	0.584	8.153	0.533	5.553
RTCP*	0.925	6.204	0.875	4.375	0.738	7.107	0.333	7.773
T-EPL * (ours)	0.851	5.708	0.891	3.891	0.831	4.892	0.667	5.133

*: 表示在整个测试集上报告的性能 (t-test, $p < 0.05$ )。
POI 和 Food 领域的挑战性： POI 和 Food 领域的报告结果始终低于 Movie 和 Music 领域，表明在这些领域实现成功推荐更具挑战性。这可能是由于这两个领域的训练数据量有限。
T-EPL 的跨领域优势： T-EPL 在四个领域中的三个都显著优于所有基线方法。这展示了 T-EPL 的泛化能力 (generalizability)，表明它能够增强目标驱动对话规划，而不受领域限制。

6.2. 消融实验/参数分析

6.2.1. 消融研究

以下是原文 Table 3 的结果，展示了 T-EPL 算法在目标实现方面的消融研究：

Model	DuRecDial 2.0		INSPIRED
Model	Subj_SR	Avg. T(↓)	Subj_SR	Avg. T (↓)
T-EPL	0.813	5.255	0.172	13.158
- w/o Len	0.837	5.312	0.145	13.161
- w/o Exp	0.801	5.435	0.136	13.372

T-EPL: 完整模型。
- w/o Len: 移除长度惩罚项（即 $\lambda=0$ ）。
- w/o Exp: 移除经验目标驱动评分函数（即 $F_{\mathcal{M}}(s, v) = 0$ ）。
组件有效性： 移除任何组件都会导致算法性能下降，这证明了论文贡献的有效性。
长度惩罚项 (w/o Len)：
- 在 DuRecDial 2.0 上，移除长度惩罚项使得 SubjSR 略有提高 (0.813 -> 0.837)，但 Avg. T 略有增加 (5.255 -> 5.312)。这表明 SubjSR 和 Avg. T 之间存在权衡。
- 在 INSPIRED 数据集上，移除此组件则对 SubjSR (0.172 -> 0.145) 和 Avg. T (13.158 -> 13.161) 均产生负面影响。这可能是因为 INSPIRED 包含长对话，准确估计状态值更具挑战性，且随着对话展开，累积误差更大。通过惩罚长轨迹，T-EPL 会优先选择较短的经验交互，即使其潜在价值较低。
经验目标驱动函数 (w/o Exp)： 移除该函数在两个数据集上都导致了显著的性能下降。这强调了经验在改善目标驱动规划能力方面的重要性。

6.2.2. 参数分析：模拟步数 $n$ 的影响

以下是原文 Figure 4 的示意图，展示了 T-EPL 在不同模拟步数 $n$ 和检索示例数 $k$ 下的性能。

Figure 4: Performance of T-EPL with different values of simulation steps `( n )` and # retrieved examples `( k )` .
该图像是图表，展示了图4中T-EPL方法在不同模拟步数 $n$ 和检索示例数 $k$ 下的性能表现，包括成功率(SR)、平均回合数(Avg.turn)、运行时间与方差等指标。

Figure 4.a (左上图): 展示了不同模拟步数 $n$ (1, 3, 5, 7) 对 T-EPL 性能的影响（固定检索交互数 $k=20$ ）。
性能趋势： T-EPL 的性能通常随着模拟步数 $n$ 的增加而提高。这是因为更大的 $n$ 允许算法构建更全面的搜索树。
性能与计算成本的权衡： 然而，更大的模拟步数必然带来更高的计算成本（如 API 调用次数和总运行时间，参见 Figure 4.c）。因此，选择合适的 $n$ 值需要在性能和计算资源之间进行权衡。

6.2.3. 参数分析：检索交互数 $k$ 的影响

Figure 4.b (右上图): 展示了不同检索交互数 $k$ (1, 20, 40, 60) 对 T-EPL 性能的影响（固定模拟步数 $n=5$ ）。
性能趋势： 性能呈现先增加后下降的趋势。
解释： 较大的 $k$ 值允许模型考虑更多交互，从而更好地优化策略决策。然而，过大的 $k$ 值也会引入噪声交互 (noisy interactions)，并导致价值估计饱和 (value estimation saturation)（如 Figure 4.d 所示）。饱和现象发生时，每个状态都使用越来越相似的交互集进行评估，从而阻碍了模型性能的进一步提升。

6.3. 详细分析：API 调用复杂度和计算时间

以下是原文 Table 7 的结果，展示了不同对话策略方法在单个目标物品上的推理时间：

Model	Inference Time (s)
Model	DuRecDial 2.0	INSPIRED
BERT (Devlin et al., 2019)	6.01	6.62
UNIMIND (Deng et al., 2023b)	7.54	9.21
TCP (Wang et al., 2022)	13.60	34.34
COLOR (Wang et al., 2023b)	10.81	26.07
RTCP (Dao et al., 2023)	7.53	8.69
MCTS	105.29	232.04
GDP-Zero (Yu et al., 2023)	90.62	148.70
PPDPP (Deng et al., 2023a)	7.59	9.49
T-EPL (ours)	50.71	84.43

API 调用复杂度：
- 离线策略 (BERT, UNIMIND, COLOR, RTCP, PPDPP)： $O(TH)$ 。
- MCTS (香草版)： $O(T K H^2)$ 。
- GDP-Zero： $O(T K H^2)$ （因为每次模拟步骤都需要调用 LLM 来估算状态值）。
- T-EPL： $O(T K H)$ 。
推理时间：
- 表格中观察到的推理时间与推导出的 API 调用复杂度一致。
- MCTS 和 GDP-Zero 具有最高的推理时间，因为它们的复杂度与对话轮次 $H$ 呈平方关系。
- T-EPL 的推理时间显著低于其他基于 MCTS 的方法 (MCTS 和 GDP-Zero)，例如在 DuRecDial 2.0 上 T-EPL (50.71s) 远低于 MCTS (105.29s) 和 GDP-Zero (90.62s)。这验证了 T-EPL 在效率上的优势，因为它通过经验学习避免了昂贵的模拟步骤和 LLM 评估。

6.4. 详细分析：不同对话策略随对话轮次的变化

以下是原文 Figure 8 的示意图，展示了 TCP、RTCP 和 T-EPL 在不同对话轮次中预测的对话策略的频率。

该图像是多组柱状图，展示了不同对话策略（TCP、RTCP和T-EPL）在不同会话轮次（3-4、5-6、7-8、9-10）中的使用频率，反映了论文中提出的T-EPL方法在多轮推荐对话中策略选择的表现差异。

早期阶段 (1-4 轮)： 模型优先与用户建立联系，而非立即推荐。
中期阶段 (5-6 轮)： 对话策略发生变化，模型开始为特定领域（如音乐、食物、电影）提供推荐。其中 RTCP 和 T-EPL 在此期间的推荐频率更高。
领域差异： 推荐策略可能因领域而异。例如，音乐和食物推荐倾向于在早期轮次 (3-4 轮，5-6 轮) 进行，而电影和 POI 推荐则更倾向于在后期轮次 (7-8 轮，9-10 轮) 进行。
这表明最大化用户利益的最佳对话策略可能因领域而异。

7. 总结与思考

7.1. 结论总结

本文提出了经验策略学习 (Experiential Policy Learning, EPL) 框架，旨在解决目标驱动推荐对话中预测能力不足、计算效率低下以及忽视过往经验的问题。EPL 借鉴“从经验中学习”的原则，通过一个经验评分函数 (experiential scoring function)，利用存储在长期记忆中的类似过往交互来估计对话状态的潜力。为了具体实现 EPL，论文引入了树状 EPL (Tree-structured EPL, T-EPL)，它是一个无需训练的框架，结合了大语言模型 (LLMs) 进行状态评估和蒙特卡洛树搜索 (MCTS) 进行分层和多层次推理。

在 DuRecDial 2.0 和 INSPIRED 两个公开数据集上的广泛实验表明：

性能优越性： T-EPL 在客观和主观成功率以及平均轮次方面均显著优于现有最先进的基线方法。
计算效率： T-EPL 的 API 调用复杂度为 $O(T K H)$ ，显著低于其他基于 MCTS 的方法 $O(T K H^2)$ ，证实了其在效率上的优势。
组件有效性： 消融实验验证了长度惩罚项和经验目标驱动评分函数对模型性能的重要性。
适应性和泛化性： T-EPL 能够根据不同对话轮次和推荐领域调整策略，展现出良好的适应性和泛化能力。

7.2. 局限性与未来工作

论文指出了 T-EPL 算法的几个潜在局限性：

记忆可用性 (Memory Availability): T-EPL 依赖于一个记忆组件。在实际应用中，这个记忆可能并非随时可用，可能需要额外的努力来在部署算法前进行构建。
交互式 LLM 评估的计算成本 (Computational Cost of Interactive LLM Evaluation): 本文使用 LLM 进行交互式评估，虽然这能更好地反映实际场景，但在线评估 LLM 会产生显著的计算成本。尽管 T-EPL 在推理时避免了直接的 LLM 调用，但在记忆构建阶段依然需要 LLM 进行评估。
对检索模型的依赖 (Dependence on Retrieval Models): T-EPL 的性能受到其依赖的预训练检索模型 (all-MiniLM-L6-v2) 的限制。检索到的交互质量及其对应的状态价值会严重影响 T-EPL 的性能。

7.3. 个人启发与批判

7.3.1. 个人启发

“从经验中学习”的普遍性：这篇论文成功地将人类决策中“从经验中学习”的直觉应用到对话系统中。这种范式不仅适用于推荐对话，也可能推广到其他需要长期规划和适应性决策的 AI 任务，例如复杂的规划、问题解决等。
LLM 与传统算法的结合： T-EPL 成功地结合了 LLM 的强大语义理解和评估能力与 MCTS 的结构化搜索和规划能力。这表明在 LLM 时代，并非所有任务都必须由端到端的 LLM 完成，将 LLM 作为特定模块（如评估函数）嵌入到更传统的规划框架中，可以实现性能和效率的更优平衡。
解决 LLM 效率问题的新思路： T-EPL 通过“记忆化”和“经验近似”的方式，有效降低了 LLM 在推理时的频繁调用成本，为 LLM 在实际应用中的部署提供了有价值的参考。未来可以在其他 LLM 应用中探索类似“经验记忆”或“知识蒸馏”的机制，以提高效率。
动态适应性： 能够在线更新记忆并适应新交互的特性，使得 T-EPL 比静态预训练模型更具鲁棒性和实用性，这在快速变化的用户偏好和推荐环境中尤为重要。

7.3.2. 批判与潜在改进

记忆构建的成本和质量： 虽然 T-EPL 在推理时降低了 LLM 的调用成本，但记忆的初始构建仍然需要大量 LLM 评估。如果记忆庞大且需要频繁更新，其总成本仍可能很高。此外，记忆中的经验质量直接影响模型性能，如何确保高质量、多样化的经验存储是一个挑战。
- 改进方向： 可以探索更高效的记忆更新机制，例如，只存储高价值或具有代表性的经验；或者使用更轻量级的模型进行初步筛选，再用 LLM 精细评估少量经验。
检索模型的瓶颈： T-EPL 的性能高度依赖于检索模型的效果。如果检索模型无法找到真正“相似”的过往交互，或者引入过多噪声，那么经验近似的准确性就会下降。预训练的 all-MiniLM-L6-v2 可能并非所有对话场景的最佳选择。
- 改进方向： 可以尝试对检索模型进行领域适应性微调，或者结合更复杂的语义匹配技术（例如，考虑对话意图、用户情感等）。
超参数敏感性： T-EPL 引入了 MCTS 参数 n, c 和经验近似参数 $k, \lambda, \alpha$ $k, λ, α$ 。这些超参数的调优可能非常复杂且耗时，尤其是在多领域和长对话场景下。
- 改进方向： 发展自适应的超参数调整策略，或者利用元学习 (meta-learning) 机制来自动学习最佳参数。
LLM 评估的局限性： 尽管 LLM 在评估对话质量方面表现出色，但其评估仍然是模拟的，可能无法完全捕捉真实用户的细微情感和满意度。
“过长轨迹惩罚”的普适性：论文提到 DuRecDial 2.0 和 INSPIRED 数据集上“长度惩罚”项的效果不尽相同。这表明最佳的对话长度和策略是任务和领域相关的。强制性的长度惩罚可能在某些情况下抑制有用的长程规划。
- 改进方向： 可以考虑更智能的长度管理，例如，根据对话复杂度、用户反馈动态调整长度惩罚强度，或者区分不同类型对话的合理长度范围。
可解释性： 虽然 MCTS 提供了一定的可解释性（通过搜索树），但经验评分函数和密集检索过程的内部工作机制对于人类来说仍是黑盒。如何解释模型为何认为某个经验“相似”以及其“潜在价值”是如何聚合的，可能是一个挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。