论文状态：已完成

STYLE: Improving Domain Transferability of Asking Clarification Questions in Large Language Model Powered Conversational Agents

发表：2024/05/20

大语言模型对话代理 (1)领域适应性 (1)澄清问题策略 (1)多领域搜索引擎 (1)上下文理解能力 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为STYLE的新方法，旨在提升大语言模型驱动会话代理在未见领域中提问澄清问题的领域可迁移性。研究发现，现有的“全民皆可适用”策略限制了搜索效率。实验结果表明，STYLE在四个未见领域的平均搜索性能提升约10%。

摘要

Equipping a conversational search engine with strategies regarding when to ask clarification questions is becoming increasingly important across various domains. Attributing to the context understanding capability of LLMs and their access to domain-specific sources of knowledge, LLM-based clarification strategies feature rapid transfer to various domains in a post-hoc manner. However, they still struggle to deliver promising performance on unseen domains, struggling to achieve effective domain transferability. We take the first step to investigate this issue and existing methods tend to produce one-size-fits-all strategies across diverse domains, limiting their search effectiveness. In response, we introduce a novel method, called Style, to achieve effective domain transferability. Our experimental results indicate that Style bears strong domain transferability, resulting in an average search performance improvement of ~10% on four unseen domains.

思维导图

论文精读

中文精读约 34 分钟读完 · 21,430 字

1. 论文基本信息

1.1. 标题

STYLE: Improving Domain Transferability of Asking Clarification Questions in Large Language Model Powered Conversational Agents (STYLE：提升大语言模型驱动会话代理澄清问题提问的领域可迁移性)

1.2. 作者

Yue Chen*, Chen Huang*, Yang Deng, Wenqiang Lei*, Dingnan Jin*, Jia Liu $^{\pmb{\alpha}}$ , Tat-Seng Chua $^{\spadesuit}$
机构:
- College of Computer Science, Sichuan University, China (四川大学计算机学院，中国)
- Engineering Research Center of Machine Learning and Industry Intelligence, Ministry of Education, China (教育部机器学习与工业智能工程研究中心，中国)
- National University of Singapore, Singapore (新加坡国立大学，新加坡)
- Ant Group, China (蚂蚁集团，中国)

1.3. 发表期刊/会议

预印本 (Preprint)，发布在 arXiv。

1.4. 发表年份

2024年。

1.5. 摘要

为会话搜索引擎配备何时提问澄清问题的策略在各个领域变得日益重要。归因于大语言模型 (LLMs) 的上下文理解能力及其对领域特定知识源的访问，基于 LLM 的澄清策略能够以后处理方式 (post-hoc manner) 快速迁移到各种领域。然而，它们在未见领域 (unseen domains) 的性能仍然不尽如人意，难以实现有效的领域可迁移性 (domain transferability)。本文首次探讨了这个问题，并指出现有方法倾向于在不同领域生成“一刀切” (one-size-fits-all) 的策略，从而限制了其搜索效率。为此，我们引入了一种名为 STYLE 的新方法，旨在实现有效的领域可迁移性。我们的实验结果表明，STYLE 具有强大的领域可迁移性，在四个未见领域平均搜索性能提升了约 10%。

1.6. 原文链接

https://arxiv.org/abs/2405.12059
https://arxiv.org/pdf/2405.12059v2.pdf
- 发布状态：预印本，于 2024-05-20T14:28:25.000Z 发布于 arXiv。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 在大语言模型 (LLMs) 驱动的会话代理中，如何有效提升提问澄清问题策略的领域可迁移性，尤其是在模型未曾训练过的领域 (unseen domains) 中。
为什么这个问题在当前领域是重要的:
- 澄清策略的重要性: 在会话搜索 (conversational search) 中，当用户查询模糊不清时，系统需要智能地决定何时提问澄清问题，这对于提高搜索效率和用户满意度至关重要。
- LLMs 的优势与局限: LLMs 凭借其强大的上下文理解能力和对领域知识的访问，理论上能够快速适应新领域。然而，经验证据表明，在未见领域，基于 LLM 的澄清策略往往表现不佳，难以有效泛化。
- 现有方法的挑战: 现有方法在应用于不同领域时，往往采用“一刀切” (one-size-fits-all) 的策略。这种缺乏灵活性的策略无法适应不同领域特有的模糊性模式和用户需求，从而限制了其在跨领域场景下的搜索效率。例如，金融术语的模糊性与电影推荐领域的模糊性可能大相径庭，但现有方法难以针对这些差异定制策略。
- 领域表示不匹配: 强领域可迁移性不能仅通过在单一领域数据上训练来实现。不同领域之间领域特定表示 (domain-specific representations) 的分布不匹配，是阻碍有效领域迁移的一个显著障碍。
这篇论文的切入点或创新思路: 针对现有 LLM-based 方法在未见领域性能不佳、策略“一刀切”的问题，本文提出 STYLE 方法。其核心思想是，通过设计一个能够提取“领域不变信息” (domain-invariant information) 的策略规划器，并结合“多领域训练” (multi-domain training) 范式，使模型能够生成针对不同领域的定制化策略，从而实现高效的领域可迁移性。

2.2. 核心贡献/主要发现

验证并揭示了现有方法的局限性: 本文首次深入调查并明确指出，现有基于 LLM 的澄清策略在决定何时提问澄清问题时，倾向于采用“一刀切”的策略，这严重阻碍了它们在未见领域的可迁移性。
提出了创新的 STYLE 方法: 引入了一种名为 STYLE 的新方法，以增强领域可迁移性。该方法包含两个关键组件：
- 领域不变策略规划器 (Domain-Invariant Strategy Planner, DISP): 旨在提取通用的、结构化的领域不变信息，以缓解领域特定表示分布不匹配的问题，从而提高跨领域的鲁棒性。
- 多领域训练范式 (Multi-Domain Training paradigm, MDT): 借鉴人口基训练 (population-based training) 的思想，通过在多个多样化领域进行训练，鼓励 DISP 学习生成定制化的策略，以适应不同的未见领域。
实验验证了 STYLE 的有效性: 在四个代表不同领域的会话搜索基准数据集上进行了全面的实验。结果表明，STYLE 表现出强大的领域可迁移性，在这些未见领域中，平均搜索性能相较于现有领先的 LLM-based 基线提升了约 10%。
深入分析了 STYLE 有效性的原因: 通过进一步分析，论文揭示 STYLE 的有效性源于其能够为不同领域量身定制多样化的策略，从而奠定了其在跨领域场景中优越性能的基础。

3. 预备知识与相关工作

本部分旨在为读者铺垫理解论文所需的前置知识。

3.1. 基础概念

会话搜索 (Conversational Search):
- 概念定义: 会话搜索是一种信息检索范式，用户通过自然语言与搜索引擎进行多轮交互，而不是仅仅输入一次查询。系统需要理解用户意图、维护对话上下文，并根据对话进展提供相关信息或进一步提问。
- 重要性: 随着大语言模型 (LLMs) 的发展，会话搜索在提供更自然、高效的用户体验方面展现出巨大潜力，尤其是在处理模糊查询时。
澄清问题 (Clarification Questions, CQs):
- 概念定义: 当用户初始查询或后续查询不够明确、存在歧义时，会话系统为了更好地理解用户真实意图并提供精准结果，会动地向用户提问以获取更多信息。这些问题被称为澄清问题。
- 作用: 澄清问题有助于系统消除歧义、缩小搜索范围、提升检索准确率。例如，用户问“我想看《红楼梦》”，系统可能会问“您是想看电视剧、电影还是小说？”。
大语言模型 (Large Language Models, LLMs):
- 概念定义: LLMs 是基于深度学习，特别是 Transformer 架构的超大规模神经网络模型。它们在海量文本数据上进行预训练，学习了丰富的语言知识、世界知识和推理能力，能够执行文本生成、摘要、翻译、问答等多种自然语言处理任务。
- 在会话搜索中的应用: LLMs 在会话搜索中被广泛应用于理解上下文、生成连贯回复、检测查询模糊性、生成澄清问题以及作为强大的检索或重排序组件。
领域可迁移性 (Domain Transferability):
- 概念定义: 指模型在一个或多个源领域 (source domains) 上训练后，在未曾训练过的目标领域 (target domains) 上仍然能够保持良好性能的能力。
- 挑战: 不同领域的数据分布、术语、用户行为模式可能存在显著差异，导致模型在未见领域性能下降，即“领域漂移” (domain shift) 问题。
马尔可夫决策过程 (Markov Decision Process, MDP):
- 概念定义: MDP 是一种用于建模序列决策问题的数学框架。它包含五个核心要素：
  1. 状态 (State $s$ ): 环境的当前配置。
  2. 动作 (Action $a$ ): 智能体在给定状态下可以采取的行动。
  3. 转移概率 (Transition Probability $P(s'|s,a)$ ): 在状态 $s$ 采取动作 $a$ 后，转移到下一个状态 $s'$ 的概率。
  4. 奖励 (Reward r(s,a)): 智能体在状态 $s$ 采取动作 $a$ 后获得的回报。
  5. 折扣因子 (Discount Factor $\gamma$ ): 用于衡量未来奖励在当前时刻的价值。
- 在会话搜索中的应用: 会话搜索过程可以被建模为一个 MDP，其中每一轮对话是一个状态，系统的响应（提问或提供答案）是一个动作，用户对响应的反馈和最终搜索结果决定了奖励。智能体的目标是学习一个最优策略，以最大化长期累积奖励。
强化学习 (Reinforcement Learning, RL):
- 概念定义: 强化学习是一种机器学习范式，智能体通过与环境交互，在试错中学习如何执行动作以最大化累积奖励。它不依赖于监督信号，而是通过奖励机制来引导学习过程。
- 在会话搜索中的应用: RL 可以用于训练会话系统，使其学会何时提问、何时回答，以及如何生成最有效的澄清问题，以优化整个对话过程的效率和用户满意度。
BERT (Bidirectional Encoder Representations from Transformers):
- 概念定义: BERT 是一种由 Google 开发的基于 Transformer 架构的预训练语言模型。它通过在大量无标签文本数据上进行双向训练（例如，遮蔽语言模型和下一句预测），学习了深层双向的语言表示。
- 在会话搜索中的应用: BERT 可以作为强大的文本编码器，将用户查询、对话历史和文档编码成高质量的向量表示，这些表示可以用于检索、匹配和理解会话上下文。

3.2. 前人工作

论文主要提及了以下几类相关工作：

利用 LLMs 解决用户查询模糊性:
- Deng et al. (2022), Kuhn et al. (2022), Zhang and Choi (2023) 等研究表明，LLMs 在处理用户查询模糊性方面具有巨大潜力。它们能够利用自身的上下文理解能力来识别查询中的歧义。
LLM-based 澄清策略的快速迁移:
- Deng et al. (2023b), Zhang et al. (2023) 指出，基于 LLM 的澄清策略可以以后处理方式快速迁移到各种领域，例如金融服务 (Deng et al., 2023a) 和电影推荐 (Fan et al., 2023)。这主要得益于 LLMs 强大的上下文理解能力和对领域特定知识源的访问。
现有 LLM-based 方法在未见领域的性能局限:
- 尽管有快速迁移的潜力，但经验证据 (Deng et al., 2023b,a) 表明，LLM-based 方法在未见领域的性能仍然不尽如人意，难以实现有效的领域可迁移性。这是本文的核心问题之一。
专注于单一领域模糊性解决的方法:
- Rahmani et al. (2023), Aliannejadi et al. (2019), Deng et al. (2023a) 等工作通常专注于在单一领域解决模糊性问题。这些方法可能在特定领域表现良好，但当面对未见领域时，其模型可能会变得脆弱，因为它们未能适应新的领域知识分布和模糊性模式。
人口基训练 (Population-based training, PBT):
- Long et al. (2023) 综述了 PBT，而 Charakorn et al. (2020) 提出，通过训练更大、更多样化的人口，可以提高协作智能体在未见人口中的泛化能力。这一思想为本文的多领域训练范式 (MDT) 提供了灵感。

3.3. 技术演进

该领域的技术演进大致可以分为以下几个阶段：

传统会话搜索与澄清策略: 早期的会话搜索系统可能依赖于规则、启发式方法或基于统计的机器学习模型来检测模糊性并生成澄清问题。这些方法通常需要大量的领域知识工程或标注数据，并且在跨领域迁移时面临巨大挑战。
深度学习在会话搜索中的应用: 随着深度学习的发展，尤其是循环神经网络 (RNN) 和注意力机制 (Attention Mechanism) 的引入，会话搜索系统能够更好地理解上下文和生成更自然的回复。然而，这些模型在处理领域特定模糊性时，仍然需要大量的领域内数据进行训练。
基于预训练语言模型 (如 BERT) 的会话搜索: BERT 等模型的出现极大地提升了文本理解和表示能力。它们可以更好地编码用户查询和文档，从而提高检索和问答的性能。在澄清问题方面，这些模型可以用于识别查询中的关键词、理解上下文，并辅助生成相关澄清。
大语言模型 (LLMs) 驱动的会话代理: ChatGPT 等 LLMs 的崛起，使得会话系统能够展现出前所未有的通用知识和推理能力。LLMs 可以直接用于零样本 (zero-shot) 或少样本 (few-shot) 场景下的模糊性检测和澄清问题生成，大大简化了模型开发和领域适应过程。然而，本文指出，尽管 LLMs 具有这些优势，但在未见领域的实际应用中，它们往往采用“一刀切”的策略，其性能仍有提升空间。
STYLE 的位置: 本文的 STYLE 方法正是在 LLM 驱动会话代理的背景下，针对其在领域可迁移性方面的局限性提出。它试图通过结合“领域不变信息”和“多领域训练”来克服“一刀切”策略的限制，使得 LLM-based 系统能够更好地适应各种未见领域。

3.4. 差异化分析

特征/方法	现有 LLM-based 方法 (如 CLAM, ProCoT)	STYLE 方法
核心问题	在未见领域提问澄清问题时，性能不佳，领域可迁移性差。	旨在解决现有 LLM-based 方法在未见领域的领域可迁移性问题。
策略特点	倾向于生成“一刀切” (one-size-fits-all) 的策略，缺乏针对不同领域的定制化能力。	生成多样化且针对不同领域量身定制 (tailored strategies) 的策略。
领域适应方式	主要依赖 LLM 自身的泛化能力、上下文理解和领域知识访问，通常通过 `few-shot` 或 `CoT` 进行 `post-hoc` 适应。	结合 `域不变策略规划器 (DISP)` 提取领域不变信息，并通过 `多领域训练 (MDT)` 鼓励策略多样性和泛化能力。
输入特征	主要依赖原始的对话上下文和 LLM 内部的语义理解。	除了对话上下文和检索文档外，还特别引入了 `检索排名分数 (ranking scores)` 作为领域不变信息，以避免领域特定语义表示。
训练范式	通常在单个领域上进行训练或直接利用 LLM 的预训练知识。	采用多领域训练范式，通过在多个多样化数据集上训练来增强泛化能力。
鲁棒性	在未见领域表现脆弱，难以适应新的领域知识分布。	通过提取领域不变信息和多领域训练，提高了在未见领域的鲁棒性和性能。
主要贡献	验证 LLM 在模糊性解决方面的潜力，实现快速部署。	揭示“一刀切”策略的局限性，并提出一种新颖的方法来克服领域可迁移性障碍。

4. 方法论

4.1. 方法原理

STYLE 方法的核心原理在于克服现有基于 LLM 的澄清策略在未见领域中表现出的“一刀切”问题。其直觉在于，有效的澄清策略不应是固定不变的，而应根据特定领域的特点和会话的进展动态调整。为了实现这一目标，STYLE 提出两个关键机制：

领域不变信息提取: 通过识别和利用与具体领域语义内容关联较少但能反映会话状态和检索质量的“领域不变信息” (domain-invariant information)，来构建一个鲁棒的策略规划器。这避免了模型过度依赖领域特定的语义表示，从而减轻了领域分布不匹配带来的负面影响。
多领域协作训练: 借鉴人口基训练的思想，通过在多个不同领域的数据集上共同训练策略规划器，使其能够学习到更普遍的策略模式，并鼓励生成针对多样化场景的定制化策略，而非单一的通用策略。

通过这两个机制，STYLE 旨在使会话代理能够更灵活、更智能地决定何时以及如何提问澄清问题，从而在未见领域也能保持高效的搜索性能。

4.2. 核心方法详解

STYLE 方法的整体架构如原文 Figure 1 所示，它由 域不变策略规划器 (DISP) 和 多领域训练范式 (MDT) 组成。

Figure 1: The STYLE contains domain-invariant strategy planner (DISP) and multi-domain training paradigm (MDT). The DISP extracts domain-invariant information and mitigates the swi of domain-specidistributions. The MDT encourages the domain transferability of DISP by population-based multi-domain training. 该图像是示意图，展示了STYLE方法的结构和流程。左侧展示了DISP增强的对话搜索引擎，包括用户输入、系统响应、以及通过LLM基础的检索器获取的相关文档。右侧描绘了多领域训练（MDT），强调DISP的优化如何实现不同应用间的有效转移。图中展示了DISP提取领域不变信息和通过多领域训练提升领域可转移性的过程。

4.2.1. 问题形式化

本文将会话搜索过程建模为一个 马尔可夫决策过程 (Markov Decision Process, MDP)。

4.2.1.1. 检索式会话搜索 (Retrieval-based Conversational Search)

用户意图: 对于用户 $u_i$ ，在文档集合 $D$ 中存在一个文档 $d_i$ 与其意图相符。
交互过程:
- 会话始于用户初始查询 $q_1$ 。
- 在每一轮 $t$ ，当用户提出查询 $q_t$ 时，形成对话历史 $H_t = \{q_1, m_1, ..., q_{t-1}, m_{t-1}, q_t\}$ ，其中 $q_{t-1}$ 和 $m_{t-1}$ 分别表示用户在 t-1 轮的查询和系统响应。
- 给定 $H_t$ ，系统首先从 $D$ 中检索一个子集 $D_t \subset D$ 的文档。
- 随后，基于 $H_t$ 和 $D_t$ ，系统生成响应 $m_t$ ，可以是向用户提出一个澄清问题 $cq_t$ ，或者展示 $D_t$ 中排名前 $x$ 的检索文档。
- 这个迭代过程持续进行，直到系统向用户展示 $d_i$ ，或者达到最大轮次 $T$ 。

4.2.1.2. MDP 环境 (MDP Environment)

会话搜索过程被建模为 MDP。

状态 (State): 在轮次 $t$ ，状态 $s_t$ 包含对话历史 $H_t$ 和检索到的文档 $D_t$ 。
动作 (Action): 系统从一组澄清策略 $\mathcal{A}$ 中选择一个动作 $a_t \in \mathcal{A}$ （提问或回答）。
目标: 学习一个策略 $\pi$ 来最大化在观察到的会话回合中获得的预期总奖励。
公式: $\pi^* = \arg \max_{\pi \in \Pi} \mathbb{E} \left[ \sum_{t=0}^{T} r(s_t, a_t) \right]$
符号解释:
- $\pi^*$ : 表示最优策略 (optimal policy)，即智能体（会话系统）应该遵循的策略。
- $\arg \max_{\pi \in \Pi}$ : 表示在所有可能的策略集合 $\Pi$ 中，找到使得后续表达式最大化的策略 $\pi$ 。
- $\mathbb{E}[\cdot]$ : 表示期望值 (expectation)，这里是对所有可能的回合路径求平均。
- $\sum_{t=0}^{T}$ : 表示从当前轮次 $t=0$ 到最大轮次 $T$ 的奖励总和。
- $r(s_t, a_t)$ : 表示在状态 $s_t$ 执行动作 $a_t$ 之后获得的即时奖励 (immediate reward)，也记作 $r_t$ 。
- $s_t$ : 表示在轮次 $t$ 时的状态，由对话历史 $H_t$ 和检索到的文档 $D_t$ 组成。
- $a_t$ : 表示在轮次 $t$ 智能体选择的动作，取自一组澄清策略 $\mathcal{A}$ （即提问澄清问题或提供文档答案）。

4.2.2. 整体架构 (Overall Architecture)

如原文 Figure 1(b) 所示，STYLE 包含 域不变策略规划器 (DISP) 和 多领域训练范式 (MDT)。

训练阶段: 首先使用 MDT 在多个多样化领域训练 DISP。
推理阶段: 如原文 Figure 1(a) 所示，在会话轮次 $t$ $t$ ：
1. LLM-based retriever (基于LLM的检索器)：识别与用户查询 $H_t$ 紧密匹配的文档 $D_t$ 。
2. DISP：基于 $H_t$ 和 $D_t$ ，使用 域不变信息 (domain-invariant information) 生成动作 $a_t$ ，决定是向用户提问澄清问题还是提供答案。
3. 如果 $a_t$ 建议提问: 会话搜索引擎利用 LLM-based generator (基于LLM的生成器)，通过 few-shot CoT (少量样本思维链)，并考虑对话上下文和检索文档，生成一个澄清问题 $cq_{t+1}$ 。
4. 如果 $a_t$ 建议回答: 搜索引擎向用户呈现 $x$ 个排名最高的检索文档作为答案。

4.2.3. 域不变策略规划器 (Domain-Invariant Strategy Planner, DISP)

为了缓解领域特定表示分布 (distribution of domain-specific representations) 的差异，本文提出了 DISP。

Figure 3: Domain-invariant strategy planner (DISP). 该图像是一个示意图，展示了域不变策略规划器（DISP）的结构。图中包含BERT编码器和文档评分模块，旨在处理对话上下文和文档，以决定是询问还是回答。此方法的目标是提高在不同领域的效率。

Figure 3: Domain-invariant strategy planner (DISP).

实现方式: DISP 由一个 两层全连接网络 (two-layer fully connected network) 实现。
目的: DISP 的设计目标是提取通用且结构化的 域不变表示 (domain-invariant representation)，从而增强其对领域迁移的鲁棒性。
域不变输入构成: DISP 的输入是以下信息的拼接：
1. 编码的对话上下文 ( $\mathbf{H}_t$ ): 使用一个固定的 BERT (Devlin et al., 2018) 模型对对话历史 $H_t$ 进行编码。这个 BERT 模型在训练过程中保持参数不变。
2. 编码的检索文档 ( $\mathbf{D}_t$ ): 同样使用上述固定的 BERT 模型对检索到的文档 $D_t$ 进行编码。
3. 检索排名分数 ( $score_t^{1:k}$ ): 检索模块为 $k$ 个检索文档分配的排名分数。这些分数反映了检索质量和检索模块的置信度，并且相对独立于领域知识分布。
决策过程: 这种域不变信息作为状态 $s_t$ 被送入 DISP，以产生动作 $a_t$ 。
公式: $value = MLP \left( \mathbf{H}_t \oplus \mathbf{D}_t \oplus score_t^{1:k} \right)$ $a_t = \left\{ \begin{array}{ll} ask, & value \ge 0.5 \\ answer, & value < 0.5 \end{array} \right.$
符号解释:
- value: 表示 MLP 的输出值，用于决策。
- MLP: 表示一个多层感知器 (Multi-Layer Perceptron)，在本方法中具体指 两层全连接网络。
- $\mathbf{H}_t$ : 表示经过 BERT 编码器编码后的对话历史的表示向量。
- $\mathbf{D}_t$ : 表示经过 BERT 编码器编码后的检索文档的表示向量。
- $score_t^{1:k}$ : 表示在当前轮次 $t$ 检索到的前 $k$ 个文档的排名分数向量。
- $\oplus$ : 表示向量的拼接 (concatenation) 操作，将多个向量连接成一个更长的向量。
- $a_t$ $a_{t}$ : 表示在轮次 $t$ $t$ 智能体选择的动作。
  - ask: 表示系统决定向用户提出澄清问题。
  - answer: 表示系统决定向用户提供检索到的文档作为答案。
- 0.5: 是一个预设的阈值，用于将 MLP 的连续输出值转换为离散的动作决策。如果 value 大于或等于 0.5，则选择 ask 动作；否则选择 answer 动作。

4.2.4. 多领域训练 (Multi-Domain Training, MDT)

为了鼓励 DISP 的领域可迁移性，STYLE 采用了 MDT。

灵感来源: MDT 受到 人口基训练 (population-based training) (Long et al., 2023) 的启发，该训练方法表明，通过训练更大、更多样化的人口，可以提高协作智能体在未见人口中的泛化能力 (Charakorn et al., 2020)。
训练过程:
1. 使用一组多样化的领域数据集 $\mathbf{B} = \{B_1, B_2, ..., B_n\}$ 来训练 DISP。
2. 在每个 epoch 中，随机选择这些数据集的一个子集作为训练数据。
3. 这种训练方式旨在使规划器接触到各种与不同领域相关的策略，从而增强其在 novel scenarios (新场景) 中定制策略的能力。
4. 训练完成后，保留优化后的规划器参数，使其能够对任何未见领域 $B^* (B^* \notin \mathbf{B})$ 进行高效推理。
交互式强化学习: 在 MDT 中，本文通过使用 LLM-based 用户模拟器 (LLM-based user simulator) 进行交互式强化学习，如 Deng et al. (2023b) 所述。
- 用户模拟器: 每个样本包括一个用户 $u_i$ 寻求特定文档 $d_i$ 以及意图详情 $d_i^*$ 。利用 $d_i^*$ 和角色指令来构建用户提示 $P_{user}$ (详见附录 F.3)。
- 用户响应生成: 当系统向用户 $u_i$ $u_{i}$ 呈现语句 $m_{t+1}$ $m_{t + 1}$ 时，用户会响应 $q_{t+1}$ $q_{t + 1}$ 。
  - 公式: $q_{t+1} = LLM \left( P_{user}(d_i^*), m_{t+1}, H_t \right)$
  - 符号解释:
    - $q_{t+1}$ : 表示用户在轮次 $t+1$ 生成的查询。
    - $LLM(\cdot)$ : 表示大语言模型的功能，用于根据输入生成文本。
    - $P_{user}(d_i^*)$ : 表示根据用户意图详情 $d_i^*$ 和预设角色指令构造的用户提示。
    - $m_{t+1}$ : 表示系统在轮次 $t+1$ 向用户提供的语句（可以是澄清问题或文档答案）。
    - $H_t$ : 表示截至轮次 $t$ 的对话历史。
- 奖励计算: 收到响应 $q_{t+1}$ 后，根据预定义的标准计算奖励 $r_t$ 。
- Dueling Q-network 训练: 随后，使用 dueling Q-network 进行训练。
  - 公式: $y_t = \mathbb{E}_{s_{t+1}} \left[ r_t + \gamma \max_{a \in \mathcal{A}} Q^*(s_{t+1}, a_{t+1}) | s_t, a_t \right]$
  - 符号解释:
    - $y_t$ : 表示目标 Q 值 (target Q-value)，是 Q-learning 更新中的目标值。
    - $\mathbb{E}_{s_{t+1}}[\cdot]$ : 表示在下一个状态 $s_{t+1}$ 上的期望。这通常表示在计算目标 Q 值时，需要考虑所有可能的下一个状态及其发生的概率。
    - $r_t$ : 表示在状态 $s_t$ 执行动作 $a_t$ 后获得的即时奖励。
    - $\gamma$ : 表示折扣因子 (discount factor)，一个介于 0 和 1 之间的值，用于平衡即时奖励和未来奖励的重要性。
    - $\max_{a \in \mathcal{A}} Q^*(s_{t+1}, a_{t+1})$ : 表示在下一个状态 $s_{t+1}$ ，从所有可能的动作 $\mathcal{A}$ 中选择一个能最大化 Q 值 $Q^*$ 的动作 $a_{t+1}$ 。这个项代表了智能体在未来能获得的最大预期奖励。
    - $Q^*$ : 表示最优 Q 函数 (optimal Q-function)，在本方法中特指 DISP 学习到的 Q 函数，它估计在给定状态-动作对下能获得的预期累积奖励。
    - $| s_t, a_t$ : 表示条件，即在当前状态 $s_t$ 和采取动作 $a_t$ 的条件下进行计算。

5. 实验设置

5.1. 数据集

实验使用了四个领域特定基准数据集，涵盖了会话搜索的不同领域。为了模拟未见领域，本文采用留出验证 (held-out evaluation) 方式，即在一个数据集上训练，将另一个数据集作为未见领域测试集。此外，为了确保数据的挑战性并符合研究背景（即处理模糊查询），对这些数据集进行了预处理。

数据集详情:

Dataset	Domain	# Cases (Train/Val/Test)	Ambiguous
`ClariQ`	Web Track	721/153/120	0.60
`FaqAnt`	E-commerce	2197/591/592	0.52
`MSDialog`	Microsoft Products	1298/325/325	0.53
`Opendialkg`	Books & Movie	1008/271/228	0.50

以下是原文 Table 1 的结果：

Dataset	Domain	# Cases	Ambiguous
ClariQ	Web Track	721/153/120	0.60
FaqAnt	E-commerce	2197/591/592	0.52
MSDialog	Microsoft Products	1298/325/325	0.53
Opendialkg	Books & Movie	1008/271/228	0.50

Table 1: Data statistics. Ambiguous indicates the proportion of ambiguous queries. See Appendix C for details.

数据处理 (Data Processing): 论文在附录 C 中详细说明了数据处理过程，旨在获取具有挑战性且适合其设置的数据，并增加了模糊查询的比例。目标是获得 $(u_i, d_i, d_i^*, q_i^{ini})$ 格式的数据，其中 $u_i$ 是用户 ID， $d_i$ 是匹配用户意图的真实文档， $d_i^*$ 是用户意图信息， $q_i^{ini}$ 是用户初始查询。
1. ClariQ:
  - 原始数据：包含用户与搜索代理的对话，包括初始查询、模糊性分类标签、澄清问题和对应的方面。
  - 处理：将“方面”视为真实文档 $d_i$ 。使用 ChatGPT 重新措辞 $d_i$ 以构建 $d_i^*$ 。为了增加任务复杂性，移除了部分初始查询模糊性标签为 0 的对话，以确保模糊查询的比例较高。
  - 结果：1000 个会话。
2. FaqAnt:
  - 原始数据：包含用户与金融客服代理的对话，包括初始查询、模糊性标签和匹配用户意图的 FAQ 问答对。
  - 处理：将用户期望的问答对作为真实文档 $d_i$ 。使用 ChatGPT 重新措辞 $d_i$ 以构建 $d_i^*$ 。同样移除了部分对话以增加模糊查询的比例。
  - 结果：3380 个会话。
3. MSDialog:
  - 原始数据：来自微软论坛的问答对话，包含用户初始查询和微软人工代理的回复。
  - 处理：根据先前的研究 (Wang and Ai, 2022)，通过选择获得最高票数的回复来确定真实文档 $d_i$ 。使用 ChatGPT 重新措辞 $d_i$ 以构建 $d_i^*$ 。为保持数据集富含模糊查询，移除了部分通过 BM25 即可检索到 $d_i$ 的对话。
  - 结果：1948 个会话。
4. Opendialkg:
  - 原始数据：用户寻求电影、音乐或书籍推荐/意见的对话，包含初始查询。
  - 处理：遵循先前研究 (Wang and Ai, 2021, 2022) 的方法，通过人工审查确定真实文档 $d_i$ 。使用 ChatGPT 重新措辞 $d_i$ 以构建 $d_i^*$ 。
  - 结果：1507 个会话。

5.2. 评估指标

论文采用了以下评估指标来衡量会话搜索的效率和有效性：

Recall@5 (Recall at 5)：
- 概念定义: Recall@k 衡量的是在前 $k$ 个检索结果中，包含用户所需目标文档的查询所占的比例。Recall@5 意味着在前 5 个检索结果中，如果用户想要的文档出现，则认为该次检索成功。这个指标主要评估搜索模块的“效率”和“覆盖度”，即系统能否在较少的候选文档中命中目标。
- 数学公式: 论文中未直接给出 Recall@k 的公式，但其定义与信息检索领域标准一致。 $\text{Recall@k} = \frac{\text{Number of queries with relevant document in top k results}}{\text{Total number of queries}}$
- 符号解释:
  - Number of queries with relevant document in top k results: 表示在所有查询中，其对应的相关文档（即用户期望找到的文档）出现在检索系统返回的前 $k$ 个结果列表中的查询数量。
  - Total number of queries: 表示参与评估的总查询数量。
SR@k (Success Rate at turn k)：
- 概念定义: SR@k 衡量的是在不超过 $k$ 个对话轮次内，系统成功帮助用户找到目标文档的会话所占的比例。SR@3 和 SR@5 分别表示在 3 轮和 5 轮内成功的会话比例。这个指标评估整个会话系统的“有效性”和“用户满意度”，因为它不仅考虑了检索质量，还考虑了会话的效率和是否最终解决了用户的需求。
- 数学公式: 论文中未直接给出 SR@k 的公式，但其定义与会话信息检索领域标准一致。 $\text{SR@k} = \frac{\text{Number of conversations successfully completed within k turns}}{\text{Total number of conversations}}$
- 符号解释:
  - Number of conversations successfully completed within k turns: 表示在所有会话中，能够在不超过 $k$ 个轮次内成功（即找到用户期望文档）完成的会话数量。
  - Total number of conversations: 表示参与评估的总会话数量。
AvgT (Average Turn)：
- 概念定义: AvgT 衡量的是系统成功完成一次会话所需的平均轮次。这个指标主要评估会话的“效率”，轮次越少通常意味着用户体验越好，系统越高效。
- 数学公式: 论文中未直接给出 AvgT 的公式，但其定义与会话信息检索领域标准一致。 $\text{AvgT} = \frac{\sum_{i=1}^{N_{success}} \text{turns}_i}{N_{success}}$
- 符号解释:
  - $N_{success}$ : 表示成功完成的会话总数量。
  - $\text{turns}_i$ : 表示第 $i$ 次成功完成的会话所花费的轮次数量。
策略多样性 (Strategy Diversity)：
- 概念定义: 这个指标用于量化模型在不同领域或不同情境下，所采用的澄清策略（即在每轮对话中决定是否提问）的变化程度。高的策略多样性意味着模型能够根据具体情况灵活调整策略，而不是采用“一刀切”的方法。论文通过计算策略轨迹（多轮动作序列）之间的动态时间规整（DTW）距离来量化，较低的相似性分数（即较高的 DTW 距离）表示更大的策略多样性。
- 数学公式: 论文在附录 A 中给出。 $\frac { dtw \left( t r _ { 1 } , t r _ { 2 } \right) + dtw \left( t r _ { 1 } , t r _ { 3 } \right) + . . . + dtw \left( t r _ { 3 } , t r _ { 4 } \right) } { 6 }$
- 符号解释:
  - $dtw(\cdot, \cdot)$ : 表示动态时间规整 (Dynamic Time Warping) 距离函数，用于衡量两个序列（这里是策略轨迹）之间的相似性。DTW 距离越小，序列越相似；DTW 距离越大，序列差异越大。
  - $tr_1, tr_2, tr_3, tr_4$ : 表示四个不同领域（ClariQ, FaqAnt, MSDialog, Opendialkg）的策略轨迹。每个轨迹由多轮对话中的“提问概率”序列组成。
  - 6: 表示从四个策略轨迹中选择两两组合的数量 $C_4^2 = \frac{4 \times 3}{2} = 6$ 。公式计算的是所有两两组合 DTW 距离的平均值，以量化整体的策略多样性。

5.3. 对比基线

论文将 STYLE 方法与以下两类基线模型进行了比较：

5.3.1. 不提问澄清问题的检索式会话搜索模型 (Retrieval-based Conversational Search w/o CQ)

这些模型总是向用户提供答案，而不主动提问澄清问题。

BM25: 一种基于统计的经典信息检索模型。
senBERT (Reimers and Gurevych, 2019): 使用 siamese 和 triplet BERT 结构来编码输入文本，生成语义相似度。
monoBERT (Nogueira and Cho, 2019): 一种基于 BERT 的 cross-encoder 重排序器，用于对检索到的文档进行排名。
ChatSearch (Sun et al., 2023): 一种基于 ChatGPT 的检索方法，被认为是当前最先进 (SOTA) 的性能。

5.3.2. 基于 LLM 并提问澄清问题的方法 (LLM-based methods w/CQ)

这些方法会根据情况决定是呈现检索到的文档还是提问澄清问题。

ClarSim (Zhang and Choi, 2023): 通过不确定性建模（通过自我提问）来决定何时需要询问澄清问题。
CLAM (Kuhn et al., 2022): 通过 few-shot in-context learning 来识别何时需要提问并生成澄清问题。
CLAMzeroShot (Kuhn et al., 2022): CLAM 的变体，使用类似的提示，但采用 zero-shot 学习方式（即不提供示例）。
ProCoT (Deng et al., 2023a): 使用 few-shot CoT (Chain of Thought) 提示来检测模糊性并生成澄清问题。

5.4. 实现细节

数据集分割: 数据集按 6:1:1 的比例分为训练集、验证集和测试集。
训练过程:
- 训练期间，随机从多个域的数据集中采样数据。
- 最大对话轮次 $T$ 设为 10。
- 训练回合 (episodes) 数量设为 1800。
- DQN (Deep Q-Network) 的经验回放缓冲区 (experience buffer) 大小为 10000，采样大小为 32。
- 学习率 (learning rate) 设为 1e-4，使用 Adam 优化器。
- 折扣因子 $\gamma$ 设为 0.99。
- 成功搜索的奖励 (reward) 设为 1.0，超过最大轮次的惩罚设为 -0.5。
- 向用户展示的文档数量 $x$ 设为 5。
- BERT-based encoder (在 DISP 中) 的层数设为 3。
基线实现:
- BERT-based 基线 (senBERT, monoBERT): 使用 HuggingFace 上公开可用的预训练检查点（如基于 MS MARCO 预训练的模型）进行初始化，然后在使用与 STYLE 相同训练源（但与测试集不在同一领域）的数据上进行微调。学习率 5e-5，训练轮次 15，批处理大小 16，使用 AdamW 优化器。
- LLM-based 检索方法 (ChatSearch): 使用其论文中描述的 permutation generation prompt。
- LLM-based 方法 (ClarSim, CLAM, CLAMzeroShot, ProCoT): 基于 gpt-3.5-turbo。
  - CLAM: 遵循原论文 (Kuhn et al., 2022) 的提示，使用 few-shot in-context learning 进行澄清需求预测和问题生成。
  - ClarSim: 由于原论文 (Zhang and Choi, 2023) 需要解码器输出的熵信息和意图解释，本文进行了修改。替代方案是应用 Self-Ask 策略，提示 LLM 决定是否提问（输出“Yes”或“No”）。
  - ProCoT: 原文 (Deng et al., 2023a) 依赖于一个有依据的文档 (grounded document)。本文通过使用检索到的文档替换这一部分，并采用 few-shot CoT 执行类似查询策略。
  - CLAMzeroShot: 移除 CLAM 中的 few-shot 示例，采用 zero-shot in-context learning。
用户模拟器 (User Simulators):
- 使用 ChatGPT (基于 gpt-3.5-turbo) 构建用户模拟器。
- 模拟器根据用户 $u_i$ 的意图信息 $d_i^*$ 和角色指令 (如图 F.3 所示的 P_user)，生成用户对系统提问的回答。
- 当系统提供检索文档时，模拟器会根据用户期望文档 $d_i^*$ 是否在提供的文档中给出肯定或否定的反馈。

6. 实验结果与分析

本节详细分析了 STYLE 方法的实验结果，并探讨了其成功的内在原因，回答了三个研究问题 (RQ1-RQ3)。

6.1. 核心结果分析

6.1.1. RQ1: STYLE 能否在没有领域特定训练的情况下有效迁移到未见领域？

通过在四个未见领域（ClariQ、FaqAnt、MSDialog、Opendialkg）上评估 STYLE 的会话搜索性能，结果如下表所示：

以下是原文 Table 2 的结果：

Method		ClariQ				FaqAnt
Method		Recall@5↑	SR@3↑	SR@5↑	AvgT↓	Recall@5↑	SR@3↑	SR@5↑	AvgT↓
Retrieval-based Conversational Search w/o CQ	BM25	0.6050	0.6638	0.6639	5.3193	0.3533	0.4967	0.5400	6.5833
	senBERT (Reimers and Gurevych, 2019)	0.1261	0.2773	0.3277	8.6891	0.1167	0.2467	0.3600	8.4667
	monoBERT (Nogueira and Cho, 2019) ChatSearch (Sun et al., 2023)	0.1849 0.6387	0.2605 0.6874	0.3277 0.7059	8.8908 4.9321	0.1100 0.4167	0.2533 0.5400	0.3200 0.6200	8.7733 6.0500
LLM-based methods w/CQ	ClarSim (Zhang and Choi, 2023)				4.8571	0.4200	0.5567	0.6033	6.0933
	CLAM (Kuhn et al., 2022)	0.6387 0.6387	0.6807	0.7143 0.7269	4.8697	0.4711		0.6300	5.8699
	CLAMzeroShot (Kuhn et al., 2022)	0.6387	0.7143 0.6555	0.6807	5.1428	0.4167	0.5783 0.4567	0.4933	7.1133
	ProCoT (Deng et al., 2023a)	0.6387	0.7311	0.7563	4.4986	0.4711	0.5511	0.6578	5.5811
STYLE		0.6387	0.7647	0.8655	3.8403	0.4711	0.5955	0.7173	5.1800
		MSDialog				Opendialkg
Retrieval-based Conversational Search w/o CQ	BM25
	senBERT (Reimers and Gurevych, 2019)	0.4300 0.1533	0.5850	0.6200	5.9600	0.3964 0.0970	0.4713 0.2291	0.5330 0.3304	6.5683
	monoBERT (Nogueira and Cho, 2019)	0.1667	0.2833 0.3233	0.3500 0.4133	8.4567 8.0067	0.1850	0.3436	0.4273	8.4713 7.5638
	ChatSearch (Sun et al., 2023)	0.4922	0.6100	0.6378	5.6167	0.4504	0.5749	0.6344	5.4844
LLM-based methods w/CQ	ClarSim (Zhang and Choi, 2023)	0.4950	0.5817	0.6083	5.8783	0.4493	0.5771	0.6564	5.5507
	CLAM (Kuhn et al., 2022)	0.4950	0.5700	0.5933	6.0417	0.4515	0.5573	0.6189	5.6586
	CLAMzeroShot (Kuhn et al., 2022)	0.4633	0.5200	0.5300	6.7700	0.4478	0.5110	0.5595	6.5110
	ProCoT (Deng et al., 2023a)	0.4950	0.6067	0.6233	5.8067	0.4478	0.5653	0.6446	5.6858
STYLE		0.4956	0.6144	0.6511	5.5678	0.4559	0.6157	0.7004	5.2632

Table 2: Evaluation on unseen domains. We mark best results in bold and underline the second-best ones. We pemult su n me than .0Tet m i presented in the Appendix G.

STYLE 在未见领域表现优异: STYLE 在所有未见领域都取得了最准确的搜索结果 (最高的 SR@5)，并且通常在最少的轮次 (AvgT 最低) 内完成。
显著的性能提升: 平均而言，STYLE 在所有领域上，SR@5 比领先的 LLM-based 基线 ProCoT 高出约 10%。在 AvgT 方面，STYLE 在大多数领域也比基线领先约 5%。
在不同场景下的鲁棒性: 即使在澄清问题作用不那么关键的领域 (例如 MSDialog，其中 ChatSearch 的表现优于所有 LLM-based 方法，这表明可能不需要提问澄清问题)，STYLE 仍然超越了 ChatSearch。这进一步强调了 STYLE 在未见领域中强大的可迁移性。

6.1.2. RQ2: STYLE 是否生成针对不同领域的定制化策略？

本节通过比较 STYLE 与其在对应领域训练的版本 STYLE_inDomain (该版本策略是为特定领域量身定制的) 以及其他 LLM-based 基线来验证 STYLE 是否生成定制化策略。

$Figure 4: Strategy trajectory illustration on two best LLM-based methods. The $\\mathbf { X }$ -axis indicates the conversation turns. The Y-axis indicates the probability of asking. The strategy diversities is as follows STYLE: 0.9187, Pr0CoT: 0.6079, CLAM: 0.4459.$ 该图像是图表，展示了四个不同对话数据集（ClariQ、FaqAnt、Opendialogkg 和 MSDialog）中不同策略的表现。X 轴表示对话轮次，Y 轴表示提问的概率，其中策略的多样性依次为 STYLE: 0.9187, Pr0CoT: 0.6079, CLAM: 0.4459。

Figure 4: Strategy trajectory illustration on two best LLM-based methods. The $\mathbf { X }$ -axis indicates the conversation turns. The Y-axis indicates the probability of asking. The strategy diversities is as follows STYLE: 0.9187, Pr0CoT: 0.6079, CLAM: 0.4459.

LLM-based 基线的“一刀切”策略:
- 如 Figure 4 所示，ProCoT 的策略轨迹在不同领域保持一致，倾向于随着对话的进展提问更多问题。
- CLAM 也遵循统一策略，在所有轮次中保持一致的提问概率。
- 定量分析 (Table 3) 表明，LLM-based 基线的策略与 STYLE_inDomain 的策略对齐度有限，未能为不同领域定制策略。
  
  以下是原文 Table 3 的结果：
  
  Method DTWinDomain
  
  ClariQ FaqAnt MSDialog Opendialkg
  
  CLAM 3.8850 2.2735 2.4270 1.9885
  
  ProCoT 2.5955 2.4427 2.4432 5.17151.2939
  
  STYLE 0.5904 1.4819 0.0518

Method	DTWinDomain
CLAM	3.8850	2.2735	2.4270	1.9885
ProCoT	2.5955	2.4427	2.4432	5.17151.2939
STYLE	0.5904	1.4819	0.0518

Table 3: The DTW similarities to STYLEinDomain. Lower DTW corresponds to a better alignment with the strategy used in $\mathbf { S T Y L E } _ { i n D o m a i n }$ .

STYLE 产生多样化且定制化的策略:
- 如 Figure 4 所示，STYLE 展现出最高的策略多样性。
- STYLE 的澄清策略与 STYLE_inDomain 的策略高度对齐。例如，在 Opendialkg 上，STYLE 和 STYLE_inDomain 都倾向于在对话早期引入澄清问题，然后逐渐减少提问频率。
- Table 3 的定量结果进一步证实了 STYLE 与 STYLE_inDomain 之间更好的对齐度 (更低的 DTW 相似性)。
结论: STYLE 能够为不同领域定制策略，而非采用固定的“一刀切”方法。

6.1.3. RQ3: STYLE 在处理未见领域为何有效？

本节通过测量在每轮提问澄清问题所带来的益处 (asking benefits) 来探究 STYLE 有效性的原因。提问益处定义为目标文档在用户回答澄清问题后排名发生的变化。

$Figure 5: Illustration on the average gain and the probability of asking clarification questions. The $\\mathrm { X }$ -axis indicates the cvesain turs.The-axis (t)indicate theavere ski gai at each tur while the-axis ht) indicates the probability oski$ 该图像是一个示意图，展示了不同方法在询问澄清问题时的平均增益和概率。横坐标表示转数，纵坐标分别表示在每个转数下的平均增益和询问澄清问题的概率。其中，STYLE 方法显示出在多个领域的有效迁移能力。

Figure 5: Illustration on the average gain and the probability of asking clarification questions. The $\mathrm { X }$ -axis indicates the cvesain turs.The-axis (t)indicate theavere ski gai at each tur while the-axis ht) indicates the probability oski

不同领域的提问收益差异: 如 Figure 5 所示，所有方法在不同领域从提问中获得的收益 (asking benefits) 表现出多样性。这表明有效的策略必须适应不同领域的需求。
基线方法未能适应收益波动:
- CLAM 在整个对话过程中保持一致的提问概率。
- 然而，在 MSDialog 和 FaqAnt 上，提问收益在第 2 轮后显著下降，但 CLAM 未能调整其策略来适应这种波动。
STYLE 的精确控制和适应能力:
- STYLE 展示了对其策略的精确控制，能够逐轮调整以适应收益的波动。
- 在 ClariQ 上，提问收益逐渐下降，STYLE 随之降低了提问概率。
- 在 MSDialog 上，提问收益一直保持在较低水平 (约 -20)，STYLE 则策略性地将提问概率限制在所有轮次的最低水平。
结论: STYLE 相比其他基线展现出更定制化的策略。它能够根据特定领域的需求灵活调整策略，从而最大化提问澄清问题的益处，并增强其在未见领域中的性能。这证实了其领域可迁移性源于其多样化的定制策略。

6.2. 消融实验/参数分析

本文进行消融实验来评估 STYLE 中各个组件的贡献。

以下是原文 Table 4 的结果：

Method	SR@5↑ AvgT↓		SR@5↑ AvgT↓		SR@5↑ AvgT↓		SR5↑ AvgT↓
Method	ClariQ		FaqAnt		MSDialog		Opendialkg
STYLE	0.8655	3.8403	0.7173	5.1800	0.6511	5.5678	0.7004	5.2632
(a) - w/o DISP planner	0.7563	4.4986	0.6578	5.5811	0.6233	5.8067	0.6446	5.6858
(b) - w/ 1 domain	0.8291	4.0111	0.7133	5.1867	0.6407	5.6320	0.6799	5.3759
(c) - w/ 2 domains	0.8488	3.9188	0.6889	5.4222	0.6433	5.5933	0.6578	5.4479
(d) - w/o documents	0.8151	4.1639	0.7317	5.0950	0.6417	5.6250	0.6394	5.5707
(e) - w/o doc scores	0.7647	4.3908	0.6434	5.6350	0.6484	5.5750	0.6410	5.4956
(f) - w/o CoT	0.8319	4.0210	0.7167	5.2167	0.6456	5.5978	0.6806	5.4449

Table 4: Ablation evaluation. DISP is the key predictor of domain transferability. MDT's training dataset and domain-invariant input also matters. The contribution of CoT is minimal.

DISP 的重要性: Table 4 的第 (a) 行显示，移除 DISP 导致性能下降幅度最大。这突显了 DISP 在 STYLE 中的关键作用，它能够有效提取领域不变信息，从而促进领域可迁移性。
MDT 训练源的贡献:
- Table 4 的第 (b) 和 (c) 行显示，当用于训练的数据集种类减少时（例如，从多领域训练减少到只使用 1 个或 2 个领域），STYLE 的性能显著下降。
- 这强调了在足够多样化的领域上训练 STYLE 的必要性，以确保其在未见领域中的可迁移性。
DISP 领域不变输入的重要性:
- Table 4 的第 (d) 行显示，从 DISP 的输入中排除检索到的文档 $D_t$ 会导致大多数领域性能下降。
- 第 (e) 行显示，移除文档分数 $score_t^{1:k}$ 会损害所有测试领域的性能。这表明检索分数作为领域不变信息，能够指示检索模型的置信度和文档的相关性，从而帮助 DISP 做出更明智的决策。
提示设计 (CoT) 的影响:
- Table 4 的第 (f) 行比较了使用 CoT 和更直接的 in-context learning 两种提示设计。结果表明，虽然 CoT 有益，但即使没有 CoT，STYLE 仍保持卓越性能。这验证了 STYLE 方法本身的鲁棒性，即使 LLM-based Generator 的提示设计有所简化，其核心优势依然存在。

6.3. 域内训练分析 (In-domain Training Analysis)

本节评估了 STYLE 在有域内训练数据和无域内训练数据时的表现，并与监督基线进行比较。

以下是原文 Table 6 的结果：

Method	SR@5↑	AvgT↓		SR@5↑	AvgT↓	SR@5↑	AvgT↓	SR5↑	AvgT↓
Method	ClariQ		FaqAnt	SR@5↑	AvgT↓	SR@5↑	AvgT↓	SR5↑	AvgT↓	MSDialog	Opendialkg
senBERTinDomain	0.6975	5.0672		0.6067	6.0567	0.6000	6.2600	0.5242	6.6167
monoBERTinDomain	0.6555	5.5462		0.6643	5.6710	0.5934	6.3700	0.5286	6.4669
STYLEinDomain	0.8739	3.6303		0.7233	5.1733	0.6400	5.6133	0.7269	5.1277
STYLE	0.8655	3.8403		0.7173	5.1800	0.6511	5.5678	0.7004	5.2632

Table 6: In-domain analysis. The subscript inDomain indicates that this method was trained on the same unseen domain where the evaluation is performed. We mark the best performance in bold and the second-best performance in underline.

STYLE_inDomain 的优势: 当未见领域有足够的训练数据时，STYLE_inDomain (即 STYLE 在该目标领域进行训练的版本) 显著优于监督式检索方法 (senBERT_inDomain, monoBERT_inDomain)。这表明 STYLE 方法本身具有更高的性能上限。
STYLE 的鲁棒可迁移性: STYLE (未在特定目标域训练) 在搜索性能上超越了现有监督方法，即使这些监督方法在目标域内有训练数据。这强调了 STYLE 不依赖于领域特定训练，并且具有强大的鲁棒可迁移性，使其能够高效应用于未见领域。

6.4. 人类评估 (Human Evaluation)

为了严格评估澄清问题的质量，本文对 STYLE、ProCoT 和 CLAM 生成的澄清问题进行了人工评估。

Figure 7: The human evaluation results of the quality of clarification questions. The y-axis represents the number of samples preferred by human judges. 该图像是图表，展示了STYLE、ProCoT和CLAM在帮助性和意图一致性上的评估结果。图中左侧为STYLE和ProCoT的比较，右侧为STYLE与CLAM的比较，y轴表示评估得分。

Figure 7: The human evaluation results of the quality of clarification questions. The y-axis represents the number of samples preferred by human judges.

评估设置: 随机选择了 100 个由 STYLE、ProCoT 和 CLAM 生成的澄清问题实例，其中包含对话上下文、检索到的文档和用户意图信息。三名独立评估者根据两个标准进行评分：
1. 帮助性 (Helpfulness): 问题是否信息丰富，并有可能从用户那里获取有价值的信息。
2. 意图一致性 (Intent Consistency): 问题是否包含与用户意图相关的元素（如关键词）。
评估者一致性: Fleiss' Kappa 分数显示，Helpfulness 为 0.517 (中等一致性)，Intent Consistency 为 0.782 (实质性一致性)。
评估结果: 如 Figure 7 所示，STYLE 生成的澄清问题在帮助性和意图一致性方面均优于 ProCoT 和 CLAM。这表明 STYLE 生成的问题在提供信息和与用户意图对齐方面更为出色。

6.5. 运行时分析 (Runtime Analysis)

为了验证 STYLE 不会引入额外的运行时开销，本文评估了不同方法在每轮对话的平均运行时间。

以下是原文 Table 7 的结果：

Method	Runtime Per Turn ↓
ClarSim	3.3355s
CLAMzeroShot	2.1435s
CLAM	1.8269s
ProCoT	2.6375s
STYLE	1.5773s

Table 7: The runtime analysis. STYLE takes only 1.5773 seconds on average per turn, which is less than other methods.

STYLE 的运行时优势: Table 7 显示，STYLE 每轮平均仅需 1.5773 秒，这比其他 LLM-based 方法都要少。
原因: STYLE 使用了轻量级的 DISP 作为策略模块，而不是其他方法中常用的参数密集型 LLMs。因此，STYLE 的额外组件显著减少了执行时间，实现了效率提升。

7. 总结与思考

7.1. 结论总结

本文深入研究并强调了现有基于大语言模型 (LLMs) 的会话代理在提问澄清问题时面临的“一刀切”策略问题，该问题严重阻碍了它们在未见领域 (unseen domains) 的可迁移性。为了克服这一限制，论文提出了名为 STYLE 的新方法，其核心包含两个创新组件：

域不变策略规划器 (DISP): 负责提取通用的、结构化的领域不变信息，以缓解领域特定表示分布不匹配的问题。
多领域训练范式 (MDT): 借鉴人口基训练的思想，通过在多个多样化领域进行训练，鼓励 DISP 学习并生成针对不同领域定制化的策略。

通过在四个不同领域的基准数据集上进行的全面实验，结果有力地证明了 STYLE 具有强大的领域可迁移性，在未见领域平均实现了约 10% 的搜索性能提升。进一步的分析表明，STYLE 的有效性主要归因于其能够根据不同领域的需求量身定制策略，而非采用僵化的通用策略。STYLE 为未来会话代理在复杂多变环境下的高效、鲁棒部署奠定了基础。

7.2. 局限性与未来工作

论文作者指出了以下局限性：

会话搜索场景的范围: 由于会话搜索涵盖问答 (QA)、检索和推荐等多种场景，本文的研究主要集中在会话检索 (conversational retrieval) 场景。若要对澄清问题模块进行全面的分析，需要涵盖所有搜索设置，但这将显著增加实验工作量并偏离当前的核心研究问题。
未见领域测试集的数量: 为了验证 STYLE 在未见领域的性能，理论上需要多个未见数据集作为测试集。然而，考虑到巨大的实验工作量，本文在进行域外训练模型评估时，每次只使用一个数据集作为未见领域测试集。

基于这些局限性，作者提出了未来的研究方向：
扩展到其他会话搜索形式: 未来工作将把研究范围扩展到涵盖问答、推荐等其他形式的会话搜索。
增加未见领域测试集数量: 在未来的工作中，将考虑同时使用多个数据集作为测试集，以更全面地评估模型在未见领域的可迁移性。

7.3. 个人启发与批判

7.3.1. 个人启发

领域不变性是跨领域泛化的关键: 本文明确指出并成功利用了“领域不变信息”来构建策略规划器，这为解决领域漂移问题提供了重要的思路。在很多跨领域任务中，除了领域特定的知识，往往存在一些通用的、结构化的信息可以被有效利用，这值得在其他领域泛化任务中借鉴。
多领域训练的有效性: “人口基训练”的思想在强化学习中被证明能够提高泛化能力，本文将其应用于多领域会话策略学习，进一步证实了通过多样化训练来提升模型鲁棒性和可迁移性的价值。这对于资源有限、难以获取大量特定领域标注数据的场景尤其有意义。
轻量级策略规划器与 LLM 结合的优势: STYLE 使用一个轻量级的 MLP 作为策略规划器 (DISP)，而非直接依赖参数量巨大的 LLM 来做决策，这显著降低了运行时开销，同时仍然能利用 LLM 的强大理解和生成能力。这种“小模型做决策，大模型做内容生成”的协作模式，为实际部署中平衡性能和效率提供了实用范式。
“一刀切”策略的危害: 论文通过实验清楚地揭示了现有 LLM-based 方法在未见领域中“一刀切”策略的局限性。这提醒我们在设计智能系统时，要警惕表面上的“通用性”可能带来的深层问题，并主动寻求定制化和适应性方案。

7.3.2. 批判

“领域不变信息”的定义和普适性: 虽然论文提出了“排名分数”作为领域不变信息，并取得了良好效果，但其定义和理论边界仍有待更深入的探讨。在其他更复杂的任务或领域中，如何识别和提取真正具有普适性的“领域不变信息”可能是一个挑战。排名分数虽然相对中立，但它本身也可能受到检索模型对领域特定语义理解的影响。
DISP 内部机制的透明度: 论文将 DISP 描述为一个“两层全连接网络”，但并未深入探讨其内部结构、激活函数选择以及它如何具体地从拼接的输入中“提取”领域不变表示。更详细的分析或可视化可以增强模型的可解释性。
用户模拟器的依赖性: 论文依赖 LLM-based 用户模拟器进行强化学习训练。虽然 LLM 模拟器具有灵活性，但其模拟的用户行为是否足够真实、多样，以及它自身可能存在的偏见，都可能影响训练出的策略。若模拟器未能捕捉到真实用户行为的复杂性，模型的泛化能力可能会受限。
实验评估的广度:
- 测试集数量: 作者自己也承认了实验局限性，即每个域外训练模型只用一个数据集作为未见测试集。如果能在更多不同类型和数量的未见领域上进行测试，将进一步增强结论的说服力。
- 澄清问题生成质量: 尽管进行了人工评估，但澄清问题的“帮助性”和“意图一致性”仍然是相对主观的指标。如果能结合用户满意度调查或 A/B 测试等更贴近真实用户体验的评估，将更有说服力。
LLM-based Generator 的影响: 论文提到 CoT 对 STYLE 性能有益但不是决定性因素，这表明 LLM-based Generator 生成澄清问题本身的质量，以及这些问题如何引导用户反馈，也是影响整体性能的关键。这部分没有更深入的消融或分析。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。