Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs
TL;DR 精炼摘要
本文提出Learn-to-Ask框架,通过利用离线专家日志中的观察未来,重塑离线策略学习,实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励,有效分解长时程任务,并辅以自动化评分校准,在医疗领域展现优异性能,成功部署在线服务。
摘要
Large Language Models (LLMs) excel as passive responders, but teaching them to be proactive, goal-oriented partners, a critical capability in high-stakes domains, remains a major challenge. Current paradigms either myopically optimize single-turn attributes or rely on brittle, high-cost user simulators, creating a persistent ``reality gap''. To bridge this gap, we introduce \texttt{Learn-to-Ask}, a general, simulator-free framework for learning and deploying proactive dialogue agents \textit{directly from offline expert data}, bypassing the need to model complex user dynamics. Our key insight is to reframe the offline policy learning problem by leveraging the \textbf{observed future} of each expert trajectory. This allows us to infer a dense, turn-by-turn reward signal grounded in the expert's revealed strategy, decomposing the intractable long-horizon problem into a series of supervised learning tasks, and training a policy to output a structured \texttt{(action, state_assessment)} tuple, governing both \textbf{what to ask} and, crucially, \textbf{when to stop}. To ensure reward fidelity, our Automated Grader Calibration pipeline systematically purges noise from the LLM-based reward model with minimal human supervision. Empirically, we demonstrate the efficacy of \texttt{Learn-to-Ask} in a real-world medical dataset, using LLMs of varying sizes up to 32B. Our approach culminates in the successful deployment of LLMs into a live, large-scale online AI service. In rigorous in-house evaluations, our model was launched and achieved performance even superior to human experts, proving our framework's ability to translate offline data into tangible, real-world impact. We hope this work provides a practical and economically viable blueprint for transforming passive LLMs into proactive, goal-oriented LLM applications.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs (扎根现实:从离线日志中学习和部署主动式大型语言模型)
1.2. 作者
Fei Wei*, Daoyuan Chen*, Ce Wang†, Yilun Huang†, Yushuo Chen, Xuchen Pan, Yaliang Li‡, Boling Ding‡ 作者主要来自阿里巴巴集团(Alibaba Group)。
1.3. 发表期刊/会议
该论文作为预印本(preprint)发布于 arXiv。
1.4. 发表年份
2025年。
1.5. 摘要
大型语言模型(Large Language Models, LLMs)在作为被动响应者方面表现出色,但要将它们训练成主动的、目标导向的合作伙伴——这在高风险领域 (high-stakes domains) 是一项关键能力——仍然是一个重大挑战。当前的范式要么短视地 (myopically) 优化单轮 (single-turn) 属性,要么依赖于脆弱且成本高昂的用户模拟器 (user simulators),从而造成了一个持续存在的“现实差距 (reality gap)”。
为了弥合这一差距,本文引入了 Learn-to-Ask,这是一个通用的、无模拟器 (simulator-free) 框架,用于直接从离线专家数据 (directly from offline expert data) 中学习和部署主动式对话智能体 (dialogue agents),从而绕过了对复杂用户动态建模的需求。其关键洞察在于通过利用每个专家轨迹的“观察到的未来 (observed future)”来重新定义离线策略学习 (offline policy learning) 问题。这使得研究人员能够推断出植根于专家所揭示策略的密集、逐轮奖励信号 (turn-by-turn reward signal),将难以处理的长时程 (long-horizon) 问题分解为一系列监督学习任务,并训练策略输出一个结构化的 (action, state_assessment) 元组 (tuple),同时管理“问什么 (what to ask)”以及更关键的“何时停止 (when to stop)”。
为确保奖励的忠实性,本文的自动化评分器校准 (Automated Grader Calibration) 流水线通过最少的人工监督系统地清除基于 LLM 的奖励模型中的噪声。在经验上,本文在真实的医疗数据集中展示了 Learn-to-Ask 的有效性,使用了最高达 32B 参数的不同大小的 LLMs。该方法最终成功地将 LLMs 部署到一个实时的、大规模的在线 AI 服务中。在严格的内部评估中,该模型上线后甚至取得了优于人类专家的表现,证明了该框架将离线数据转化为实际、现实世界影响的能力。本文希望这项工作能为将传统的被动式 LLMs 转化为主动的、目标导向的 LLM 应用提供一个实用且经济可行的蓝图。
1.6. 原文链接
原文链接:https://arxiv.org/abs/2510.25441 PDF 链接:https://arxiv.org/pdf/2510.25441v1.pdf 发布状态:预印本(Preprint),发布于 2025-10-29T12:08:07.000Z。
2. 整体概括
2.1. 研究背景与动机
核心问题: 如何将大型语言模型(LLMs)从被动响应者转变为主动的、目标导向的对话合作伙伴,尤其是在医疗、法律、金融等高风险领域?
问题重要性: 在高风险领域,LLMs 不仅仅需要回答问题,更需要能够主动收集信息、引导对话以达成特定目标,例如在医疗问诊中主动询问关键症状以进行诊断。当前 LLMs 的被动性限制了其作为真正协作式和主动式合作伙伴的潜力。
现有研究的挑战与空白:
- 短视优化 (Myopic Optimization): 现有方法通常只优化单轮 (single-turn) 对话的局部属性(如清晰度、相关性),未能学习到考虑对话时间依赖性的连贯序贯策略 (sequential policy)。它们缺乏决定何时停止对话的原则性机制,这对于效率和用户体验至关重要。
- 现实差距 (Reality Gap): 另一种方法是使用用户模拟器 (user simulator) 来优化长时程奖励 (long-horizon rewards)。然而,对于开放式、专家级领域,构建高保真的用户模拟器极其困难、计算成本高昂,并面临状态组合爆炸 (combinatorial explosion of states) 的问题。在合成环境中优化的策略往往难以泛化到真实人类交互的不可预测性,从而无法弥合“现实差距”。
本文的切入点/创新思路:
本文提出了一个根本性问题:我们能否直接从离线专家数据 (directly from offline expert data) 中学习到有效的、长时程的提问策略,从而绕过模拟器并弥合现实差距?本文以肯定的答案回应了这一问题,并提出了 Learn-to-Ask 框架。
2.2. 核心贡献/主要发现
本文的核心贡献和主要发现可以归纳为以下三点:
-
无模拟器的策略学习框架 (A Simulator-Free Policy Learning Framework):
- 提出了
Learn-to-Ask框架,能够直接从离线专家对话日志中学习完整的序贯提问策略 (sequential questioning policy),包括停止条件 (stopping condition)。 - 该框架通过利用每个专家轨迹的“观察到的未来 (observed future)”来重构问题,将难以处理的离线强化学习(RL)问题分解为一系列可解决的监督学习任务。
- 提供了一种基于数据驱动、接地气且经济可行的替代方案,避免了脆弱的用户模拟器。
- 提出了
-
基于回溯的奖励推断与校准 (Hindsight-based Reward Inference with Calibration):
- 引入了一种方法,通过利用专家轨迹的“观察到的未来 (observed future)”来推断密集、逐轮的奖励信号。这使得奖励信号能够植根于专家实际表现出的策略。
- 设计了一个自动化评分器校准 (Automated Grader Calibration) 流水线,通过最少的人工监督,系统地清除基于 LLM 的奖励模型中的噪声,确保了奖励的忠实性和准确性。
- 策略被训练以输出一个结构化的
(action, state_assessment)元组,同时解决“问什么”和“何时停止”这两个关键决策。
-
现实世界影响的验证 (Demonstrated Real-World Impact):
- 不仅通过离线实验(在
RealMedConv医疗数据集上,使用最高达 32B 参数的 LLMs)验证了框架的有效性,将 LLMs 转化为战略性智能体。 - 更重要的是,成功地将
Learn-to-Ask训练的模型部署到一个大规模的商业在线 AI 服务中,并在内部严格评估中,取得了甚至优于人类专家的任务成功率 (task-success rates),证明了其将离线数据转化为实际、现实世界价值的能力,弥合了“现实差距”。
- 不仅通过离线实验(在
3. 预备知识与相关工作
本部分旨在为读者铺垫理解论文所需的前置知识,并对比其与现有工作的异同。
3.1. 基础概念
-
大型语言模型 (Large Language Models, LLMs):
- 概念定义: LLMs 是指拥有数亿到数万亿参数的深度学习模型,它们在海量文本数据上进行预训练,学习语言的统计模式、语法、语义和世界知识。它们通常基于
Transformer架构,能够理解和生成自然语言文本。 - 在本文中的作用: LLMs 在作为被动响应者(即回答问题)方面表现出色,但本文旨在解决它们在主动引导对话、实现特定目标方面的局限性。在
Learn-to-Ask框架中,LLMs 被用作信息抽取器、奖励评分器以及最终的策略生成器。
- 概念定义: LLMs 是指拥有数亿到数万亿参数的深度学习模型,它们在海量文本数据上进行预训练,学习语言的统计模式、语法、语义和世界知识。它们通常基于
-
强化学习 (Reinforcement Learning, RL):
- 概念定义: RL 是一种机器学习范式,智能体 (agent) 通过与环境 (environment) 交互来学习最优行为策略,以最大化累积奖励。智能体在每个时间步观察环境状态 (state),执行一个动作 (action),然后环境会根据该动作返回一个奖励 (reward) 和新的状态。
- 在本文中的作用: 本文将主动式对话任务形式化为一个序贯决策问题,本质上是一个 RL 问题。然而,传统的 RL 方法需要与环境(用户)进行大量交互,这在真实对话场景中不切实际。
-
离线强化学习 (Offline Reinforcement Learning, Offline RL):
- 概念定义: 离线 RL(也称为批量 RL)是一种 RL 设置,其中智能体只能从一个固定的、预先收集好的数据集(通常是专家或次优策略与环境交互产生的日志)中学习,而不能与环境进行实时的探索性交互。
- 在本文中的作用:
Learn-to-Ask框架的核心就是解决从离线专家对话日志中学习策略的问题,从而避免了在线交互和用户模拟器的需求。
-
马尔可夫决策过程 (Markov Decision Process, MDP):
- 概念定义: MDP 是一个用于对序贯决策问题进行数学建模的框架。它由以下几个关键元素组成:
- 状态 (State) : 智能体所处的环境状态。
- 动作 (Action) : 智能体在给定状态下可以采取的行动。
- 转移概率 (Transition Probability) : 在状态 采取动作 后,环境转移到新状态 的概率。
- 奖励函数 (Reward Function)
R(s, a, s'): 在状态 采取动作 并转移到 后获得的即时奖励。 - 策略 (Policy) : 智能体在给定状态 下采取动作 的概率分布。
- 在本文中的作用: 本文将主动式对话形式化为一个 MDP,其中对话历史是状态,智能体的提问和停止决策是动作。
- 概念定义: MDP 是一个用于对序贯决策问题进行数学建模的框架。它由以下几个关键元素组成:
-
监督学习 (Supervised Learning):
- 概念定义: 监督学习是一种机器学习范式,模型从带有标签的训练数据中学习输入到输出的映射关系。目标是预测新数据点的标签。
- 在本文中的作用:
Learn-to-Ask的核心思想之一是将复杂的离线 RL 问题分解为一系列可管理的监督学习任务,通过从专家轨迹中推断出的“回溯目标”作为标签。
-
微调 (Fine-tuning, FT):
- 概念定义: 微调是在一个大型预训练模型(如 LLM)的基础上,使用较小的、特定任务的数据集进一步训练模型的过程。这有助于将模型的通用知识适应到特定领域的细节和任务要求。
- 在本文中的作用:
Learn-to-Ask框架中训练的策略本质上是基于 LLM 进行微调的,通过强化微调(RFT)来优化。
-
指令微调 (Supervised Fine-tuning, SFT) / 行为克隆 (Behavioral Cloning):
- 概念定义: SFT 是一种常见的微调方法,模型通过学习大量的
(指令, 响应)对来模仿人类的行为。在对话系统中,这意味着模型学习在给定对话历史(指令)时生成下一个专家响应。它本质上是一种行为克隆。 - 在本文中的作用: SFT 被用作基线模型,本文指出其局限性在于“短视”,只能模仿单一路径,难以泛化到专家策略的灵活性。
- 概念定义: SFT 是一种常见的微调方法,模型通过学习大量的
-
直接偏好优化 (Direct Preference Optimization, DPO):
- 概念定义: DPO 是一种基于人类偏好反馈的强化学习算法,用于对齐(alignment)大型语言模型。它通过直接优化策略以匹配人类对模型生成文本的偏好(例如,选择更好的响应而不是更差的响应),而无需显式的奖励模型。
- 在本文中的作用: DPO 也被用作基线模型,本文指出其局限性在于单一的二元偏好信号不足以指导双重目标的学习(问什么和何时停止),且在复杂专家数据中容易遇到偏好模糊性。
-
回溯经验回放 (Hindsight Experience Replay, HER):
- 概念定义: HER 是一种用于稀疏奖励强化学习的技术。在智能体未能实现预期目标的情况下,它通过将失败的轨迹重新标记为“已实现某个目标”(即轨迹中实际达到的状态),从而生成额外的成功经验。这使得智能体即使在不成功的回合中也能学习到有用的策略。
- 在本文中的作用:
Learn-to-Ask的核心思想——“利用观察到的未来来定义逐轮目标”——与 HER 在哲学上是相关的,但本文将其扩展到自然语言对话的复杂高维空间,并增加了明确的停止条件。
3.2. 前人工作
本文将主动式 LLM 智能体的演进路线分为几个阶段,并在此基础上突出自身贡献:
-
作为主动式智能体的 LLM 的演进:
- 早期对话系统: 早期通过基于规则或统计方法探索主动行为,通常在狭窄领域(Deng et al., 2023a; Ling et al., 2025)。
- LLM 时代: LLM 出现后,通过
prompting来激发主动行为,例如提问澄清问题(Deng et al., 2023b; Zhao & Dou, 2024)或发起话题(Liao et al., 2023)。 - 本文差异: 这些方法缺乏从数据中学习复杂、领域特定策略的适应性,而本文的训练框架直接解决了这一空白。
-
LLM 单轮属性对齐:
- 方法: 聚焦于通过定义期望属性(如相关性、清晰度、安全性)并利用偏好数据(通常是合成数据)来微调模型,以对齐这些属性(Zhou et al., 2022; Li et al., 2025b; Qian et al., 2023; Xu et al., 2025)。
DPO及其变体在此类局部优化中表现出色。 - 本文差异: 这些方法并非为学习长时程、有状态的策略而设计。本文的工作通过序贯地构建问题,学习的不仅仅是“问什么”,还有关键的、依赖于策略的“何时停止”决策。
- 方法: 聚焦于通过定义期望属性(如相关性、清晰度、安全性)并利用偏好数据(通常是合成数据)来微调模型,以对齐这些属性(Zhou et al., 2022; Li et al., 2025b; Qian et al., 2023; Xu et al., 2025)。
-
通过模拟和强化学习进行 LLM 对齐:
- 方法: 为解决序贯决策问题,一些工作在模拟环境中采用强化学习(Xu et al., 2023; Wu et al., 2025)。智能体与用户模拟器交互,以最大化长期奖励。
- 主要局限: 模拟器本身是主要瓶颈。为复杂、开放式领域(如医疗咨询)创建高保真模拟器是一项巨大的未解决挑战(Hao et al., 2024)。在模拟中训练的策略通常会过度拟合模拟器的特性,导致在现实世界中表现不佳,即所谓的“现实差距 (reality gap)”。
- 本文差异:
Learn-to-Ask框架是无模拟器 (simulator-free) 的,直接从离线专家轨迹中学习,确保了现实世界的适用性。
-
从人类数据进行离线 RL:
- 哲学一致性: 本文工作与从人类参与数据中进行离线强化学习在哲学上是一致的(Shi et al., 2024; Shani et al., 2024; Zhou et al., 2024)。
- 本文核心挑战: 与标准离线 RL 假设固定奖励函数不同,本文的关键挑战是从专家行为中推断奖励信号本身。
- 本文方法论差异: 本文的方法通过将长轨迹分解为单轮决策,并利用真实对话的“观察到的未来”作为事实依据,推断出细粒度、轮级的奖励,从而实现更精确和数据高效的策略学习。
-
与回溯和目标条件学习的联系:
- 哲学关联: 本文利用“观察到的未来”来定义轮级目标的方法与
Hindsight Experience Replay (HER)在哲学上是相关的(Andrychowicz et al., 2017)。HER 通过用轨迹后期实现的目标重新标记过去的经验,以提高稀疏奖励 RL 中的样本效率。 - 本文关键区别:
- 本文将这一概念应用于自然语言对话的复杂高维空间,其中目标不是简单的状态向量,而是必须由 LLM 动态提取的结构化语义信息集 ()。
- 标准 HER 侧重于达到目标状态,而本文的框架学习一个完整的策略,包括一个明确的、数据驱动的停止条件 (),解决了“何时达成目标”这一关键问题。
- 总结: 本文的工作可以看作是对回溯学习范式在主动式 LLM 智能体领域的一次新颖适应和显著扩展。
- 哲学关联: 本文利用“观察到的未来”来定义轮级目标的方法与
3.3. 技术演进
主动式对话智能体的技术演进大致经历了从规则、统计方法到基于 LLM 的提示工程,再到通过微调实现对齐,以及利用模拟器进行强化学习的阶段。
- 早期主动式对话系统 (Pre-LLM Era): 早期系统主要依靠硬编码规则、状态机或统计模型来识别用户意图并生成主动性回复,例如问澄清问题。这些系统通常只在特定、狭窄的领域内有效,并且缺乏泛化能力。
- LLM 时代的初步探索 (Early LLM Era): 随着 LLM 的兴起,研究人员开始利用其强大的语言理解和生成能力。最初的方法是通过精心设计的
prompt(提示词)来引导 LLM 表现出主动性,例如让 LLM 自己提问以获取更多信息。这种方法虽然灵活,但其主动性行为很大程度上受限于prompt的设计,且难以学习到复杂的、长期的对话策略。 - 单轮属性对齐 (Single-Turn Attribute Alignment): 进一步发展是利用人类反馈或合成数据对 LLM 进行微调,以优化其在单轮对话中的某些属性,如清晰度、相关性、安全性等。
DPO等算法在此类任务中取得了成功,但其本质是局部优化,无法处理对话中的长期依赖性和何时停止的决策。 - 基于模拟器的强化学习 (Simulator-based RL): 为了解决对话的序贯决策性质,一些研究尝试将 LLM 智能体置于模拟用户环境中,通过强化学习来优化其长期表现。智能体通过与模拟用户交互,学习在不同对话状态下采取何种行动能最大化最终奖励。然而,模拟器本身的构建是一个巨大挑战,特别是对于开放式、高风险领域,这导致了“现实差距”问题。
- 本文的创新路径 (Learn-to-Ask):
Learn-to-Ask代表了技术演进中的一个关键突破。它认识到当前方法的局限性,并提出了一条无模拟器 (simulator-free) 且直接从离线专家数据 (directly from offline expert data) 中学习主动式对话策略的路径。通过“回溯”专家行为,将复杂的 RL 问题转化为监督学习问题,并结合细粒度的奖励机制,实现了对“问什么”和“何时停止”的有效学习,并成功部署到真实世界。
3.4. 差异化分析
Learn-to-Ask 框架与相关工作中的主要方法相比,其核心区别和创新点体现在以下几个方面:
-
与短视优化(SFT, DPO)的对比:
- 核心区别: SFT 和 DPO 专注于单轮 (single-turn) 优化或局部属性对齐,缺乏对长时程 (long-horizon) 对话策略的建模。SFT 倾向于行为克隆 (behavioral cloning),模仿专家在特定状态下的单一动作,而 DPO 基于局部偏好 (local preferences)。
Learn-to-Ask的优势: 本文的方法通过将长时程 RL 问题分解为一系列监督任务,并利用“观察到的未来 (observed future)”推断逐轮奖励,从而能够学习一个完整的序贯策略 (sequential policy),包括关键的“何时停止 (when to stop)”决策。它从专家对话的整体目标中提取学习信号,而非仅依赖于即时动作或局部偏好。
-
与基于用户模拟器的 RL 方法的对比:
- 核心区别: 基于模拟器的方法需要构建高保真的用户模拟器,这在开放式、专家级领域(如医疗)几乎是不可能完成的任务,且训练出的策略容易过度拟合模拟器,导致“现实差距 (reality gap)”。
Learn-to-Ask的优势: 本文方法是无模拟器 (simulator-free) 的,直接从真实的离线专家对话日志 (offline expert conversation logs) 中学习。这确保了所学习策略的接地气 (grounded) 性和在现实世界中的直接适用性,避免了模拟器带来的不可靠性。
-
与标准离线 RL 的对比:
- 核心区别: 标准离线 RL 通常假设存在一个固定的奖励函数,并面临外推误差 (extrapolation error) 和值函数不稳定估计 (unstable value estimation) 等挑战。
Learn-to-Ask的优势: 本文的关键在于推断奖励信号本身 (inferring the reward signal itself)。通过基于“回溯”的奖励推断,将复杂的 RL 问题转化为监督学习 (supervised learning) 任务,从而避免了值函数估计的困难和不稳定。它提供了一个更稳定和直接的学习过程。
-
与
Hindsight Experience Replay (HER)的对比:-
核心区别: HER 专注于通过重新标记失败轨迹中的目标来提高稀疏奖励 RL 的样本效率,其目标通常是简单的状态向量。
-
Learn-to-Ask的优势: 本文将Hindsight概念扩展到复杂的自然语言对话空间,其中目标是结构化的语义信息集 (),需要由 LLM 动态提取。更重要的是,本文框架学习一个完整的策略,包括一个明确的、数据驱动的停止条件 (),解决了何时达成目标的实际决策问题。综上,
Learn-to-Ask通过其独特的回溯式奖励推断机制和无模拟器的设计,成功地弥补了现有方法在学习主动式、目标导向的 LLM 策略方面的不足,并在真实世界中实现了卓越性能。
-
4. 方法论
本节将详细拆解 Learn-to-Ask 框架的方法论,从问题形式化到策略优化,深入探讨其核心思想和实现细节。
4.1. 问题形式化:主动式对话作为离线强化学习
本文将主动式、目标导向的对话任务形式化为一个序贯决策问题 (sequential decision-making problem)。智能体的目标是从静态的、离线专家对话数据集 中学习一个策略 (policy) 。
-
每个轨迹 (trajectory) 代表一次完整的对话,表示为 。
- 是用户在第 轮的话语 (utterance)。
- 是智能体在第 轮的话语 (utterance)。
-
在每个轮次 ,策略 观察到截止到该点的对话历史 (conversation history) ,并生成一个结构化的话语元组 (tuple) 。
- 是一个旨在收集新信息的自然语言问题 (natural language question)。
- 是一个离散的状态评估 (state assessment),取值为 ,表示智能体是否认为对话目标已达成。
-
因此,策略被定义为 。所学习的策略应模仿专家的策略,以有效且高效地完成潜在任务(例如,医疗诊断)。
这个问题可以被正式建模为在马尔可夫决策过程(Markov Decision Process, MDP)中从离线数据中学习,包含以下关键组成部分:
-
状态 (State): 对话历史 。
-
动作 (Action): 智能体的结构化话语 。
-
转移动态 (Transition Dynamics)
( P ): 未知的用户响应动态,它控制着状态转移P ( C _ { t } | C _ { t - 1 } , a _ { t } ),其中新状态 是通过将智能体的问题 和用户随后的回应 附加到历史 而形成的。 -
奖励函数 (Reward Function)
( R ): 隐式指导专家行动的未知奖励函数。本文方法论解决的核心挑战是:在离线设置中运行(无法查询 ),并且必须直接从数据集 中的专家轨迹推断奖励函数 。
4.2. 超越短视模仿的动机
专家主导的对话并非僵硬的脚本,而是为了达到目标而灵活地遍历底层信息空间。例如,两位医生诊断同一位患者时,可能会以不同的顺序提问,但他们的目标是涵盖相似的关键信息点。这种战略灵活性是专业知识的标志。
概念上: 一个目标导向的对话可以被视为遍历一个隐式信息图 (implicit information graph),以覆盖一组关键节点。
从这个角度看,先前方法的局限性变得清晰:
-
SFT (Supervised Fine-Tuning) 的局限性: SFT 短视地学习一条单一路径,无法泛化到替代的有效策略。它无法理解在不同语境下,即使是不同的提问顺序,也能达到相同的目标。它优化的是局部属性,无法学习到考虑对话时间依赖性的连贯序贯策略。
-
DPO (Preference-based methods) 的局限性: DPO 方法面临模糊性,因为偏好是路径依赖 (path-dependent) 的,并且在聚合不同的专家轨迹数据集时可能会产生冲突的信号。例如,对于相同的状态,如果专家采取了不同的有效路径,DPO 可能会收到相互矛盾的偏好信号,使其难以学习一致的、全局最优的策略。
为了捕捉长期策略,本文采用了离线强化学习 (offline RL) 框架。然而,这引入了其自身众所周知的挑战,即缺乏用户模拟器导致的“现实差距 (reality gap)”以及离线值估计 (value estimation) 的不稳定性。
4.3. 概述:通过回溯分解目标
为了避开标准离线强化学习(RL)的挑战,本文引入了一种受回溯学习 (Hindsight Learning) 启发的新颖目标分解 (novel objective decomposition)。其核心思想是将难以处理的序贯决策问题重新定义为一系列可处理的单步监督学习任务 (single-step supervised learning tasks)。
如下图(原文 Figure 1)所示,这通过利用每个真实轨迹的“观察到的未来 (observed future)”作为接地气的预言机 (grounded oracle) 来实现。
该图像是论文中图1的示意图,展示了Learn-to-Ask框架的整体流程。框架通过观察专家对话轨迹中的未来状态,利用层次式奖励建模,将难解的离线强化学习问题转化为一系列可训练的监督学习任务,其中包含公式。
图 1:提出的 Learn-to-Ask 框架概述。该框架将棘手的离线 RL 问题转化为一系列可处理的监督学习任务。
具体而言,智能体不再估计一个长时程的值函数,而是对于每个轮次 ,通过回溯驱动奖励流水线 (Hindsight-driven Reward Pipeline)(图 1 中的 B 部分)分析未来的对话片段 ,以提取一个真值元组 (ground-truth tuple) 。
这个元组代表:
-
:专家接下来收集的目标信息集 (Target Information Set)。
-
:专家隐式的停止决策 (stopping decision)(
CONTINUE或STOP)。这个过程有效地将最初困难的离线 RL 问题(A 部分)转化为一个
(状态, 回溯目标)对的数据集。因此,我们可以采用稳定的策略优化方法 (stable policy optimization methods)(C 部分),目标是训练一个策略 ,使其与这个回溯导出的目标对齐。这种分解将整个学习过程建立在演示的专家策略上,教会策略“问什么”(以覆盖 )和“何时停止”(以匹配 )。
4.4. 从观察到的轨迹中提取真值
对于每个成功对话 (即,在对话结束时达到了指定目标 )中的每个轮次 ,我们从未来上下文 中提取一个真值元组 (ground truth tuple) 。这个过程由一个强大的 LLM (大型语言模型) 指导,它充当一个解释专家潜在意图的噪声预言机 (noisy oracle)。
4.4.1. 微观目标 (Micro-Goal) (目标信息集)
这代表了专家在后续轮次 中寻求并获得的一组与目标相关的信息 (goal-relevant information)。本文将其定义为专家成功弥合的“信息差 (information delta)”。为了提取这些信息,本文使用一个强大的 LLM 作为信息抽取器 (information extractor)。
具体而言,对于每个轮次 ,研究人员用以下内容提示 :
-
总体目标 (overall goal)
-
当前上下文 (current context)
-
未来对话 (future conversation)
prompt指示 LLM 识别并列出 中用户响应中存在的、且 中尚未提供的关键新信息 (critical new pieces of information)。
这种结构化提取由 控制,产生了轮次 的目标信息集: 符号解释:
-
:在轮次 时,智能体应该收集的目标信息集。
-
:由 LLM 执行的信息提取函数。
-
:截至轮次
t-1的对话历史。 -
:从轮次 开始的未来对话片段,即 减去 。
-
:对话的总体目标。
-
:作为信息抽取器的强大 LLM。
-
:对话 的总轮次。
-
:表示在对话结束时,没有需要收集的新信息。
这个过程确保了微观目标植根于人类专家实际采取的信息收集路径。在此阶段的关键行动是避免提取过于通用或与上下文无关的信息,因为此类信息可能导致奖励作弊 (reward hacking)。例如,在诊断对话中,医生在做用药决定前可能会常规询问怀孕状态;如果在真值中包含此类信息,可能会导致训练出的 LLM 在各种上下文中以高概率询问此类问题。
4.4.2. 宏观目标 (Macro-Goal) (目标情况评估)
这是在轮次 时理想的动作 (ideal action)(CONTINUE 或 STOP)。它反映了专家的隐式决策 (implicit decision)。本文根据是否还有关键信息需要收集来推断此决策:
符号解释:
-
:在轮次 时,专家期望的对话状态评估(继续或停止)。
-
CONTINUE:表示对话应继续,因为目标信息集 不为空,且当前轮次 尚未达到总轮次 。 -
STOP:表示对话应停止,因为目标信息集 为空(所有信息已收集),或者当前轮次 已经达到总轮次 (对话结束)。这直接从数据中学习了一个与专家对齐的停止策略,这是以属性为中心的方法所缺乏的组件。
4.5. 自动化提示校准 (Automated Prompt Calibration)
本文的“从未来学习”范式依赖于 LLMs 来执行三个关键功能:真值提取 (ground-truth extraction)、奖励评分 (reward grading) 和策略采样 (policy sampling)。这些 LLMs 的行为由自然语言提示(prompt)决定,因此它们与真实专家意图的对齐是首要关注的问题。未经校准的 prompt 可能会引入系统偏差,导致策略追求虚假目标或误解其自身行为。
为确保整个框架牢固地植根于现实,本文引入了 Auto-Prompt,这是一个统一的流水线 (pipeline),通过最少的人工监督自动校准所有三个 prompt。此过程创建了从数据解释到策略优化的可验证的忠实性链:
-
目标接地 (Grounding the Objective):
Extractor Prompt经过优化,使其输出 与一小组人类验证的信息目标(“锚定集”)(human-verified information goals ('anchor set')) 对齐。这确保了策略学习追求人类专家实际认为关键的目标,防止目标漂移 (objective drift)。本文通过 F1 分数衡量这种对齐,将其视为一个语义实体识别任务 (semantic entity recognition task)。 -
学习信号接地 (Grounding the Learning Signal):
Grader Prompt经过精炼,以确保其奖励分数模仿人类判断。其prompt经过优化,以最小化与一小组人类分配的质量分数 (human-assigned quality scores) 之间的均方误差 (Mean Squared Error, MSE),确保奖励函数是专家级评估的忠实代理 (proxy)。 -
探索接地 (Grounding the Exploration): 在强化微调 (Reinforcement Finetuning, RFT) 期间使用的
Policy Sampler Prompt经过校准,以生成一个既多样又高质量的候选动作空间 (candidate action space)。选择prompt以最大化采样候选的平均奖励,使策略搜索过程更高效和有效。Auto-Prompt的核心机制是一个迭代搜索 (iterative search)(见附录 E),它使用一个 LLM 来提出prompt变体,并根据人工策划的锚定集 (anchor sets) 对它们进行评分。这种设计的关键特点是其灵活性;这些小型的锚定集可以很容易地更新,以注入新的业务优先级或纠正生产中观察到的模型偏差,从而在不进行大规模重新标记工作的情况下,实现整个系统的持续、有针对性的改进。
4.5.1. 自动化提示优化算法 (Algorithm 1)
Auto-Prompt 流水线是一个迭代搜索过程,其算法如下:
算法 1 自动化提示优化 (Automated Prompt Optimization)
1: 输入: 初始提示 ,校准集 ,锚定集 ,迭代次数 。
2: 输出: 校准后的提示 。
3: 。
4: 对于 执行:
5: 从 生成候选提示 。
6: 对于 每个候选提示 执行:
7: 执行类型特定流水线:
8: 计算与 的一致性分数:
9: 结束对于
10: 更新 。 最大化分数
11: 结束对于
12: 返回 。
符号解释:
- :算法开始时提供的初始(种子)提示。
- :用于执行类型特定流水线的校准数据集。这是一个灵活的数据集,可针对特定业务场景或挑战性边缘案例进行定制。
- :一个小型、高质量的人工验证锚定集,用于计算提示质量的一致性分数。
- :算法运行的迭代次数。
- :当前迭代中表现最佳的提示。
- :在每次迭代中从当前最佳提示 生成的候选提示集合。
- :使用候选提示 在校准数据集 上执行类型特定流水线(例如信息提取、奖励评分、策略生成)后得到的输出结果。
- :一个类型特定流水线函数,根据任务类型 (
EXTRACT、GRADER、ROLLOUT)使用提示 处理 。- 对于
Info-Extractor( ):返回提取的信息集 。 - 对于
Reward Grader( ):返回校准数据集上策略生成的rollout的奖励 。 - 对于
Policy Rollout( ):策略模型使用提示 生成rollout,然后固定的grader计算这些rollout的奖励 。
- 对于
- :候选提示 的一致性分数,根据其输出 与锚定集 的匹配程度计算。
- :一个评分函数,根据任务类型 计算 与 之间的一致性。
- 对于
Info-Extractor:衡量提取信息集的准确性(例如 F1 分数或精确匹配)。 - 对于
Reward Grader:衡量其输出与人类分配分数之间的负均方误差(MSE)。 - 对于
Policy Rollout:衡量其生成的rollout的平均奖励。
- 对于
- :选择在当前迭代中得分最高的候选提示作为新的最佳提示 。
迭代过程的详细说明:
- 候选生成: 从当前的最佳提示(最初是种子提示)出发,使用生成器 LLM 提出多种变体。这些变体通过语义释义(例如,“请更明确地阐述 X”)和基于规则的变异(例如,添加或删除少量示例)来创建,以探索多样化的指令空间。
- 校准集上的类型特定流水线执行: 每个候选提示都会在校准数据集 上执行一个类型特定的流水线。这个校准数据集可以根据特定的业务场景或具有挑战性的边缘案例进行定制。
- 人类锚定集的一致性评分: 每个候选提示的质量通过其与一个小型、高质量、人类验证的锚定集 (anchor set) 的一致性来衡量。这个锚定集只包含少量模糊的“边缘示例”,而不是需要昂贵的大规模标注。
- 选择和迭代: 表现出最高一致性的候选提示被选为下一次迭代的新最佳提示。这个循环可以自动运行,直到在保留的验证集上的性能收敛。
4.6. 接地奖励公式 (Grounded Reward Formulation)
利用校准后的奖励模型和提取的真值 ,本文现在可以对策略生成的任何候选 进行评分。奖励函数旨在植根于专家对话路径的可观察结果,而不是依赖抽象、主观的标准。最终奖励由两个部分组成,反映了分解后的目标。
4.6.1. 微观奖励 (Micro-Reward) (问题效用)
这个组件 衡量生成的问句 如何有效地针对专家认为接下来需要收集的必要信息 。本文没有采用简单的二元偏好(这会丢失大量信息),而是使用分级评分系统 (graded scoring system),由校准后的评分器 输出。这提供了更细致的学习信号: 符号解释:
-
:在轮次 时,智能体生成的问题 相对于目标信息集 的微观奖励。
-
1.0:如果问题 精确地针对 中的一个元素。 -
0.5:如果问题 与上下文相关但不够精确(例如,问了关于症状,但不够具体)。 -
0.0:如果问题 与 无关。这种分级结构至关重要。中间分值
0.5有助于缓解对话任务中常见的稀疏奖励问题 (sparse reward problem),通过奖励部分正确的尝试,而高分1.0则激励模型学习专家所展现的精确性。这比依赖成对偏好的方法(例如DPO)具有显著优势,因为后者无法以相同的粒度区分好和优秀的动作。
4.6.2. 宏观奖励 (Macro-Reward) (评估准确性)
这个组件 评估智能体关于继续或停止的决策 与专家隐式决策 的正确性。这是一个直接但关键的二元奖励 (binary reward): 符号解释:
- :在轮次 时,智能体生成的停止决策 相对于专家期望的停止决策 的宏观奖励。
1:如果智能体的决策 与专家决策 一致。0:否则(不一致)。
4.6.3. 奖励整合 (Reward Integration)
成功策略的一个关键方面是优先考虑正确的高层决策 (high-level decision)(何时停止)而非低层动作 (low-level action)(问什么)。一个再好的问题,如果问错了时间(例如,在所有信息都收集完毕后),也是毫无价值的。为了强制这种层次结构 (hierarchy),本文使用乘法融合函数 (multiplicative fusion function),使整个奖励取决于宏观决策的正确性: 符号解释:
- :智能体在轮次 生成的问题 和停止决策 的总奖励。
- :宏观奖励,表示停止决策的正确性(
1或0)。 - :微观奖励,表示问题效用(
1.0, 0.5, 0.0)。 1:确保即使 ,如果停止决策正确,也能对 进行奖励。- :一个可调参数 (tunable knob),用于平衡生成好问题和做出果断决策的偏好()。
- :一个灵活的奖励或惩罚项 (reward or penalty term),用于规范输出(例如,格式和长度)。
- 在本文的实验中, 被定义为惩罚项,用于控制输出格式。例如,如果 且 :
- 如果 恰好包含一个问题,则 。
- 如果 恰好包含两个问题,则 。
- 否则 。
- 如果 且 :
-
如果 ,则 。
-
否则 。
这种乘法公式 (multiplicative formulation) 充当了一个分层门 (hierarchical gate):只有当战略性地决定继续是正确的时候(),提问一个好问题所获得的奖励 () 才会被授予。这强制了对宏观决策的词典式偏好 (lexicographical preference),防止智能体在错误的时间(例如,目标已达成后)问好问题而获得奖励。
-
- 在本文的实验中, 被定义为惩罚项,用于控制输出格式。例如,如果 且 :
4.7. 通过强化微调进行策略优化 (Policy Optimization Via Reinforcement Finetuning)
有了从真实日志中提取的结构化数据集和定义明确、接地气的奖励函数,现在可以训练策略了。本文将其视为一个离线强化学习问题 (offline reinforcement learning problem)。训练数据集由元组 组成,其中 是对上下文 的采样响应,而 是它们计算出的奖励。
因此,本文的方法可以应用于广泛的离线强化微调 (offline Reinforcement Finetuning, RFT) 算法,而无需专门的修改。在实验中,本文主要研究了 Group Relative Policy Optimization (GRPO)(Shao et al., 2024)。与需要单独的评论员模型 (critic model) 来估计优势(advantages)的 PPO 等方法不同,GRPO 直接有效地从一组采样响应中估计优势。这种组优化 (group optimization) 的性质也利用了本文方法在探索可能的问题空间中的优势。此外,其组级优势估计 (group-wise advantage estimation) 也自然地处理了本文奖励的分级、非二元性质,因为标准化过程根据采样响应的质量分布动态调整学习信号,有助于驾驭专家级对话的细微之处。这使得它更具适应性、更稳定且实现起来更简单,这对于实际部署流水线而言是一个优势。
5. 实验设置
本节详细介绍了 Learn-to-Ask 框架的实验设置,包括所使用的数据集、评估指标以及对比基线。
5.1. 数据集
实验主要在 RealMedConv 数据集上进行,这是一个真实的医疗对话数据集。
- 来源与特点:
RealMedConv数据集来自真实的、匿名的药师-患者诊断对话 (pharmacist-patient diagnostic dialogues) 日志。每个对话会话都有一个明确的目标:收集足够的症状信息,以提出安全且适当的非处方药 (OTC) 建议。这些对话通常持续 3-5 轮,反映了专家交互的高效、目标导向性质。 - 规模: 包含 2,000 条对话(1,600 条用于训练,400 条用于评估)。
- 处理方式: 每条对话轨迹都被分割成逐轮的
(context, hindsight_objective)元组 (tuple),其中目标 是根据第 3.4 节所述,从对话的“观察到的未来 (observed future)”中提取的。
数据集中的具体样本示例 (来自原文 Figure 2):
以下是 RealMedConv 数据集中一个案例研究的对话片段,用于对比 SFT 和 Learn-to-Ask 模型。
该图像是一个对比对话示意图(图2),展示了SFT模型与Learn-to-Ask模型在医疗问诊中提问的差异。图中突出显示了Learn-to-Ask模型提出的相关有效问题与SFT模型提出的无关问题。
图 2:SFT 和 Learn-to-Ask 模型生成的对话案例研究对比。
场景描述: 用户描述了症状("喉咙痛,头痛,流鼻涕"),智能体需要进一步提问。
- SFT 模型示例: 提问了一个与当前上下文不太相关的通用问题("你还有别的症状吗?比如身体疼痛或发烧?")。这可能因为 SFT 模型在训练数据中没有见过精确匹配此上下文的例子。
- Learn-to-Ask 模型示例: 智能体更具策略性,它识别出已提供的信息,并提出一个有见地的后续问题("你的喉咙痛多久了?是轻微的,中度的,还是严重的?")。
为什么选择这些数据集进行实验?
RealMedConv 是一个真实的、高风险领域的专家对话数据集,其复杂性和目标导向性使其成为验证 Learn-to-Ask 框架有效性的理想选择。该数据集的特点允许研究人员测试模型在以下方面的能力:
- 从真实专家行为中学习复杂策略。
- 处理自然语言对话中的不确定性和灵活性。
- 在实际应用场景中弥合“现实差距”。
5.2. 评估指标
本文缺乏一个忠实的用户模拟器进行端到端评估,因此设计了一套植根于其回溯框架的代理指标 (proxy metrics)。这些指标衡量模型与专家策略的细粒度对齐程度,作为任务成功的有力指示器。
-
提问策略质量 (What-to-Ask, WA):
- 概念定义: 衡量智能体生成问题 的平均分级分数。该指标仅在“继续对话”是正确动作的轮次中计算,且智能体也正确选择了继续。它评估智能体是否像专家一样瞄准了相同的关键信息 。它是衡量信息覆盖率 (Information Coverage) 的代理指标。
- 数学公式: 该指标是 的平均值,其中 是微观奖励 的具体实现。
- 符号解释:
- :所有真值 且策略也正确选择继续的样本集合。
- :智能体生成的问题 相对于目标信息集 的微观奖励(分级分数
1.0, 0.5, 0.0)。
-
提问策略质量 - 良好命中率 (WA-GH, What-to-Ask - Good Hit rate):
- 概念定义: 衡量在“继续对话”是正确动作的轮次中,获得完美微观奖励分数()的问题所占的比例。它衡量模型生成优秀、精确问题的能力。
- 数学公式:
- 符号解释:
total # of correct CONTINUE samples withR_a^* = 1
:指真值为 `CONTINUE` 且策略也判断为 `CONTINUE` 并且其微观奖励 为 `1` 的样本数量。
* `total # of correct CONTINUE samples`:指真值为 `CONTINUE` 且策略也判断为 `CONTINUE` 的样本总数。
3. **对话终止准确性 (When-to-Stop, WS):**
* **概念定义:** 衡量模型在信息收集目标已达成(即 )的轮次中,终止对话决策(`STOP`)的准确性。高 `WS` 分数直接反映了**对话效率 (Dialogue Efficiency)** 和避免**用户疲劳 (user fatigue)** 的能力。
* **数学公式:** 该指标是 的平均值,其中 是宏观奖励 的具体实现,且仅在真值 时计算。
\mathrm{WS} = \frac{1}{|\mathcal{S}_{\text{true_STOP}}|} \sum_{(C_{t-1}, a_t, s_t) \in \mathcal{S}_{\text{true_STOP}}} R_s^*(s_t; s_t^*)
* **\text{符号解释:}**
* $\mathcal{S}_{\text{true\_STOP}}$\text{:所有真值} $s_t^* = \text{STOP}$ \text{的样本集合。}
* $R_s^*(s_t; s_t^*)$\text{:智能体生成的停止决策} $s_t$ \text{相对于专家期望的停止决策} $s_t^*$ \text{的宏观奖励(}`1` \text{或} `0`\text{)。}
4. <strong>\text{对话继续准确性} (When-to-Continue, WC)\text{:}</strong>
* **\text{概念定义:}** \text{衡量模型在真值} $s_t^* = \text{CONTINUE}$ \text{的轮次中,继续对话决策的准确性。}
* **\text{数学公式:}** \text{该指标是} $R_s^*$ \text{的平均值,其中} $R_s^*$ \text{是宏观奖励} $R_s(s_t; s_t^*)$ \text{的具体实现,且仅在真值} $s_t^* = \text{CONTINUE}$ \text{时计算。}
\mathrm{WC} = \frac{1}{|\mathcal{S}_{\text{true_CONTINUE}}|} \sum_{(C_{t-1}, a_t, s_t) \in \mathcal{S}_{\text{true_CONTINUE}}} R_s^*(s_t; s_t^*)
* **\text{符号解释:}**
* $\mathcal{S}_{\text{true\_CONTINUE}}$\text{:所有真值} $s_t^* = \text{CONTINUE}$ \text{的样本集合。}
* $R_s^*(s_t; s_t^*)$\text{:智能体生成的停止决策} $s_t$ \text{相对于专家期望的停止决策} $s_t^*$ \text{的宏观奖励(}`1` \text{或} `0`\text{)。}
5. <strong>\text{总体评估准确性} (Assessment Accuracy, AA)\text{:}</strong>
* **\text{概念定义:}** \text{衡量所有轮次中停止决策} $s_t$ \text{的平均准确性。}
* **\text{数学公式:}**
\mathrm{AA} = \frac{1}{|\mathcal{S}_{\text{all}}|} \sum_{(C_{t-1}, a_t, s_t) \in \mathcal{S}_{\text{all}}} R_s^*(s_t; s_t^*)
* **\text{符号解释:}**
* $\mathcal{S}_{\text{all}}$\text{:所有样本的集合。}
* $R_s^*(s_t; s_t^*)$\text{:宏观奖励(}`1` \text{或} `0`\text{)。}
6. <strong>\text{格式正确性} (Format Correctness, FC)\text{:}</strong>
* **\text{概念定义:}** \text{衡量输出格式(例如,问题数量、停止指令格式)的平均正确性。它由奖励函数中的} $\Omega$ \text{项来评估。}
* **\text{数学公式:}**
\mathrm{FC} = \frac{1}{|\mathcal{S}_{\text{all}}|} \sum_{(C_{t-1}, a_t, s_t) \in \mathcal{S}_{\text{all}}} \Omega(a_t, s_t)
* **\text{符号解释:}**
* $\Omega(a_t, s_t)$\text{:灵活的奖励或惩罚项,用于规范输出的格式。}
7. <strong>\text{总奖励} (Total Reward, TR)\text{:}</strong>
* **\text{概念定义:}** \text{所有样本的平均总奖励,是综合衡量策略性能的指标。}
* **\text{数学公式:}**
\mathrm{TR} = \frac{1}{|\mathcal{S}_{\text{all}}|} \sum_{(C_{t-1}, a_t, s_t) \in \mathcal{S}_{\text{all}}} R(a_t, s_t)
\$\$
* **符号解释:**
* :整合后的总奖励,公式为 。
5.3. 对比基线
本文将 Learn-to-Ask 方法与以下基线进行了比较:
-
直接提示 (Direct Prompting):
- 描述: 使用基础模型(未经微调的 LLM)并辅以精心设计的零样本提示 (zero-shot prompt) 来引导其行为。
- 代表性: 这是 LLM 的最基本使用方式,用于衡量未经任何特定训练的模型在面对主动式对话任务时的原始能力。
-
行为克隆 (Behavioral Cloning, SFT):
- 描述: 标准的监督微调 (Supervised Fine-Tuning) 方法。模型直接模仿专家,学习在给定对话历史时生成专家在下一轮次的话语 。
- 代表性: 广泛用于将 LLM 适应特定任务的基线方法,但本文指出其在处理序贯决策和泛化能力上的局限。
-
直接偏好优化 (Direct Preference Optimization, DPO):
- 描述: 创建偏好对,其中专家的响应被标记为“选择 (chosen)”,而基础模型的生成(与上下文信息无关)被标记为“拒绝 (rejected)”。以此来训练模型学习简单的专家行动偏好。
- 代表性: 一种流行且有效的人类反馈强化学习(RLHF)方法,用于 LLM 对齐。本文用于测试学习简单的专家偏好是否足以实现复杂的主动式对话目标。
消融实验 (Ablation Studies):
为了验证 Learn-to-Ask 框架中设计选择的有效性,研究人员还进行了以下消融实验:
- 移除微观奖励 (w/o ): 移除问题效用奖励。
- 移除宏观奖励 (w/o ): 移除停止决策准确性奖励。
- 替换为简单求和 (Sum): 将本文提出的乘法奖励融合函数替换为简单的奖励求和。
其他 RL 算法 (Learn-to-Ask with other RL algorithms):
除了主要使用的 GRPO 算法外,本文还评估了 Learn-to-Ask 结合其他先进的 RL 算法,如 CISPO(Chen et al., 2025a)和 GSPO(Zheng et al., 2025),以探究其通用性和兼容性。
6. 实验结果与分析
6.1. 核心结果分析
本文的核心实验结果表明,Learn-to-Ask 框架成功地教会了模型“问什么”和“何时停止”,显著优于各种基线方法。
Learn-to-Ask 在策略学习中表现出色:
- 如 Table 1 所示,与基础模型相比,
Ours (GRPO)取得了显著的进步。- 对于 7B 模型:
Good Hit rate(WA-GH) 从 0.13 飙升至 0.41(相对提升 215%)。这意味着模型生成完美精确问题的能力大幅提升。Termination Accuracy(WS) 从 0.16 跃升至 0.93。这表明模型在正确终止对话方面的能力极强。
- 对于 32B 模型:
WA-GH从 0.13 提升至 0.37(相对提升 185%)。WS从 0.52 提升至 0.88。
- 对于 7B 模型:
- 这证实了本文提出的回溯驱动 (hindsight-driven)、分解式奖励结构 (decomposed reward structure) 对于学习全面的对话策略非常有效。
基线的局限性和模型规模的细微差别:
- SFT (Behavioral Cloning): 未能很好地泛化。尽管在
WS上有所提升,但在WA(问题质量)上反而下降(两个模型)。这表明 SFT 倾向于死记硬背停止行为,但牺牲了提问的质量。 - DPO (Direct Preference Optimization): 在 32B 模型上完全崩溃(WA-GH 仅为 0.04),因为其单一的二元偏好信号不足以指导本文的双重目标学习。
- 模型规模的观察: 有趣的是,在
RealMedConv这个学术数据集上,本文的方法在 32B 模型上的结果略弱于 7B 模型。本文将其归因于数据规模有限,可能不足以充分利用较大模型的容量。然而,在 Sec. 5 的大规模部署中,32B 模型的优势在充足数据和更具挑战性的业务需求下变得显而易见。
消融实验验证设计选择:
- 移除提问奖励 (w/o ): 导致相应技能(WA, WA-GH)的崩溃。
- 移除停止奖励 (w/o ): 导致相应技能(WS)的崩溃。
- 这些结果证实了本文双重奖励系统的必要性。
- 乘法奖励融合 (Multiplicative Reward Fusion):
Sum(简单求和)版本在性能上略低于本文的乘法融合。这表明乘法融合在强制奖励层次结构方面的优势,在高复杂度的生产环境中会进一步放大。
可扩展性分析和替代 RL 算法:
- 本文的方法与更先进的 RL 算法兼容。在
Table 1中,CISPO算法在WA和WA-GH指标上表现最佳,略优于GRPO,同时在WS上保持了相似的性能。这表明本文的框架可以与更高效的 RL 算法结合,进一步提升效果。 - 图 4 展示了不同 RL 算法的奖励增长曲线,
CISPO确实比GRPO和GSPO具有更快的训练效率。
6.2. 数据呈现 (表格)
以下是原文 Table 1 的结果:
| Model | Qwen2.5-7B-Instruct | Qwen2.5-32B-Instruct | ||||||||||||
| Method | WA | WA-GH | WC | WS | AA | FC | TR | WA | WA-GH | WC | WS | AA | FC | TR |
| Base | 0.50 | 0.13 | 0.98 | 0.16 | 0.75 | 0.63 | 2.17 | 0.50 | 0.13 | 0.92 | 0.52 | 0.81 | 0.67 | 2.43 |
| SFT | 0.40 | 0.08 | 0.94 | 0.74 | 0.89 | 0.57 | 2.41 | 0.43 | 0.11 | 0.94 | 0.87 | 0.93 | 0.69 | 2.70 |
| DPO | 0.42 | 0.05 | 0.94 | 0.36 | 0.78 | 0.19 | 1.78 | 0.23 | 0.04 | 0.52 | 0.87 | 0.62 | 0.18 | 1.61 |
| Ours (GRPO) | 0.67 | 0.41 | 0.94 | 0.93 | 0.94 | 0.92 | 3.27 | 0.64 | 0.37 | 0.93 | 0.88 | 0.92 | 0.88 | 3.15 |
| Ablation Studies | ||||||||||||||
| w/o Rs | 0.63 | 0.34 | 1.00 | 0.02 | 0.73 | 0.70 | 2.35 | 0.57 | 0.26 | 0.97 | 0.33 | 0.79 | 0.74 | 2.52 |
| w/o Ra | 0.52 | 0.19 | 0.96 | 0.87 | 0.93 | 0.92 | 3.06 | 0.54 | 0.19 | 0.95 | 0.91 | 0.94 | 0.92 | 3.12 |
| Sum | 0.64 | 0.38 | 0.92 | 0.95 | 0.93 | 0.91 | 3.20 | 0.65 | 0.37 | 0.94 | 0.88 | 0.92 | 0.90 | 3.19 |
| Learn-to-Ask with other RL algorithms | ||||||||||||||
| GSPO | 0.61 | 0.31 | 0.93 | 0.94 | 0.93 | 0.91 | 3.16 | 0.62 | 0.32 | 0.95 | 0.86 | 0.93 | 0.89 | 3.12 |
| CISPO | 0.71 | 0.47 | 0.95 | 0.94 | 0.95 | 0.93 | 3.36 | 0.70 | 0.49 | 0.94 | 0.89 | 0.93 | 0.92 | 3.29 |
以下是原文 Table 2 的结果:
| Method | WA | WA-GH | WC | WS | AA | FC | TR |
| Results on 7B Models | |||||||
| Base | 0.501 | 0.132 | 0.975 | 0.155 | 0.751 | 0.629 | 2.174 |
| Original Prompt | 0.665 | 0.413 | 0.944 | 0.926 | 0.939 | 0.915 | 3.272 |
| Optimized Prompt | 0.641 | 0.399 | 0.949 | 0.910 | 0.938 | 0.894 | 3.214 |
| Results on 32B Models | |||||||
| Base | 0.503 | 0.134 | 0.915 | 0.521 | 0.807 | 0.670 | 2.431 |
| Original Prompt | 0.640 | 0.365 | 0.933 | 0.877 | 0.918 | 0.880 | 3.145 |
| Optimized Prompt | 0.634 | 0.366 | 0.925 | 0.916 | 0.923 | 0.889 | 3.166 |
6.3. 图像分析
6.3.1. SFT 与 Learn-to-Ask 模型的对话案例研究对比 (Figure 2)
该图像是一个对比对话示意图(图2),展示了SFT模型与Learn-to-Ask模型在医疗问诊中提问的差异。图中突出显示了Learn-to-Ask模型提出的相关有效问题与SFT模型提出的无关问题。
图 2:SFT 和 Learn-to-Ask 模型生成的对话案例研究对比。
- 分析: 该图定性地展示了
Learn-to-Ask相对于 SFT 模型的优势。SFT模型在给定用户描述症状后,提出了一个相对通用且可能不完全相关的后续问题(“你还有别的症状吗?比如身体疼痛或发烧?”)。这反映了 SFT 模型的短视模仿 (myopic imitation) 特性,它可能只是简单地复制了训练数据中常见的问法,但未能根据当前对话的特定上下文进行策略性调整。Learn-to-Ask模型则表现出战略适应性 (strategic adaptation)。它识别出用户已提供的信息,并提出一个更具洞察力的后续问题(“你的喉咙痛多久了?是轻微的,中度的,还是严重的?”)。这表明Learn-to-Ask能够理解当前的信息状态 (information state),并根据需要收集的目标信息集 () 来生成问题,从而从脆性的模仿转向灵活的、目标导向的推理。
6.3.2. 不同 RL 算法在训练中的奖励增长曲线 (Figure 4)
该图像是图表,展示了训练7B(左图)和32B(右图)模型时三种强化学习算法GRPO、CISPO和GSPO的奖励增长曲线,横轴为训练步数,纵轴为奖励值,CISPO表现优于其它算法。
图 4:训练 7B(左图)和 32B(右图)模型时 RL 算法的奖励增长曲线。
- 分析: 该图展示了三种不同的强化学习算法(
GRPO、CISPO、GSPO)在训练 7B 和 32B 模型时总奖励 (Total Reward) 随训练步数(steps)的变化。- 总体趋势: 随着训练步数的增加,所有算法的奖励都呈现上升趋势,表明模型正在学习更优的策略。
- 算法对比:
CISPO(Aili Chen et al., 2025a)在两种模型规模下均显示出最快的奖励增长速度和最高的最终奖励。这表明CISPO是一种更高效的优化算法,它通过剪辑重要性采样权重 (clipping importance sampling weights) 而非令牌更新,能够更快地学习。GRPO(Shao et al., 2024),作为本文主要研究的算法,表现良好,但略逊于CISPO。GSPO(Zheng et al., 2025)的性能与GRPO相当或略低。
- 模型规模影响: 在 32B 模型上(右图),奖励曲线的增长趋势更为平缓,可能暗示了在当前数据集规模下,大模型学习过程的复杂性或收敛速度的差异。
- 结论: 本文的
Learn-to-Ask框架与多种 RL 算法兼容,并且可以从更高效的优化器中获益,CISPO在此展现出优异的训练效率和最终性能。
6.3.3. 通用能力基准评估结果 (Figure 5)
该图像是图5,展示了7B和32B参数模型在通用能力基准上的雷达图对比,涵盖领域能力、指令跟随、推理表现和风险安全等指标,红色区域为所提模型表现。
图 5:我们的 7B 和 32B 参数模型在通用能力基准上的评估结果。
- 分析: 该图是一个雷达图 (radar chart),展示了
Learn-to-Ask框架微调后的模型(7B 和 32B)在多个通用能力基准上的表现,包括领域能力 (domain capability)、安全性 (safety)、指令遵循 (instruction following) 和推理性能 (inference performance)。红色区域代表了模型在该基准上的得分。- 领域特定任务: 在
MedAgents和MedJourney等领域特定任务上,模型的性能保持稳定或略有提升。这表明专门针对主动对话的训练并未损害模型在医疗领域的核心能力。 - 指令遵循: 在
IFEval和StructFlow等指令遵循基准上,性能也保持稳定。这对于确保模型能够理解并执行复杂指令至关重要。 - 安全性: 观察到在安全相关指标上存在微小的权衡 (trade-offs),例如 7B 模型在
MedHallu(幻觉检测)上的得分略有下降。这提示在实际应用中需要对模型安全性进行仔细监控。 - 模型规模影响: 32B 模型在许多指标上(如
MedAgents、MedJourney、IFEval)的覆盖范围通常大于 7B 模型,这表明大模型在基础能力上的优势仍然存在,并且能够更好地保持。
- 领域特定任务: 在
- 结论: 总体而言,
Learn-to-Ask框架成功地赋予了模型新的复杂技能(主动对话),同时基本保留了其基础能力 (foundational capabilities),避免了过度拟合或灾难性遗忘。
6.4. 消融实验/参数分析
消融实验验证了 Learn-to-Ask 框架中各组件的重要性,特别是双重奖励系统和乘法融合方式。
-
移除微观奖励 (w/o ):
- 结果: 如 Table 1 所示,移除 后,
WA和WA-GH指标显著下降(例如,7B 模型 WA 从 0.67 降至 0.52,WA-GH 从 0.41 降至 0.19)。 - 分析: 这表明问题效用奖励 () 对于模型学习生成高质量、精确的问题至关重要。没有它,模型在“问什么”方面的能力会大幅削弱。然而,
WS和AA依然保持较高水平,说明停止决策的训练相对独立。
- 结果: 如 Table 1 所示,移除 后,
-
移除宏观奖励 (w/o ):
- 结果: 移除 后,
WS指标急剧下降(例如,7B 模型 WS 从 0.93 降至 0.02),而WA和WA-GH保持在相对较高水平。 - 分析: 这强调了宏观奖励 () 对于模型学习正确的对话终止条件是不可或缺的。没有明确的停止信号,模型几乎无法正确判断何时停止对话。同时,提问质量受到的影响较小,说明“问什么”和“何时停止”是两个相对独立的学习目标。
- 结果: 移除 后,
-
简单求和 (Sum) 融合:
- 结果: 将奖励融合方式从乘法改为简单求和(
Sum)后,TR略有下降(例如,7B 模型 TR 从 3.27 降至 3.20)。在各个子指标上,乘法融合也通常略优或持平。 - 分析: 这验证了乘法融合函数 (multiplicative fusion function) 的有效性。它通过强制分层门控 (hierarchical gating) 机制,确保只有在宏观决策正确时才奖励微观动作,从而更好地引导策略学习,避免模型在错误的时机提出好问题。
- 结果: 将奖励融合方式从乘法改为简单求和(
关键超参数 (Hyper-parameters) 的影响:
原文未详细阐述具体的超参数分析,但提及了学习率、批次大小和训练轮次等核心超参数在所有方法中保持一致以确保公平比较。对于 GRPO 等组 RL 算法,每个样本取 5 次重复,这平衡了探索的广度与计算成本。
6.5. 自动化提示校准的详细分析 (Detailed Analysis of Auto-Prompt)
Auto-Prompt 变体自动校准策略采样器提示 (policy sampler prompt),旨在提高强化微调 (RFT) 期间探索的质量。
- 学术数据集上的表现: 如 Table 2 所示,在学术数据集上,
Auto-Prompt带来的性能提升是微乎其微 (marginal) 的(例如,32B 模型的TR从 3.145 略微增加到 3.166)。- 原因分析:
RealMedConv任务相对专注,一个简单、精心设计的手动提示可能已经能生成高质量的候选空间。- 像 32B 这样的大模型可能对采样器提示的微小变化不那么敏感。
- 原因分析:
- 生产环境中的价值: 在大规模生产环境中,
Auto-Prompt的真正价值得以体现,它变得不可或缺 (indispensable)。- 背景: 生产环境中的数据集规模是学术数据集的 100 倍以上,涵盖的医疗条件多 10 倍,并且提示必须整合复杂的业务规则。手动提示工程变得难以处理 (intractable)。
- 贡献:
Auto-Prompt的自动化方法在生产环境中对于实现稳健性能和系统维护至关重要。它能持续改进抽取器和评分器提示。 - 持续改进: 在实时系统中,通过定期识别模糊或表现不佳的在线案例,由人类专家审核这些“边缘示例 (margin examples)”并将其添加到锚定集 (anchor sets)。这使得系统能够以数据驱动、半自动化的方式重新校准奖励模型并重新训练策略,从而适应不断变化的用户行为和新的业务需求(例如,将新的安全指南纳入评分器的逻辑),而无需耗时且易出错的手动提示工程周期。
- 结论:
Auto-Prompt将静态训练过程转变为动态、自改进的系统 (dynamic, self-improving system),凸显了某些方法组件的价值只有在工业规模下才能充分显现。
7. 总结与思考
7.1. 结论总结
本文提出了 Learn-to-Ask,一个通用且无模拟器 (simulator-free) 的框架,成功弥合了训练主动式大型语言模型(LLMs)中的“现实差距 (reality gap)”。通过将难以处理的长时程离线强化学习 (long-horizon offline RL) 问题重新定义为一系列监督学习 (supervised learning) 任务,Learn-to-Ask 能够直接从离线专家对话日志 (directly from offline expert conversation logs) 中学习一个完整的对话策略,包括问什么 (what to ask) 和何时停止 (when to stop)。
其核心洞察在于利用每个真实轨迹的“观察到的未来 (observed future)”来推断出密集且接地气的奖励信号,从而避免了对脆弱的用户模拟器的需求。在真实的医疗对话数据集上,Learn-to-Ask 显著优于 SFT 和 DPO 等强基线,展示了其学习细致入微、战略性提问的卓越能力。该框架的真正价值在于其成功部署到一个大规模的商业医疗 AI 服务中,模型表现可与人类专家相媲美,并产生了切实的商业影响。这有力地证明了本文的离线代理指标可以直接转化为实际任务的成功。
7.2. 局限性与未来工作
7.2.1. 理论含义
本文的工作在实践成功之余,也为理论研究开辟了几个新途径,将基于回溯的强化微调 (RFT) 与基础理论联系起来:
-
作为无值函数的离线 RL 范式 (As a Value-Function-Free Offline RL Paradigm):
Learn-to-Ask是一种无模型 (model-free) 和无值函数 (value-function-free) 的算法,它从未学习显式的状态-动作值函数 。因此,它天生免疫于外推误差 (extrapolation error)。- 未来方向: 能否从理论上界定
Learn-to-Ask学习到的策略相对于真实最优离线策略的次优差距 (sub-optimality gap)?这可能取决于专家数据的“质量”或“覆盖范围”。此外,可以探索将本文稳定的、回溯驱动的策略作为基础,在其之上进行谨慎的、基于值的策略改进,以发现略微超出分布 (out-of-distribution) 但更优的动作。
-
作为因果干预的启发式方法 (As a Heuristic for Causal Intervention):
- 主动提问任务可以被视为一个序贯因果推断 (sequential causal inference) 问题。
Learn-to-Ask通过提取未来的信息集 ,本质上重构了专家干预 旨在实现的结果 。策略被训练的目的是生成能有效实现目标 的动作。 - 未来方向: 从当前的启发式方法转向更正式的因果模型 (causal model)。例如,能否使用离线数据构建对话的结构化因果模型 (Structural Causal Model, SCM),其中问题是干预,用户响应是结果?这样的模型,即使是近似的,也可以实现真正的反事实查询 (counterfactual queries),让智能体提出“如果我问了‘头痛’而不是‘发烧’,用户会怎么说?”。回答这些问题将解锁在专家数据未涵盖的全新情境下进行规划和行动的能力,代表着从模仿到真正战略推理的飞跃。
- 主动提问任务可以被视为一个序贯因果推断 (sequential causal inference) 问题。
-
作为信息增益的数据驱动代理 (As a Data-Driven Proxy for Information Gain):
- 理想的主动智能体应在每轮选择最大化关于用户潜在状态的预期信息增益 (expected information gain) 的问题。
Learn-to-Ask提供了一个务实的 (pragmatic)、数据驱动的代理。它假设人类专家通过经验发展出一种高效最大化信息增益的直观策略。 - 未来方向: 开发一个“语义不确定性 (semantic uncertainty)”模型。LLM 可以被训练来估计其对一组预定义临床实体的自身不确定性。然后,策略可以通过提问那些被预测能最大程度减少这种不确定性指标的问题来获得奖励。一个更宏大的目标是将本文基于回溯的奖励与基于不确定性的奖励项相结合,创建一个既基于经验证的专家策略又积极寻求弥补自身知识差距的策略。
- 理想的主动智能体应在每轮选择最大化关于用户潜在状态的预期信息增益 (expected information gain) 的问题。
-
关于图论模型的进一步讨论 (Further Discussion on the Graph-Theoretic Model):
- 本文将目标导向对话概念化为隐式信息图 (implicit information graph) 的遍历。
Learn-to-Ask学习一个子图覆盖策略 (Subgraph Coverage Policy),即在任何节点 ,回溯推断机制识别专家为完成足够子图而最终覆盖的剩余关键节点集 。策略因任何导致发现此目标集中任何节点的动作 而获得奖励。 - 未来方向: 当前信息图 是隐式的。一个令人兴奋的研究方向是从数据中显式学习图结构 (explicitly learn this graph structure)。通过分析数千条专家轨迹,可以挖掘信息节点之间的潜在依赖关系。如果能构建出这个潜在图,它将成为策略学习的强大先验 (prior)。
- 本文将目标导向对话概念化为隐式信息图 (implicit information graph) 的遍历。
7.2.2. 从模仿到超人干预 (From Imitation to Superhuman Intervention)
这项工作开辟的最令人兴奋的前沿是从专家模仿到超人 AI 智能体 (superhuman AI agents) 的转变。本文的模型继承了人类专家的偏见,例如对对话简洁性的偏好(例如,他们倾向于在 3-5 轮内完成询问)。未来可以朝着以下几个方向发展:
-
针对特定目标的奖励塑形 (Reward Shaping for Specific Goals):
- 未来方向: 不仅仅奖励专家信息集 的覆盖,还可以探索奖励函数 (reward functions) 以强制实现期望的超人行为。例如,对于任何在未明确询问关键安全相关问题(例如过敏)就结束的对话,即使人类专家省略了,也可以施加惩罚。这允许将组织知识或安全协议直接编码到智能体的策略中。
-
语义空间中的探索 (Exploration in Semantic Space):
- 挑战: 在没有实时模拟器的情况下实现探索是一个主要挑战。
- 未来方向: 可以使用生成器模型 (generator model) 来提出替代的、合理的信息目标 (),超越观察到的 。一个更高级的奖励模型,可能在更广泛的医疗知识上训练,可以对这些假设目标 (hypothetical goals) 进行评分,从而让智能体学习追求那些有效但仅在有限离线数据集中未体现的探究方向。
-
混合人机策略学习 (Hybrid Human-AI Policy Learning):
- 终极目标: 最终目标不是取代人类专家,而是增强他们。
- 未来方向: 未来的系统可以利用本文框架进行在线循环 (online loop)。AI 可以提出问题,如果人类专家否决并提出了不同的问题,该动作及其未来的结果可以立即被整合,以改进 AI 的策略。这将创建一个共生系统 (symbiotic system),其中 AI 不断从人类合作伙伴不断演变的策略中学习并适应。
7.3. 个人启发与批判
个人启发:
- “现实差距”的创新弥合方案:
Learn-to-Ask最令人印象深刻的创新在于它如何巧妙地规避了强化学习在真实世界应用中普遍存在的“现实差距”问题。通过利用专家轨迹的“观察到的未来”来构建奖励信号,它将一个难以在线探索的 RL 问题转化为了更易于处理的监督学习问题。这种无模拟器 (simulator-free) 的方法在实际部署中具有巨大的价值,尤其是在医疗这类高风险、高成本领域。 - 细粒度、分层奖励设计的艺术: 论文中的微观奖励 () 和宏观奖励 () 的设计非常精妙。特别是乘法融合机制,它强制了决策的层次结构,确保了模型首先关注“何时停止”这一战略性决策,然后才是“问什么”这一战术性问题。这种设计对于构建真正“智能”和“高效”的对话智能体至关重要。
- 自动化校准的实用性:
Auto-Prompt流水线在论文中的表述,特别是在大规模生产环境中的必要性,提供了宝贵的工程实践经验。它解决了 LLM 时代prompt敏感性和持续维护的痛点,通过小规模人工标注实现自动化校准,使得系统能够持续适应和改进。 - 从理论到实践的落地能力: 论文不仅在离线实验中取得了卓越的性能,更重要的是成功将其部署到实时、大规模的商业服务中,并取得了超越人类专家的表现。这为如何将前沿的 LLM 研究真正转化为有实际影响力的产品提供了清晰的蓝图,也证明了离线指标与在线业务成果之间的强相关性。
批判与潜在改进:
-
“观察到的未来”的局限性: 尽管“观察到的未来”提供了强大的学习信号,但它仍然受限于专家数据本身。如果专家数据中存在某些“次优”的策略,或者未能探索到所有潜在有效的信息路径,那么模型也可能继承这些局限性。例如,如果专家从未问过某个关键但罕见的问题,模型可能也无法学习到在需要时提出它。这限制了模型超越专家进行真正的探索 (true exploration) 的能力。
-
奖励作弊 (Reward Hacking) 的潜在风险: 虽然论文提到了避免提取通用信息以防止奖励作弊,但奖励函数的设计总是可能被模型利用。例如,如果 的定义不够精确或过于宽松,模型可能会生成表面上符合要求但实际信息价值不高的问句。
Auto-Prompt虽然有助于校准,但仍需警惕这种可能性。 -
“信息图”的显式学习: 论文在讨论中提到了将对话视为遍历隐式信息图 (implicit information graph) 的概念。如果能够从数据中显式地学习和构建这个图结构,可能会为模型的探索能力和可解释性带来质的飞跃。目前的框架虽然利用了这种“图”的直觉,但并未显式建模。
-
对 LLM 基础能力的依赖:
Learn-to-Ask框架高度依赖于作为信息抽取器、奖励评分器和策略生成器的 LLMs 的强大能力。如果底层 LLM 本身存在偏见、幻觉或理解限制,这些问题可能会传播到整个学习过程中。 -
跨领域泛化: 尽管在医疗领域取得了成功,但
Learn-to-Ask框架在其他领域(如法律、金融)的有效性,以及其“接地气”奖励函数和自动化校准流水线能否顺利迁移,仍需进一步验证。不同领域的专家行为模式和信息需求可能存在显著差异。总而言之,
Learn-to-Ask提供了一种优雅且高效的解决方案,将离线专家数据转化为具有实际价值的主动式 LLM 智能体。其创新之处在于有效地利用了现有数据,避免了昂贵的模拟器,并为 LLM 在高风险领域的应用开辟了新途径。未来的工作可以进一步探索其理论边界,并结合更先进的探索机制,使其从模仿走向真正的智能干预 (intelligent intervention)。
相似论文推荐
基于向量语义检索推荐的相关论文。