Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter
TL;DR 精炼摘要
本文提出链式策略优化(CSO)方法,以蒙特卡洛树搜索构建偏好数据集ESC-Pro,实现细粒度回合级策略选择优化。CSO显著提升大型语言模型在情绪支持对话中的策略准确性与偏好偏差缓解,增强模型同理心与响应适切性。
摘要
The growing emotional stress in modern society has increased the demand for Emotional Support Conversations (ESC). While Large Language Models (LLMs) show promise for ESC, they face two key challenges: (1) low strategy selection accuracy, and (2) preference bias, limiting their adaptability to emotional needs of users. Existing supervised fine-tuning (SFT) struggles to address these issues, as it rigidly trains models on single gold-standard responses without modeling nuanced strategy trade-offs. To overcome these limitations, we propose Chain-of-Strategy Optimization (CSO), a novel approach that optimizes strategy selection preferences at each dialogue turn. We first leverage Monte Carlo Tree Search to construct ESC-Pro, a high-quality preference dataset with turn-level strategy-response pairs. Training on ESC-Pro with CSO improves both strategy accuracy and bias mitigation, enabling LLMs to generate more empathetic and contextually appropriate responses. Experiments on LLaMA-3.1-8B, Gemma-2-9B, and Qwen2.5-7B demonstrate that CSO outperforms standard SFT, highlighting the efficacy of fine-grained, turn-level preference modeling in ESC.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter (链式策略优化让大型语言模型成为更好的情绪支持者)
1.2. 作者
Zhao Weixiang, Xingyu Sui, Xinyang Han, Yang Deng, Yulin Hu, Jiahe Guo, Libo Qin, Qianyun Du, Shijin Wang, Yanyan Zhao, Bing Qin, Ting Liu 等。 作者团队主要来自哈尔滨工业大学(Harbin Institute of Technology)、新加坡管理大学(Singapore Management University)、中南大学(Central South University)以及科大讯飞人工智能研究院(iFLYTEK AI Research)。
1.3. 发表期刊/会议
预印本(arXiv),发布于 2025 年。目前为 v3 版本。
1.4. 发表年份
2025年
1.5. 摘要
现代社会日益增长的情绪压力增加了对情绪支持对话 (Emotional Support Conversations, ESC) 的需求。尽管大型语言模型 (Large Language Models, LLMs) 在 ESC 方面展现出巨大潜力,但它们面临两个关键挑战:(1) 策略选择准确性低,(2) 偏好偏差,这限制了它们适应用户情绪需求的能力。现有的监督微调 (Supervised Fine-tuning, SFT) 难以解决这些问题,因为它严格地在单一的黄金标准响应上训练模型,而没有对细微的策略权衡进行建模。为了克服这些限制,本文提出了链式策略优化 (Chain-of-Strategy Optimization, CSO),这是一种在每个对话回合优化策略选择偏好的新方法。作者首先利用蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 构建了一个高质量的偏好数据集 ESC-Pro,其中包含回合级别的策略-响应对。通过使用 CSO 在 ESC-Pro 上进行训练,可以提高策略准确性并减轻偏好偏差,使 LLMs 能够生成更具同理心和上下文适当的响应。在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 上的实验表明,CSO 优于标准 SFT,这突出了在 ESC 中进行细粒度、回合级别偏好建模的有效性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2503.05362 PDF 链接: https://arxiv.org/pdf/2503.05362v3.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 研究背景
现代社会,随着工作和生活压力的不断增加,人们面临的情绪压力日益凸显。这导致对情绪支持对话 (Emotional Support Conversations, ESC) 的需求显著增长。ESC 旨在通过提供心理慰藉和指导,帮助个体缓解情绪困扰,提供支持和建设性建议。大型语言模型 (LLMs) 凭借其卓越的对话能力,为 ESC 领域带来了新的可能性。
2.1.2. 核心问题与动机
尽管 LLMs 在对话方面表现出色,但在提供高质量的 ESC 时仍面临以下两个核心挑战:
- 策略选择准确性低 (Low Strategy Selection Accuracy):LLMs 常常难以选择与当前对话情境相符的、适当的支持策略。由于 ESC 具有策略驱动的本质,细致的策略权衡至关重要,但 LLMs 在这方面表现不佳。
- 策略偏好偏差 (Strategy Preference Bias):LLMs 倾向于僵化地偏爱某些特定策略,而不是根据用户动态的情绪需求进行灵活调整。这种偏好偏差限制了模型的适应性。
2.1.3. 现有方法的局限性
主流的训练方法,如监督微调 (Supervised Fine-tuning, SFT),在解决上述问题时显得力不从心。SFT 仅通过在单一“黄金标准”响应上进行训练,虽然教会了模型应用哪些策略,但未能阐明为何某些策略在特定上下文中不适用。这导致模型无法掌握动态适应所需的上下文细微差别。
2.1.4. 本文的切入点与创新思路
为了克服这些挑战,本文提出了一种更细粒度、回合级别 (turn-level) 的优化方法。其核心创新在于:
- 构建高质量偏好数据 (ESC-Pro):利用蒙特卡洛树搜索 (MCTS) 来扩展现有的 ESC 对话,生成包含回合级别策略-响应对的偏好数据集。MCTS 能够探索多种对话路径,并根据评估函数识别高质量和低质量的策略响应。
- 链式策略优化 (CSO):提出一种新的偏好优化方法,通过在 ESC-Pro 数据集上进行训练,使 LLMs 不仅能选择更好的策略,还能探索多样化的对话路径,避免僵化的偏好模式,从而在每个对话回合优化策略选择偏好。
2.2. 核心贡献/主要发现
本文的主要贡献总结如下:
- 提出了 ESC-Pro 数据集 (ESC-Pro Dataset):构建了一个高质量的回合级情绪支持对话偏好数据集 ESC-Pro,该数据集是利用蒙特卡洛树搜索 (MCTS) 从黄金标准对话扩展而来的。该数据集包含高质量的策略-响应对及其对应的低质量替代方案,为偏好优化提供了丰富的训练信号。
- 提出了链式策略优化 (Chain-of-Strategy Optimization, CSO) 方法:这是一种新颖的偏好优化方法,旨在使 LLMs 在每个对话回合学习细致的策略权衡。CSO 通过在 ESC-Pro 上训练,不仅提高了策略选择的准确性,还减轻了策略偏好偏差,增强了模型的适应性。
- 广泛的实验验证 (Extensive Experimental Validation):在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 三个大型语言模型上进行了大量实验。结果表明,CSO 显著优于标准监督微调 (SFT) 和基于解码的方法,验证了细粒度、回合级别偏好建模在提升 ESC 质量和适应性方面的有效性。CSO 即使在参数较少的 LoRA 设置下也能保持强大的性能,并超越了部分闭源模型,显示出其强大的通用性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 情绪支持对话 (Emotional Support Conversations, ESC)
ESC 是一种旨在缓解用户情绪困扰、提供心理慰藉和指导的对话形式。在这种对话中,一个寻求者 (seeker) 表达其情绪问题,而一个支持者 (supporter) 则运用一系列特定的策略来引导对话,以达到减轻寻求者情绪强度、提供安慰和建设性建议的目的。ESC 的核心在于其“策略驱动”的本质,即支持者需要根据对话进展和寻求者的情绪状态,灵活选择和应用不同的支持策略。
3.1.2. 大型语言模型 (Large Language Models, LLMs)
LLMs 是指拥有数亿甚至数千亿参数的深度学习模型,它们通过在海量文本数据上进行预训练,学习语言的模式、语法、语义和世界知识。LLMs 具有强大的生成、理解和推理能力,使其在各种自然语言处理 (Natural Language Processing, NLP) 任务中表现出色,包括对话系统。
3.1.3. 监督微调 (Supervised Fine-tuning, SFT)
SFT 是一种常见的 LLM 训练技术,它通过在特定任务的数据集上对预训练模型进行进一步训练。在 SFT 中,模型学习从输入到输出的映射关系,通常是给定一个输入,生成一个与“黄金标准 (gold-standard)”标签或响应相匹配的输出。在 ESC 任务中,SFT 会训练 LLM 生成与人工标注的“最佳”支持响应相符的回复。然而,SFT 的局限性在于它倾向于只学习单一的“正确”响应,而无法捕捉不同策略之间的细微权衡和上下文适应性。
3.1.4. 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS)
MCTS 是一种用于在复杂决策空间中进行搜索和决策的启发式算法,广泛应用于游戏 AI(如 AlphaGo)。它通过构建搜索树来探索可能的行动序列,并在探索和利用之间取得平衡。MCTS 包含四个核心阶段:
- 选择 (Selection):从根节点开始,沿着树向下选择具有最高“聚合度量 (aggregated metric)”的子节点,直到达到一个可扩展的节点(即尚未完全探索的节点)。通常使用 Upper Confidence Bound 1 (UCB1) 或其变体进行选择。
- 扩展 (Expansion):为选定的可扩展节点添加一个或多个新的子节点,代表可能的下一步行动。
- 模拟 (Simulation):从新扩展的节点开始,随机或使用启发式策略进行“推演 (rollout)”(即模拟游戏或对话直到结束),以获得一个结果。
- 反向传播 (Backpropagation):将模拟的结果(奖励或分数)沿着路径从新节点向上反馈,更新所访问节点的统计信息(如胜利次数和访问次数),从而指导未来的选择。
3.1.5. 偏好优化 (Preference Optimization, PO)
偏好优化是一类训练方法,旨在使模型输出与人类偏好保持一致。与 SFT 直接学习“正确”响应不同,偏好优化通过学习人类对不同响应的相对偏好(即哪个响应比另一个更好)来指导模型。这通常涉及构建一个包含“偏好 (preferred)”和“非偏好 (dispreferred)”响应对的数据集,然后训练模型最大化偏好响应的概率,同时最小化非偏好响应的概率。这种方法能更好地捕捉人类的复杂判断和多样的“好”响应。
3.2. 前人工作与技术演进
3.2.1. 情绪支持对话 (ESC) 系统
早期的 ESC 系统尝试通过各种方法来构建,例如:
-
分层图网络 (Hierarchical Graph Network):如 Peng et al. (2022) 提出了全局到局部 (global-to-local) 的分层图网络。
-
结合常识知识 (Commonsense Knowledge):Tu et al. (2022) 引入常识知识来增强 ESC。
-
建模情绪和语义 (Emotions and Semantics):Zhao et al. (2023a,c) 通过建模情绪和语义来改进 ESC。
随着 LLMs 的发展,研究重心转向直接利用其强大能力:
-
LLM 上的 SFT:Liu et al. (2023) 将 SFT 应用于 LLaMA-7B 模型,并引入了专门用于 ESC 任务的 ChatCounselor 模型。
-
多轮对话微调:Chen et al. (2023) 和 Qiu et al. (2023) 将单轮同理心响应扩展为多轮对话,并在自建的高质量 ESC 数据集上进行微调,显著提升了模型的 ESC 性能。Zheng et al. (2024) 提出的 ExTES 数据集也是一个重要的基准,本文也基于此数据集进行扩展。
3.2.2. 偏好优化算法
偏好优化算法旨在通过在正负样本对上进行训练,使模型输出与用户偏好对齐,从而增强 LLMs 的微调效果。
- 基于强化学习 (Reinforcement Learning, RL) 的方法:
- 奖励模型 (Reward Model, RM):传统方法如 Ouyang et al. (2022) 使用策略 (policy-based) RL 训练奖励模型,然后通过在线 RL 方法(如近端策略优化 (Proximal Policy Optimization, PPO) (Schulman et al., 2017))对 LLM 进行微调。
- 简化 RL 的方法 (Simplified RL):
- 直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al., 2023):DPO 简化了流程,将奖励建模和 RL 合并为一步,显著降低了计算成本。DPO 的核心思想是,它不需要显式地训练一个奖励模型,而是直接从人类偏好数据中推导出最优策略与参考策略之间的关系。它通过一个简单的交叉熵损失函数来训练策略模型,这个损失函数能够直接优化模型以生成人类偏好的响应,同时避免生成非偏好的响应。
- DPO 后的进一步优化:
- SimPO (Meng et al., 2024):消除了 DPO 对参考模型 (reference model) 的依赖,进一步简化了训练。
- IPO (Azar et al., 2024):通过正则化增强鲁棒性。
- ORPO (Hong et al., 2024):整合了指令微调 (instruction tuning) 和偏好对齐 (preference alignment)。
- KTO (Ethayarajh et al., 2024):无需配对数据,通过利用前景理论 (prospect theory) 进行优化。
3.3. 差异化分析
现有 ESC 模型主要依赖 SFT,其核心局限在于无法区分最优和次优策略,导致模型生成的响应缺乏灵活性和上下文适应性。本文的工作通过将偏好优化引入 ESC 领域,弥补了这一空白。
- 数据层面:本文通过 MCTS 构建了 ESC-Pro 数据集,不仅包含了高质量的“偏好 (preferred)”响应,还系统性地生成了“非偏好 (dispreferred)”响应,这与 SFT 仅依赖单一黄金标准响应形成了鲜明对比。
- 方法层面:本文提出的链式策略优化 (CSO) 是一种回合级 (turn-level) 的偏好优化方法。它不只关注单一响应的质量,而是通过优化每个对话回合的策略选择偏好,提升了模型在多轮对话中的策略准确性、适应性和偏好偏差的缓解,这是传统 SFT 无法实现的。
- 效果层面:CSO 能够让 LLMs 学习到策略间的细微权衡,生成更具同理心和上下文适当的响应,从而在 ESC 任务中实现更优的性能。
4. 方法论
本文提出了一种新颖的两阶段框架,通过结构化的偏好建模在每个对话回合细化策略选择。该框架由三个关键组件构成:(1) 基于 MCTS 的对话扩展,(2) 偏好数据构建,以及 (3) 链式策略优化 (Chain-of-Strategy Optimization, CSO)。
4.1. 对话扩展与 MCTS
为了丰富现有 ESC 数据集的回合级偏好标注,本文采用蒙特卡洛树搜索 (MCTS) 来构建一个结构化的对话树,其中每个节点代表一个特定的对话状态。搜索过程通过四个关键阶段迭代细化对话策略:选择、扩展、模拟和反向传播。这使得模型能够探索各种策略路径,并根据预定义的值函数识别最优响应。
为了指导对话生成过程,本文定义了四种专门的 LLM,每种 LLM 在构建和评估对话树中扮演不同角色:
- 寻求者 LLM (Seeker LLM):根据对话历史从寻求者的角度生成响应。
- 支持者 LLM (Supporter LLM):根据对话历史和给定策略从支持者的角度生成回复。
- 策略 LLM (Strategy LLM):评估并排名每个对话回合可用的支持策略。
- 奖励 LLM (Reward LLM):使用同理心 (Empathy)、信息 (Information)、类人性 (Humanoid) 和策略有效性 (Strategy) 四个关键指标评估每个策略-响应对的质量,作为 MCTS 的值函数。
4.1.1. 节点类型与表示
对话树中的每个节点代表一个状态,并分为四种类型:
-
根节点 (Root Node):代表初始对话回合,包含寻求者的第一个响应 、Q 值 和访问计数 。
- :根节点。
- :寻求者的初始响应。
- :节点的 Q 值,表示其估计的累计奖励。
- :节点的访问计数。
-
未扩展节点 (Unexpanded Node):代表一个未探索的策略,包含策略 、分数 、Q 值(初始化为 0)和访问计数(初始化为 0)。
- :未扩展节点。
- :代表的策略。
- :策略分数。
- :节点的 Q 值,初始化为 0。
- :节点的访问计数,初始化为 0。
-
已扩展节点 (Expanded Node):表示已探索的节点,包含策略、分数、寻求者和支持者响应、Q 值和访问计数。
- :已扩展节点。
- :代表的策略。
- :策略分数。
- :寻求者的响应。
- :支持者的响应。
- :节点的 Q 值。
- :节点的访问计数。
-
结束节点 (End Node):标记对话的结束,包含策略、分数、支持者的响应、Q 值和访问计数。
- :结束节点。
- :代表的策略。
- :策略分数。
- :支持者的响应。
- :节点的 Q 值。
- :节点的访问计数。
4.1.2. 选择 (Selection)
在选择阶段,使用 Polymer Upper Confidence Bound (PUCB) 公式确定下一个要探索的节点。此公式基于节点的 Q 值、访问计数和父节点的访问计数来平衡探索 (exploration) 和利用 (exploitation)。
-
:节点 的 PUCB 值。
-
Q ( S ):节点 的 Q 值,表示该节点及其后继节点的预期奖励。 -
:一个超参数,用于调整探索的强度。
-
P ( S ):节点 的策略分数,由策略 LLM 评估并归一化。 -
N ( S ):节点 的访问计数。 -
:节点 的父节点的访问计数。
选择过程逐层进行,从根节点开始,每一步选择具有最高 PUCB 值的节点。
4.1.3. 扩展 (Expansion)
在扩展阶段,根据选定节点的类型进行评估:
- 如果选定节点是已扩展节点:策略 LLM 评估该节点处支持者所有可能的策略,分配分数,并为每个策略生成未扩展的子节点。这些子节点的 Q 值和 值初始化为 0。
- :新生成的子节点。
- :子节点代表的策略。
- :策略分数。
- :初始化为 0。
- :初始化为 0。
- 如果选定节点是未扩展节点:对话历史由寻求者 LLM 和支持者 LLM 生成。
- 支持者 LLM 根据选定策略和对话历史生成响应。
- 寻求者 LLM 根据对话历史和支持者的响应生成回复。
一旦节点被扩展,对话历史将存储在该节点中。如果寻求者在此过程中生成结束对话的
token,则立即计算奖励,并进入反向传播阶段。
4.1.4. 模拟 (Simulation)
模拟阶段侧重于新扩展的子节点。为了降低计算成本,只选择策略分数最高的子节点进行模拟。该过程如下:
- 节点扩展 (Node Expansion):选定的子节点从未扩展节点扩展为已扩展节点。寻求者和支持者 LLM 根据需要生成对话内容。
- 贪婪模拟 (Greedy Simulation):进行 步贪婪模拟,每一步:
- 寻求者 LLM 根据得分最高的策略生成响应。
- 支持者 LLM 相应地做出回复。
模拟持续 步,或直到寻求者生成结束对话的
token。
奖励计算 (Reward Calculation):在模拟过程中,奖励 LLM 使用同理心 ( E )、信息 ( I )、类人性 ( H ) 和策略有效性 ( S ) 四个指标评估对话质量。奖励计算公式为:
-
:计算出的总奖励。
-
E, I, H, S:分别代表同理心、信息、类人性和策略有效性的评分,由奖励 LLM 根据当前对话历史在每一步计算。 -
:一个缩放超参数,用于调整策略有效性 在总奖励中的权重。
-
:一个偏差 (bias),用于调整奖励值。引入 使得系统可以将低于
-b的奖励视为负面奖励,从而引导搜索向更高分的节点。模拟的奖励是对模拟过程中所有支持者回合的奖励进行平均,并用于反向传播阶段更新节点的 Q 值:
-
:节点 的模拟奖励。
-
r ( S ):节点 在对话中的回合索引。 -
:模拟结束时对话的回合索引。
-
:模拟过程中第 个支持者回合的奖励。
4.1.5. 反向传播 (Backpropagation)
在反向传播阶段,模拟奖励 从模拟节点向后传播。每个节点的 Q 值和访问计数按以下方式更新:
-
Q _ { k }:第 次更新后的节点 Q 值。 -
N _ { k }:第 次更新后的节点访问计数。 -
:来自模拟阶段的奖励。
此过程更新树并细化搜索,从而改进未来的策略选择。通过迭代这四个阶段,MCTS 过程有效地优化了对话策略,平衡了探索和利用,同时利用 LLM 引导对话并根据奖励评估策略。
4.2. ESC-Pro 偏好数据构建
基于 MCTS 的对话扩展,本文构建了 ESC-Pro 数据集,其中包含每个对话回合的策略偏好。该数据集通过识别高质量的策略-响应路径,并将其与得分较低的替代方案配对,从对话树中提取细粒度偏好数据。
4.2.1. 对话分解与扩展 (Conversation Decomposition and Expansion)
为了构建偏好数据集,本文将一个黄金标准 (gold-standard) 的 ESC 对话分解为一个结构化的对话树,其中每一层对应一个特定的对话回合。同一层中的兄弟节点 (sibling nodes) 代表不同的策略选择。树通过 MCTS 搜索迭代扩展,确保对潜在策略路径的全面探索,同时保持计算效率。当以下条件满足时,过程停止:
- 搜索达到预定义的迭代次数 。
- 已识别出足够数量的终止节点 。
4.2.2. 偏好数据提取 (Preference Data Extraction)
MCTS 过程完成后,本文从树中提取有效的对话路径。路径中的每个节点 必须满足条件 。一个路径 是有效的,如果:
-
is_end_node :路径中的最后一个节点
S _ { L }是一个终止节点。 -
:路径中所有节点的 Q 值都超过质量阈值 。
一旦识别出有效路径,本文通过为每个高分节点
S _ { w }识别低分兄弟节点S _ { l }来提取偏好对,其中 。这些配对( S _ { w } , S _ { l } )代表相对策略质量,并用于训练模型。
最终的数据集 构建如下:
-
:最终构建的偏好数据集。
-
:表示对所有有效路径 进行集合并操作。
-
:表示所有有效路径的集合。
-
( S _ { w } , S _ { l } ):一个偏好对,其中S _ { w }是偏好样本(更好的策略响应),S _ { l }是非偏好样本(较差的策略响应)。 -
:偏好样本
S _ { w }属于某个有效路径 。 -
:节点
S _ { w }的所有兄弟节点。 -
:偏好样本
S _ { w }的 Q 值高于质量阈值 。 -
:非偏好样本
S _ { l }的 Q 值低于质量阈值 。通过结合偏好和非偏好策略,ESC-Pro 提供了丰富的训练信号,使 LLM 能够学习细微的策略权衡并改进自适应决策。
4.3. 链式策略优化 (Chain-of-Strategy Optimization, CSO)
本文在 ESC-Pro 数据集 上使用直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al., 2023) 进行回合级 (turn-level) 偏好优化。对于第 个对话回合,训练目标函数表述如下:
-
:第 个对话回合的损失函数。
-
:当前训练中的策略模型(即 LLM)。
-
:参考策略模型,通常是 SFT 后的模型或初始 LLM,其作用是防止模型在优化过程中偏离原始能力过远。
-
:Sigmoid 函数,用于将输入值映射到 (0, 1) 区间。
-
:一个超参数,用于控制偏好优化中奖励函数的强度。
其中,
r _ { w }和r _ { l }定义为策略模型相对于参考模型在生成偏好和非偏好样本时的概率比率: -
r _ { w }:策略模型生成偏好样本 的概率与参考模型生成该样本的概率之比。 -
r _ { l }:策略模型生成非偏好样本 的概率与参考模型生成该样本的概率之比。 -
:第 个回合的偏好策略-响应对。
-
:第 个回合的非偏好策略-响应对。
-
:对话的初始上下文(例如寻求者的第一个问题)。
-
:直到第
i-1个回合的对话历史,表示为 。这意味着模型在生成当前回合的响应时,是基于之前回合的“偏好”历史。整体训练目标函数为:
-
:CSO 的总损失函数。
-
:表示对从数据集 中抽取的样本(包括初始上下文 、偏好响应 、非偏好响应 和之前的偏好历史 )的期望。
通过在 ESC-Pro 上使用 CSO 进行训练,LLM 能够不仅在每个对话回合选择优于较差策略的策略,还能探索多样化的对话路径并避免僵化的偏好模式。这种“链式 (chain-like)”的跨回合优化提升了局部适应性和长程战略连贯性。
5. 实验设置
5.1. 数据集
-
ExTES (Zheng et al., 2024):作为黄金标准对话的基准,用于扩展。本文从 ExTES 训练集中选取了前 100 个样本作为高质量的起始点。
-
ESC-Pro:利用 MCTS 将 100 个 ExTES 种子对话扩展为 423 个对话,形成了 ESC-Pro 数据集。该数据集的总话语数从 1,613 增加到 14,383,其中超过一半(8,157 个话语)被归类为非偏好数据。这表明该方法不仅有效扩展了高质量偏好数据,还生成了大量非偏好数据,非常适合偏好优化。
- 扩展后的平均对话长度 (14.72 话语) 与原始数据 (16.13 话语) 保持一致。
- 偏好话语的平均长度 (29.42) 与种子数据 (29.03) 接近,而非偏好话语 (23.22) 明显更短,这凸显了该方法在捕捉 ESC 交互中意义深远的偏好差异方面的有效性。
-
ESC-Pro-SFT:从 ESC-Pro 中提取的一个子集,用于标准 SFT 方法的微调。
-
策略测试集 (Strategy Test Set):遵循 Kang et al. (2024) 的方法构建。
-
策略类别:ExTES 数据集最初包含 16 种不同的支持策略。为减少搜索空间和提高计算效率,本文将相似策略合并为 8 个类别(详细映射见附录 D Table 8)。
以下是原文 Table 16 的一个偏好对话示例:
Conversation Background Scene Breakups or Divorce Description After five years of marriage, my husband and I have decided to separate due to irreconcilable differences. I am feeling overwhelmed and uncertain as I navigate through this difficult time. Conversation History Seeker Hey, I really need someone to talk to right now. Can you lend me an ear? Supporter (Emotional Validation) Of course! I'm here for you. What's been going on? Seeker My husband and I have decided to separate. It's been really hard to accept this reality. Supporter (Emotional Validation) I'm so sorry to hear that. Separating from a long-term partner can be incredibly challenging. It's normal to feel overwhelmed and unsure about what lies ahead. Can you share more about your feelings? Seeker I feel like everything fell apart so quickly. We had dreams about raising a family together and now it's all shattered. Supporter (Emotional Validation) It's really tough when our dreams and plans change unexpectedly. You're experi- encing a whirlwind of emotions right now. It's completely understandable that you're feeling devastated and lost. Know that you're not alone in going through this difficult process. Seeker Thank you. I can't help but blame myself for the breakdown of our marriage. I keep wondering if I did something wrong. Supporter (Emotional Validation) It's natural to feel a sense of self-blame during such a challenging time. However, I want tophasize that relatonships involv thecontributions o both partners, andt's rarely a recin of just one person's actions. You are worthy of love and happiness, regardless of the outcome of this marriage. Seeker I appreciate your kind words. It's just hard to let go of all the memories and years we spent together. I miss him so much. Supporter (Empathetic Statements) It's completely understandable that you're missing your husband. Remember that healing takes time and it's okay to grieve the loss of your marriage. It's important to be patient with yourself and allow yourself to process the many emotions that may arise. Lean on your support system and engage in self-care activities that bring you comfort and joy. Seeker I'll try my best. Right now, it feels impossible to imagine moving on. Do you have any advice on how to start the healing process? Responses Preferred (Affirmation) While it may seem overwhelming now, know that healing and growth are possible. Focus on taking care of yourself both physically and emotionally. Engage in activities that bring you happiness and surround yourself with loved ones who uplift you. Consider seeking support from a therapist or counselor who can help guide you through this process. You are stronger than you realize, and I believe in your ability to navigate through this difficult time. Non-Preferred (Collaborative Planning) Absolutely! Let's break it down together. What's one small step you think you could take this week to begin healing? Non-Preferred (Avoid Judgment and Criticism) Absolutely! Let's break it down together. What's one small step you think you could take this week to begin healing? Non-Preferred (Reframe Negative Thoughts) I get that moving on feels impossible right now. But think about it this way: healing is a journey, not a race. Each small step counts. Non-Preferred (Share Information) Starting the healing process can be tough, but small steps can help. Journaling your feelings, talking to friends, or exploring new hobbies can be beneficial.
5.2. 评估指标
本文采用自动评估和人工评估两种方式,衡量 ESC 任务中模型性能。
5.2.1. 自动评估指标
-
策略选择准确性 (Strategy Selection Accuracy):衡量模型选择正确策略的能力。
- 概念定义 (Conceptual Definition):策略选择准确性评估模型在给定对话上下文时,能够识别并生成与期望支持策略相符响应的程度。F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值,可以平衡两者的重要性。宏观 F1 (macro F1) 和加权 F1 (weighted F1) 适用于多分类任务,考虑了所有策略类别的性能。
- 数学公式 (Mathematical Formula):
- 精确率 (Precision):
- 召回率 (Recall):
- F1 分数 (F1 Score):
- 宏观 F1 (macro
F1_Q):计算每个类别的 F1 分数,然后取所有类别 F1 分数的简单平均值。 - 加权 F1 (weighted
F1_W):计算每个类别的 F1 分数,然后根据每个类别在数据集中所占的样本比例进行加权平均。
- 符号解释 (Symbol Explanation):
- (真阳性):正确预测为正例的样本数。
- (假阳性):错误预测为正例的样本数。
- (真阴性):正确预测为负例的样本数。
- (假阴性):错误预测为负例的样本数。
- :类别总数。
F1_k:第 个类别的 F1 分数。- :第 个类别在数据集中的权重(通常是样本比例)。
-
策略偏好偏差 (Strategy Preference Bias, ):
- 概念定义 (Conceptual Definition):衡量模型生成的策略分布与理想策略分布之间的偏差程度。理想情况下,模型应该根据上下文灵活选择策略,而不是僵化地偏爱某些策略,导致分布不均衡。较低的 值表示模型偏好偏差较小,策略选择更灵活和适应性强。
- 数学公式 (Mathematical Formula):在原论文中未给出具体公式,通常这类指标会使用 Jensen-Shannon 散度 (Jensen-Shannon Divergence, JSD) 或 KL 散度 (Kullback-Leibler Divergence, KLD) 来衡量两个概率分布之间的差异。假设这里采用 JSD。 其中 。
- 符号解释 (Symbol Explanation):
- :模型生成的策略分布。
- :理想的策略分布(例如,来自人类专家或均衡分布)。
- :KL 散度。
JSD:Jensen-Shannon 散度。- : 和 的平均分布。
-
ROUGE-L (R-L):
- 概念定义 (Conceptual Definition):ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一套用于评估自动文本摘要和机器翻译质量的指标。ROUGE-L 特别关注生成文本和参考文本之间最长公共子序列 (Longest Common Subsequence, LCS) 的长度,以衡量两者的结构相似性。较高的 ROUGE-L 值表示生成响应的语义与参考响应更相似。
- 数学公式 (Mathematical Formula): 在实践中,通常设置 ,此时公式简化为 F1 形式:
- 符号解释 (Symbol Explanation):
- :参考文本和生成文本之间最长公共子序列的长度。
- :参考文本的长度(通常是词元数)。
- :生成文本的长度(通常是词元数)。
- (LCS Recall):基于最长公共子序列的召回率。
- (LCS Precision):基于最长公共子序列的精确率。
- :一个权重参数,用于调整精确率和召回率的重要性(通常设为 1,使两者同等重要)。
5.2.2. 人工评估指标
为了进一步评估 CSO 的有效性,本文还进行了人工评估,包括以下四个指标(用于比较 CSO 和 SFT):
-
接受度 (Acceptance):衡量响应的总体可接受性。
-
有效性 (Effectiveness):评估响应是否有效地解决了寻求者的问题。
-
敏感性 (Sensitivity):评估响应感知和回应情绪线索的能力。
-
满意度 (Satisfaction):寻求者对对话的总体评价,计算为接受度、有效性和敏感性的平均值。
另外,在数据质量评估时,还使用了以下指标:
-
对齐度 (Alignment):评估响应是否与预期策略对齐。
5.3. 对比基线
本文将 CSO 与以下基线方法进行比较:
- 监督微调 (Supervised Fine-tuning, SFT):
- LoRA-based SFT:使用低秩适应 (Low-Rank Adaptation, LoRA) 技术进行的 SFT。
- 全参数 SFT (Full-parameter SFT):对模型所有参数进行 SFT。 这些 SFT 模型均在 ESC-Pro-SFT 数据集上训练,遵循了 Chen et al. (2023)、Qiu et al. (2023) 和 Zheng et al. (2024) 等近期 ESC 研究的方法。
- 解码策略 (Decoding Strategies):
- 直接细化 (Direct-Refine):模型直接根据原始响应细化其输出。
- 自我细化 (Self-Refine):基于 Madaan et al. (2024) 的方法,模型首先反思其原始输出并生成反馈,然后利用此反馈生成优化后的响应。
- 带示例 (w/ Example):在
prompt中随机选择一个 ExTES 训练集样本作为示例,为模型提供额外上下文以指导生成。
- 专有模型 (Proprietary Models):
- GPT-4o
- Gemini-2.0
- Claude 系列(Claude-3.5-Sonnet,Claude-3.7-Sonnet)
5.4. 实现细节
所有实验均使用 PyTorch (Paszke et al., 2019) 在 8 块 NVIDIA Tesla A100 GPU 上进行,并利用 DeepSpeed (Rasley et al., 2020) 库及其 ZeRo-2 优化。
- 骨干模型 (Backbones):LLaMA-3.1-8B-Instruct (Dubey et al., 2024)、Qwen-2.5-7B-Instruct (Yang et al., 2024) 和 Gemma-2-9B-it (Team et al., 2024)。
- 最大目标长度 (Maximum Target Length):所有骨干模型均设置为 512
token。 - LoRA 微调 (LoRA Fine-tuning):
alpha值为 8,dropout速率为 0,目标模块为所有模块。 - 聊天模板 (Chat Templates):所有骨干模型均使用其各自的官方聊天模板进行训练。
- ESC-Pro 数据集构建超参数:MCTS 中的 PUCB 公式超参数 设为 1。奖励计算公式中 设为 7, 设为 -3。从对话树中提取数据时,Q 值阈值 设为 0.5。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 自动评估结果
以下是原文 Table 2 的结果:
| Q ↑ | B↓ | Qw ↑ | R-L↑ | ||
| GPT-4o-mini | 35.68 | 2.65 | 42.08 | 24.91 | |
| GPT-40 | 27.98 | 2.65 | 39.55 | 24.26 | |
| Gemini-2.0-Pro | 27.00 | 1.90 | 46.59 | 22.71 | |
| Claude-3.5-Sonnet | 20.97 | 1.55 | 41.00 | 19.82 | |
| Claude-3.7-Sonnet | 31.50 | 1.18 | 48.13 | 21.01 | |
| LLaMA-3.1-8B-Instruct | 29.79 | 1.18 | 38.78 | 23.48 | |
| Direct-Refine | 16.08 | 1.60 | 18.56 | 19.53 | |
| Self-Refine | 17.85 | 1.35 | 24.72 | 19.48 | |
| w/ Example | 8.85 | 1.27 | 15.34 | 18.42 | |
| Full | SFT | 30.28 | 2.65 | 37.33 | 23.77 |
| CSO | 33.11 | 1.11 | 39.21 | 24.24 | |
| LoRA | SFT | 31.25 | 2.65 | 39.27 | 23.30 |
| CSO | 34.51 | 1.11 | 41.11 | 23.89 | |
| Qwen-2.5-7B-Instruct | 19.84 | 2.47 | 28.12 | 23.52 | |
| Direct-Refine | 12.70 | 1.20 | 24.89 | 22.91 | |
| Self-Refine | 11.77 | 1.75 | 19.59 | 20.53 | |
| w/ Example | 17.33 | 1.37 | 28.21 | 22.51 | |
| Full | SFT | 21.73 | 2.34 | 31.24 | 23.54 |
| CSO | 28.78 | 1.92 | 34.39 | 26.16 | |
| LoRA | SFT | 21.54 | 2.45 | 29.11 | 23.72 |
| CSO | 23.16 | 2.09 | 32.26 | 24.17 | |
| Gemma-2-9b-it | 31.31 | 1.33 | 44.06 | 25.64 | |
| Direct-Refine | 7.79 | 2.55 | 12.86 | 21.67 | |
| Self-Refine | 15.95 | 2.47 | 22.93 | 20.63 | |
| w/ Example | 20.12 | 2.65 | 13.41 | 19.64 | |
| Full | SFT | 32.52 | 1.29 | 46.45 | 25.25 |
| CSO | 35.61 | 1.54 | 47.95 | 26.63 | |
| LoRA | SFT | 31.40 | 1.55 | 43.90 | 25.68 |
| CSO | 35.77 | 1.23 | 52.34 | 26.61 |
- CSO 提高了策略准确性并减少了偏差:Table 2 清楚地表明,CSO 显著提高了策略准确性 (Q, Qw) 的同时,有效降低了策略偏好偏差 (B)。相比之下,SFT 虽然在策略选择准确性上略有提升,但也增加了策略偏差,限制了模型的适应性。这凸显了偏好优化在 ESC 策略选择中的必要性。
- 解码方法效果不佳:基于解码的方法(Direct-Refine, Self-Refine, w/ Example)未能实现稳定改进,通常导致较低的策略准确性并增加偏差。
- CSO 在不同模型上均表现优异:CSO 在所有骨干模型(LLaMA-3.1-8B-Instruct, Qwen2.5-7B-Instruct, Gemma-2-9B-it)上都提升了 ESC 性能。它在较弱的模型(Qwen2.5-7B-Instruct)和较强的模型(Gemma-2-9B-it)中都能提高策略准确性并减少偏差,显示出其多功能性和鲁棒性。
- CSO 超越闭源模型:经过 CSO 训练的开源模型在准确性和偏差方面均优于部分领先的闭源模型(如 Claude-3.5-Sonnet),展示了其强大的泛化能力。
- CSO 在 LoRA 和全参数微调中均表现出色:CSO 在 LoRA-based 微调和全参数微调中始终优于 SFT。即使在可训练参数较少的 LoRA 设置下,CSO 也能保持强大的性能,使其成为资源受限场景下的实用选择。
6.1.2. 人工评估结果
以下是原文 Table 3 的结果:
| CSO vs. SFT | win | lose | tie | κ |
| Acceptance | 68.00 | 20.33 | 11.67 | 0.65 |
| Effectiveness | 58.33 | 16.00 | 25.67 | 0.55 |
| Sensitivity | 60.67 | 21.67 | 17.66 | 0.61 |
| Satisfaction | 62.34 | 19.33 | 18.33 | 0.64 |
Table 3 显示,CSO 在所有人工评估指标上均持续优于 SFT。具体而言,CSO 在接受度 (Acceptance, 68.00% 胜率)、有效性 (Effectiveness, 58.33%) 和敏感性 (Sensitivity, 60.67%) 方面取得了更高的表现,这表明其生成的响应更适当、更具影响力且更具情感共鸣。评估者之间的一致性 ( 值在 0.55-0.65 之间) 表明评估结果具有中等到较高水平的一致性。这些发现进一步验证了偏好优化在增强 ESC 性能方面的效果,使其响应更具同理心并更符合用户需求。
6.2. 数据集质量评估
6.2.1. ESC-Pro 数据统计
以下是原文 Table 5 的结果:
| ExTES | ESC-Pro(seeker) | ESC-Pro(+) | ESC-Pro(-) | ESC-Pro | |
| Dialogues | 100 | 423 | |||
| Utterances | 1,613 | 3,113 | 3,113 | 8,157 | 14,383 |
| Avg. len. of dialogues | 16.13 | 14.72 | |||
| Avg. len. of utterances | 29.03 | 17.33 | 29.42 | 23.22 | 23.29 |
Table 5 展示了 ESC-Pro 数据集的统计信息。通过 MCTS 将 100 个 ExTES 种子对话扩展为 423 个对话,总话语数从 1,613 增加到 14,383,其中超过一半 (8,157 个话语) 被归类为非偏好数据。这表明该方法不仅有效扩展了高质量偏好数据,还生成了大量非偏好数据,非常适合偏好优化。扩展后的平均对话长度 (14.72 话语) 与原始数据 (16.13 话语) 保持一致,确保数据质量没有下降。偏好话语的平均长度 (29.42) 与种子数据 (29.03) 接近,而非偏好话语 (23.22) 明显更短,这凸显了该方法在捕捉 ESC 交互中意义深远的偏好差异方面的有效性。
6.2.2. 数据质量人工评估
以下是原文 Table 6 的结果:
| ExTES | ESC-Pro(+) | ESC-Pro(-) | ESC-Pro | κ | |
| Acc | 3.78 | 3.91 | 3.13 | 3.52 | 0.41 |
| Eff | 3.31 | 3.45 | 3.19 | 3.27 | 0.51 |
| Sen | 3.86 | 3.98 | 3.51 | 3.75 | 0.44 |
| Sat | 3.65 | 3.78 | 3.28 | 3.52 | 0.45 |
| Align | 3.53 | 3.60 | 3.47 | 3.54 | 0.52 |
Table 6 展示了对 ExTES 种子数据集、ESC-Pro(+) (偏好数据) 和 ESC-Pro(-) (非偏好数据) 的人工评估结果。结果显示,偏好数据 (ESC-Pro+) 在所有指标上均持续优于非偏好数据 (ESC-Pro-),且得分略高于原始种子数据集。特别是,非偏好数据的对齐度 (Alignment) 分数较低,证实了无效策略确实导致了较差的响应。这些发现验证了 ESC-Pro 区分和提炼高质量 ESC 策略的能力。
6.2.3. 奖励 LLM 评估标准验证
以下是原文 Table 1 的结果:
| ESC-Pro(+) vs. ESC-Pro(-) | Win | Lose | Tie | κ |
| Empathy | 46.33 | 32.67 | 21.00 | 0.61 |
| Information | 42.34 | 27.33 | 30.33 | 0.55 |
| Humanoid | 41.67 | 21.33 | 37.00 | 0.49 |
| Strategy | 60.67 | 15.00 | 24.33 | 0.67 |
Table 1 展示了 ESC-Pro 中偏好和非偏好数据之间的配对比较结果。人工评估者比较了 100 个偏好对,发现偏好数据始终优于非偏好数据,尤其是在策略 (Strategy) 方面 (61 胜 vs 15 负),这与奖励 LLM 的权重设置一致。同理心 (Empathy) 和信息 (Information) 指标也倾向于偏好数据,而类人性 (Humanoid) 指标分布更为平衡。这些结果共同证实了 ESC-Pro 在捕获高质量策略响应方面的有效性,以及奖励 LLM 评分方法(作为 MCTS 的值函数)的可靠性。
6.2.4. 策略分析
如下图(原文 Figure 3)所示,ESC-Pro 数据集展示了动态且符合上下文的策略分布。

该图像是图表,展示了ESC-Pro数据集中策略在不同对话阶段的分布比例,横轴表示对话阶段,纵轴表示策略比例,颜色区分不同策略类型,反映了策略随时间的变化趋势。
Figure 3: Strategy distribution across conversation stages in ESC-Pro.
例如,“情感验证 (Emotional Validation)”在早期阶段最常见,有助于识别和共情寻求者,但在后期使用减少。相比之下,“肯定 (Affirmation)”和“避免评判和批评 (Avoid Judgment and Criticism)”在对话后期更频繁,提供支持和鼓励。
与种子数据集(如下图 Figure 7)相比,ESC-Pro 数据集展现出更具多样性和平衡性的策略分布。

该图像是图9,展示了种子数据集中不同策略在对话阶段的分布情况。横轴表示对话阶段,纵轴表示策略比例,图中用不同颜色区分多种策略的变化趋势。
Figure 9: Strategy distribution across conversation stages in the seed dataset.
这表明本文的方法有效地建模了多种对话策略,丰富了数据集,超越了 ExTES 中原有的内容。
6.2.5. 毒性分析
以下是原文 Table 7 的结果:
| TOXICITY | SEVERE_TOXICITY | IDENTITY_ATTACK | INSULT | PROFANITY | THREAT | |
| ExTES(seeker) | 0.0281 | 0.0012 | 0.0041 | 0.0108 | 0.0171 | 0.0088 |
| ExTES(supporter) | 0.0173 | 0.0008 | 0.0027 | 0.0093 | 0.0124 | 0.0070 |
| ExTES | 0.0227 | 0.0010 | 0.0034 | 0.0100 | 0.0148 | 0.0079 |
| ESC - Pro(seeker) | 0.0290 | 0.0013 | 0.0042 | 0.0110 | 0.0178 | 0.0097 |
| ESC - Pro(+) | 0.0192 | 0.0008 | 0.0027 | 0.0097 | 0.0130 | 0.0074 |
| ESC - Pro(-) | 0.0223 | 0.0009 | 0.0027 | 0.0107 | 0.0134 | 0.0074 |
| ESC - Pro | 0.0231 | 0.0010 | 0.0030 | 0.0105 | 0.0143 | 0.0079 |
Table 7 展示了使用 Perspective API 对 ESC-Pro 进行的毒性分析结果。分析表明,ESC-Pro 保持了与 ExTES-seed 相似的毒性水平,确保了其适用于偏好优化:
- 偏好响应 (ESC-Pro+) 表现出比非偏好响应 (ESC-Pro-) 更低的毒性,这表明高质量的策略选择能够带来更少的有害输出。
- 寻求者的话语在 ESC-Pro 和 ExTES-seed 中均显示出相对较高的毒性,这符合预期,因为它们通常反映了情绪支持对话中典型的负面情绪或困扰。
- 支持者在 ESC-Pro 中的响应保持在合理的毒性范围内,表明基于偏好的扩展不会引入显著风险。 总体而言,这些发现证实 ESC-Pro 有效地平衡了策略扩展,同时保持了低毒性,使其非常适合安全和支持性的 ESC 生成。
6.3. 消融实验/参数分析
6.3.1. 消融研究
以下是原文 Table 4 的结果:
| Q↑ | B↓ | Qw ↑ | R-L↑ | |
| LLaMA-3.1-8B-Instruct | 29.79 | 1.18 | 38.77 | 23.48 |
| SFT | 31.25 | 2.65 | 39.27 | 23.30 |
| CSO | 34.51 | 1.11 | 41.11 | 23.89 |
| CSO - Random | 31.79 | 2.65 | 39.24 | 23.65 |
| Qwen-2.5-7B-Instruct | 19.83 | 2.47 | 28.12 | 23.52 |
| SFT | 21.54 | 2.45 | 29.11 | 23.72 |
| CSO | 23.16 | 2.09 | 32.26 | 24.17 |
| CSO - Random | 22.89 | 2.19 | 32.97 | 23.90 |
| Gemma-2-9b-it | 31.31 | 1.33 | 44.06 | 25.64 |
| SFT | 31.40 | 1.55 | 43.90 | 25.68 |
| CSO | 35.77 | 1.23 | 52.34 | 26.61 |
| CSO - Random | 29.86 | 1.22 | 44.58 | 25.75 |
为了评估方法的有效性,本文进行了一项消融研究,使用了随机数据集 ESC-Pro-Random。在该变体中,对于每个支持者回合,随机选择一个非偏好策略,而不是使用搜索过程中得分较低的策略。然后根据此策略生成一个非偏好回复,与原始响应形成偏好对。
Table 4 显示,ESC-Pro-Random 的性能略优于 SFT,但在所有骨干模型上始终劣于 ESC-Pro。这证实了本文利用 MCTS 搜索和验证的低分节点作为非偏好数据的方法是有效且有意义的,强调了结构化偏好学习在 ESC 中的重要性。
6.3.2. 数据量分析
如下图(原文 Figure 4)所示,本文通过改变用于微调的 ESC-Pro 对话数量,分析了数据量的影响。

该图像是一个图表,展示了ESC-Pro数据量对三个不同语言模型表现的影响,横轴表示数据规模从0到完整423对话,纵轴分别为F1/Rouge-L分数及偏好度指标,体现了数据量增加对策略选择准确率和偏好度的提升作用。
Figure Impact of ESC-ro datavolume on model performanceacross three backbones. Data sizevaries with 0 (baseline), 100, 200, 300, 400, and the full set (423 dialogues).
结果显示出清晰的上升趋势:随着数据量的增加,模型性能也随之提升。值得注意的是,仅用 200-300 个对话,CSO 就优于标准 SFT,这证明了偏好数据的效率和可扩展性。虽然预计更大规模的数据集会带来进一步的改进,但由于计算限制,本文将种子数据限制在 100 个对话。扩展到更大的数据集是未来研究的重要方向。
6.3.3. 不同偏好优化算法的分析
以下是原文 Table 9, 10, 11 的结果:
| Q ↑ | B↓ | Qw ↑ | R-L↑ | ||
| LLaMA-3.1-8B-Instruct | 29.79 | 1.18 | 38.78 | 23.48 | |
| FuLL | SFT | 30.28 | 2.65 | 37.33 | 23.77 |
| CSO-DPO | 33.11 | 1.11 | 39.21 | 24.24 | |
| CSO-SimPO | 29.12 | 1.53 | 36.27 | 23.59 | |
| CSO-IPO | 35.48 | 1.04 | 37.74 | 24.19 | |
| CSO-KTO | 32.60 | 0.88 | 36.63 | 25.84 | |
| CSO-ORPO | 30.46 | 1.14 | 33.24 | 26.06 | |
| SFT | 31.25 | 23.30 | |||
| LoRA | 2.65 | 39.27 | |||
| CSO-DPO | 34.51 | 1.11 | 41.11 | 23.89 | |
| CSO-SimPO | 33.43 | 1.04 | 40.55 | 23.41 | |
| CSO-IPO | 33.00 | 1.13 | 39.40 | 23.55 | |
| CSO-KTO | 32.80 | 1.04 | 38.15 | 23.70 | |
| CSO-ORPO | 31.50 | 1.17 | 39.04 | 23.71 | |
| Q ↑ | B↓ | Qw ↑ | R-L↑ | ||
| Qwen-2.5-7B-Instruct | 19.84 | 2.47 | 28.12 | 23.52 | |
| FuLL | SFT | 21.73 | 2.34 | 31.24 | 23.54 |
| CSO-DPO | 28.78 | 1.92 | 34.39 | 26.16 | |
| CSO-SimPO | 23.51 | 2.01 | 34.84 | 21.54 | |
| CSO-IPO | 25.10 | 2.15 | 36.54 | 25.16 | |
| CSO-KTO | 25.56 | 1.56 | 38.44 | 26.65 | |
| CSO-ORPO | 22.20 | 1.24 | 35.91 | 24.58 | |
| LoRA | SFT | 21.54 | 2.45 | 29.11 | 23.72 |
| CSO-DPO | 23.16 | 2.09 | 32.26 | 24.17 | |
| CSO-SimPO | 25.91 | 2.02 | 30.45 | 23.32 | |
| CSO-IPO | 22.71 | 2.21 | 28.75 | 23.49 | |
| CSO-KTO | 22.91 | 2.17 | 30.82 | 23.61 | |
| CSO-ORPO | 22.49 | 2.12 | 28.42 | 23.35 | |
| Q ↑ | B↓ | Qw ↑ | R-L↑ | ||
| Gemma-2-9b-it | 31.31 | 1.33 | 44.06 | 25.64 | |
| Full | SFT | 32.52 | 1.29 | 46.45 | 25.25 |
| CSO-DPO | 35.61 | 1.54 | 47.95 | 26.63 | |
| CSO-SimPO | 26.67 | 2.03 | 48.03 | 25.60 | |
| CSO-IPO | 32.02 | 1.70 | 45.29 | 25.81 | |
| CSO-KTO | 39.73 | 0.81 | 48.87 | 27.84 | |
| CSO-ORPO | 34.80 | 1.24 | 48.28 | 27.52 | |
| LoRA | SFT | 31.40 | 1.55 | 43.90 | 25.68 |
| CSO-DPO | 35.77 | 1.23 | 52.34 | 26.61 | |
| CSO-SimPO | 34.95 | 1.19 | 51.62 | 26.22 | |
| CSO-IPO | 34.16 | 1.29 | 51.62 | 26.20 | |
| CSO-KTO | 35.89 | 0.99 | 48.53 | 26.45 | |
| CSO-ORPO | 32.35 | 1.30 | 48.14 | 25.85 | |
为了进一步验证 CSO 的有效性,本文还测试了将其他偏好学习方法(包括 IPO (Azar et al., 2024)、KTO (Ethayarajh et al., 2024)、SimPO (Meng et al., 2024) 和 ORPO (Hong et al., 2024))整合到框架中。
结果显示,所有偏好优化变体都优于标准 SFT,这强化了偏好驱动学习在 ESC 中的优势。尽管 DPO 在某些指标上并非最佳,但其他偏好优化算法(如 KTO 在 Gemma-2-9b-it 的 Full Fine-tuning 设置下)表现出更好的性能。这些结果证明了 ESC-Pro 数据集作为高质量数据集的有效性和多功能性,能够有效地用于优化基于偏好的对话策略。
6.3.4. 大型骨干模型的结果
以下是原文 Table 12 的结果:
| Q↑ | B↓ | Qw ↑ | R-L↑ | |
| Qwen2.5-32B-Instruct | 37.37 | 1.40 | 41.97 | 24.37 |
| Direct-Refine | 34.87 | 1.68 | 40.69 | 23.14 |
| Self-Refine | 14.63 | 0.98 | 26.97 | 21.74 |
| w/ Example | 20.66 | 2.65 | 24.40 | 21.93 |
| SFT-LoRA | 37.69 | 1.60 | 42.09 | 24.40 |
| CSO-LoRA | 38.53 | 1.29 | 43.95 | 24.65 |
本文还在 Qwen2.5-32B 模型上使用 LoRA-based 偏好优化进行了额外实验。Table 12 显示,CSO-LoRA 在所有四个指标和长期的用户满意度 (R-L) 上始终优于所有基线。与标准监督微调 (SFT-LoRA) 相比,CSO-LoRA 的策略质量提升了 +0.84,并减少了策略偏差,同时进一步增强了以用户为中心的指标。这些结果证实,CSO 在更大规模的模型上仍然有效,展示了其在增强基于 LLM 的情绪支持系统的适应性和情商方面的强大可扩展性和鲁棒性。
6.4. 案例研究
以下是原文 Table 17 的结果:
| Scene | Depression and Low Mood | |
| Description | I've been feeling emotionally exhausted and overwhelmed by everything happening in my life. It's hard to stay positive when it feels like things keep piling up and nothing changes. | |
| Role | Emotion / Strategy | Utterance |
| Seeker | Sadness | I've been feeling really overwhelmed lately. I don't know how to handle everything that's going on. |
| Supporter | Emotional Validation | It sounds like you're carrying a lot right now, and it's understand- able that you're feeling overwhelmed. It's okay to feel that way. |
| Seeker | Frustration | Yeah, it's just so much, and I feel like I can't get a grip on it. |
| Supporter | Empathetic Statements | It's tough when everything seems like it's piling up. I can hear how much you're struggling with it. |
| Seeker | Hopelessness | I'm trying to stay positive, but it's hard. |
| Supporter | Affirmation | It's really impressive that you're trying to stay positive despite everything. That shows real strength. |
| Seeker | Overwhelm | I just don't know where to start. |
| Supporter | Collaborative Planning | Let's take it step by step. What's one small thing you could focus on right now? |
| Seeker | Hope | Maybe I can tackle some smaller tasks to get the ball rolling. |
| Supporter | Provide Different Perspectives | That's a great perspective. Starting small can help you feel more in control and build momentum. |
| Seeker | Defeat | I feel like I've been stuck in this cycle, and nothing changes. |
| Supporter | Reframe Negative Thoughts | It's easy to feel stuck when it seems like things aren't improving. |
| Seeker | Acceptance | But every small step forward counts, even if it doesn't feel like it. You're right. Maybe I need to be kinder to myself through this. |
| Supporter | Avoid Judgment and Criticism | Absolutely. Being kind to yourself is key. You're doing your best, |
| Seeker | Hopeful | and that's enough. I think I can manage it now, one step at a time. |
| Supporter | Emotional Validation | That's a wonderful mindset. Taking it one step at a time will help you regain your balance. |
Table 17 提供了一个案例研究,展示了 CSO 如何通过选择与上下文相关的策略来隐式地保持情感连续性。这个案例表明,CSO 能够通过调整策略以适应寻求者不断变化的情绪,从而隐式地维持跨回合的情感一致性。支持者首先通过“情感验证 (Emotional Validation)”和“同理心表述 (Empathetic Statements)”来表达理解和共情,随后随着寻求者逐渐变得更有希望,逐步引入更积极的策略,如“协作规划 (Collaborative Planning)”和“重构消极想法 (Reframe Negative Thoughts)”。这种平稳的进展表明,CSO 不仅响应当前情绪,而且支持整个对话的情感流动。
7. 总结与思考
7.1. 结论总结
本文针对情绪支持对话 (ESC) 中大型语言模型 (LLMs) 存在的策略选择准确性低和偏好偏差问题,提出了一种名为链式策略优化 (Chain-of-Strategy Optimization, CSO) 的新颖两阶段框架。 首先,利用蒙特卡洛树搜索 (MCTS) 扩展现有 ESC 数据集,构建了高质量的回合级偏好数据集 ESC-Pro,其中包含偏好和非偏好策略-响应对。 其次,通过在 ESC-Pro 上使用 CSO 进行训练,模型能够在每个对话回合优化策略选择偏好。 在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等 LLMs 上的广泛实验表明,CSO 在提高策略准确性、缓解偏好偏差和增强模型对用户情绪的适应性方面显著优于标准监督微调 (SFT) 和其他解码方法。人工评估进一步证实了 CSO 能够生成更具同理心、更有效且更令人满意的响应。这些发现强调了细粒度、回合级偏好建模在提升 ESC 质量方面的关键作用。
7.2. 局限性与未来工作
尽管 CSO 在改进策略选择和偏好对齐方面表现出有效性,但本研究仍存在以下局限性:
-
计算资源限制:实验主要在中小规模的 LLMs(7B-32B 参数)上进行。虽然这些模型具有代表性,但更大规模的模型(如 70B+)可能会进一步提高性能,并为 CSO 的可扩展性提供更深入的见解。
-
数据集生成:ESC-Pro 数据集是基于 100 个种子对话通过 MCTS 扩展生成的。尽管结果显示出显著的性能提升,但更大规模的种子数据集或替代的扩展策略(例如,人机协同 (human-in-the-loop) 验证)可能会进一步增强偏好数据的多样性和质量。
未来工作方向包括:
-
个性化:将更多重点放在个性化 (personalization) 上,以确保 CSO 驱动的对话系统不仅有效,而且能满足用户特定的需求。
-
安全性:关注安全性 (safety) 问题,使模型对潜在风险具有鲁棒性。
-
更复杂的策略交互:探索更复杂的策略交互和长程规划,以实现更连贯和深层次的对话支持。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一个非常清晰且创新的思路,将强化学习中的 MCTS 和 LLM 的偏好优化相结合,来解决情绪支持对话中的核心挑战。
- MCTS 在对话中的潜力:MCTS 通常用于离散、状态空间庞大的决策任务,将其引入多轮对话的策略探索和数据生成,是一个巧妙的创新。通过构建对话树并使用 Reward LLM 进行评估,MCTS 能够系统性地探索多种策略路径,这比随机采样或单一黄金标准数据更能捕捉策略的复杂性和权衡。这为生成高质量、多样化的偏好数据提供了强大的工具,尤其在需要精细化决策的领域具有借鉴意义。
- 细粒度偏好优化的重要性:论文强调了“回合级 (turn-level)”偏好优化的重要性。传统的 SFT 或仅在最终响应上进行偏好优化,可能无法捕捉到多轮对话中策略演变的细微之处。CSO 在每个对话回合进行优化,使得模型能够更精细地学习策略间的动态转换和适应性,这对于情感支持这类需要高度上下文敏感性的任务至关重要。
- 高质量偏好数据的价值:ESC-Pro 数据集的构建方法,特别是通过 MCTS 识别“偏好”和“非偏好”样本,极大地提高了训练信号的质量。这表明,与其盲目增加数据量,不如通过智能方法生成具有明确偏好信号的高质量数据,能够更高效地提升模型性能。即使在较小的数据量下(如数据量分析所示),也能取得显著效果。
- 模型通用性与实用性:CSO 在多种主流 LLM 骨干上都显示出一致的改进,并且在 LoRA 这种参数高效的微调设置下也表现出色,这表明其具有良好的通用性和实用性,尤其适用于资源受限的场景。
7.3.2. 批判
尽管该工作具有显著的贡献,但仍有一些潜在问题或可以改进的地方:
- Reward LLM 的潜在偏见和局限性:论文使用 GPT-4o-mini 作为 Seeker LLM、Supporter LLM、Strategy LLM 和 Reward LLM。虽然这提高了数据生成的效率,但其评估(特别是 Reward LLM)的质量和偏见高度依赖于其自身的训练数据和能力。GPT-4o-mini 作为 Reward LLM 的评估标准是否能完全捕捉人类的复杂情感和对支持策略的细微偏好,是一个值得探讨的问题。如果 Reward LLM 本身存在偏见,那么生成的 ESC-Pro 数据集以及优化后的模型也可能继承这些偏见。
- MCTS 的计算成本与可扩展性:虽然 MCTS 能够高效探索,但其在生成大规模、长对话的偏好数据时,计算成本仍可能非常高。论文中提到由于计算限制,种子数据仅限制在 100 个对话,这暗示了 MCTS 扩展的成本。如果未来需要扩展到更长的对话或更复杂的策略空间,MCTS 的效率可能会成为瓶颈。
- 策略定义的粒度与冲突:ExTES 数据集最初有 16 种策略,本文将其合并为 8 种。虽然这有助于简化搜索空间,但也可能导致某些细微的策略差异被忽略。此外,不同的策略之间可能存在模糊边界或上下文冲突,MCTS 和 LLM 是否能始终准确地处理这些复杂性仍需进一步验证。
- “链式”概念的进一步量化:论文提出了“链式策略优化 (Chain-of-Strategy Optimization)”,强调其在长程战略连贯性上的优势。但这种“链式”效果在实验中更多地体现在回合级 DPO 的效果上,而非明确地设计了跨回合的显式优化目标。未来的工作可以进一步量化和显式地建模这种“链式”依赖,例如通过更复杂的奖励函数设计或序列生成模型。
- 实际部署的伦理考量:论文在伦理考量部分指出,模型不应取代专业的人类支持。然而,如果模型性能如此显著,其在实际应用中的界限将变得模糊。如何确保用户在与 AI 进行情感支持对话时,能明确感知其非人类身份,并获得恰当的引导,是一个需要持续关注的挑战。模型对负面情绪、危机情况的识别和处理能力仍需严格测试。
相似论文推荐
基于向量语义检索推荐的相关论文。