Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents
TL;DR 精炼摘要
提出PPDPP,一种可插拔对话策略规划器,通过监督微调与基于自玩模拟的强化学习提升大型语言模型在主动对话中的策略制定能力。该方法不仅增强了策略泛化和适应性,还在多场景主动对话任务中显著优于现有方案。
摘要
Proactive dialogues serve as a practical yet challenging dialogue problem in the era of large language models (LLMs), where the dialogue policy planning is the key to improving the proactivity of LLMs. Most existing studies enable the dialogue policy planning of LLMs using various prompting schemes or iteratively enhance this capability in handling the given case with verbal AI feedback. However, these approaches are either bounded by the policy planning capability of the frozen LLMs or hard to be transferred to new cases. In this work, we introduce a new dialogue policy planning paradigm to strategize LLMs for proactive dialogue problems with a tunable language model plug-in as a plug-and-play dialogue policy planner, named PPDPP. Specifically, we develop a novel training framework to facilitate supervised fine-tuning over available human-annotated data as well as reinforcement learning from goal-oriented AI feedback with dynamic interaction data collected by the LLM-based self-play simulation. In this manner, the LLM-powered dialogue agent can not only be generalized to different cases after the training, but also be applicable to different applications by just substituting the learned plug-in. In addition, we propose to evaluate the policy planning capability of dialogue systems under the interactive setting. Experimental results demonstrate that PPDPP consistently and substantially outperforms existing approaches on three different proactive dialogue applications, including negotiation, emotional support, and tutoring dialogues.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents (用于大型语言模型驱动对话代理的可插拔策略规划器)
1.2. 作者
Yang Deng (邓杨), Wenxuan Zhang (张文轩), Wai Lam (林伟), See-Kiong Ng (黄锡强), Tat-Seng Chua (蔡德圣) 作者主要来自新加坡国立大学 (National University of Singapore) 和香港中文大学 (The Chinese University of Hong Kong)。
1.3. 发表期刊/会议
CoRR (预印本), abs/2311.00262。CoRR (Computing Research Repository) 是 arXiv 预印本服务器的一个子集,主要收录计算机科学领域的预印本论文。这意味着该论文在发表时尚未经过同行评审,但通常代表了最新的研究成果。
1.4. 发表年份
2023年11月01日
1.5. 摘要
大型语言模型 (LLMs) 驱动的主动对话 (proactive dialogues) 既实用又具有挑战性,其中对话策略规划 (dialogue policy planning) 是提升LLMs主动性的关键。现有研究大多通过各种提示方案 (prompting schemes) 或利用 verbal AI feedback 迭代增强LLMs的策略规划能力。然而,这些方法要么受限于冻结的LLMs本身的策略规划能力,要么难以泛化到新场景。
本文提出了一种新的对话策略规划范式,通过一个可调优的语言模型插件作为可插拔的对话策略规划器,名为 PPDPP (Plug-and-Play Dialogue Policy Planner),来为LLMs在主动对话问题中制定策略。具体而言,作者开发了一个新颖的训练框架,结合了基于现有 人工标注数据 (human-annotated data) 的 监督微调 (supervised fine-tuning, SFT),以及利用 LLM-based self-play simulation 收集的动态交互数据进行 目标导向的AI反馈 (goal-oriented AI feedback) 的 强化学习 (reinforcement learning, RL)。通过这种方式,LLM驱动的对话代理在训练后不仅能泛化到不同的对话案例,还可以通过简单替换学习到的插件来适用于不同的应用,而不影响基座LLM卓越的上下文理解和响应生成能力。此外,本文提出在交互式设置下评估对话系统的策略规划能力。实验结果表明,PPDPP 在谈判、情感支持和辅导三种不同的主动对话应用中,持续且显著优于现有方法。
1.6. 原文链接
https://arxiv.org/abs/2311.00262
1.7. PDF 链接
https://arxiv.org/pdf/2311.00262v2.pdf
2. 整体概括
2.1. 研究背景与动机
当前的大型语言模型(LLMs),如 ChatGPT、Vicuna、LLaMA2-Chat 等,在上下文理解和响应生成方面表现出卓越的能力,尤其在各种对话任务中。然而,LLMs的训练方式通常使其倾向于被动地遵循用户的指令,即以用户意图为中心。这导致它们在需要对话代理主动引导对话走向预设目标的主动对话(proactive dialogues)场景中面临挑战。主动对话的例子包括谈判、情感支持和辅导,这些场景要求对话代理能够策略性地采取行动,以有效地实现特定目标。
在这些主动对话场景中,核心问题在于提升LLMs的对话策略规划 (dialogue policy planning) 能力。对话策略规划指的是在与用户动态交互过程中,对话代理决定采取何种行动以有效实现特定目标的过程。在LLM出现之前,研究主要依靠基于语料库的学习方法,但这高度依赖静态的 人工标注对话 (human-annotated dialogues),并且难以优化对话的长期目标。随着LLMs的兴起,为每个特定应用微调整个对话系统变得不切实际且成本高昂。
现有LLM驱动的对话策略规划方法主要有两类:
-
基于提示的策略规划 (Prompt-based policy planning): 通过各种提示方案 (prompting schemes) 指导冻结的LLM进行策略规划,例如在每一轮中进行
自我思考 (self-thinking)或策略规划 (strategy planning)。 -
迭代增强 (Iterative enhancement): 通过
verbal AI feedback迭代改进LLM在处理特定案例时的对话策略规划能力。然而,这些方法存在几个具体挑战或空白:
-
能力受限:
LLMs在零样本或少样本提示下,规划有效对话策略的能力有限。这意味着冻结的Actor LLM的规划能力限制了目标实现效果。 -
可迁移性差: 基于迭代细化 (iterative refinement) 的方法,如
ICL-AIF,需要对每个新案例进行多轮自博弈对话模拟 (self-play dialogue simulations)来规划满意的策略,这在现实应用中不切实际。这些方法的学习成果通常无法泛化或迁移到新的情境。 -
评估局限: 现有研究通常通过
轮级响应质量 (turn-level response quality)指标(基于固定参考响应)来评估对话代理的性能。这种评估协议无法自动评估对话代理的策略规划能力,而策略规划能力是由多轮对话中目标实现的有效性和效率决定的。为了克服这些挑战,本文提出了一个新的研究切入点和创新思路:引入一个可调优的语言模型插件作为可插拔的对话策略规划器。
2.2. 核心贡献/主要发现
本文通过引入 PPDPP 框架,为LLM驱动的主动对话代理的策略规划带来了显著改进,其核心贡献和主要发现如下:
- 提出
PPDPP范式: 引入了PPDPP(Plug-and-Play Dialogue Policy Planner),这是一个可调优的语言模型插件,作为LLM驱动对话代理的策略规划器。这种插件化的设计使得策略规划能力可以被单独训练和替换,而不影响基座LLM的通用能力。 - 新颖的训练框架: 开发了一个结合
监督微调 (SFT)和强化学习 (RL)的训练框架。SFT利用现有人工标注数据 (human-annotated data)进行初始化,而RL则通过LLM-based self-play simulation收集动态交互数据,并结合目标导向的AI反馈 (goal-oriented AI feedback)进行优化。这种结合利用了有限标注数据,并通过大量模拟交互提升了策略规划能力。 - 泛化性和适用性: 证明了
PPDPP训练后的对话代理不仅能更好地泛化到不同的对话案例,而且通过简单地替换学习到的插件,就能适用于不同的应用场景,从而实现了模块化和灵活性。 - 交互式评估协议: 提出了一种基于
LLM-based user simulators和reward models的交互式评估方法,以解决传统轮级评估的局限性。这种方法能够自动评估多轮对话中目标实现的成功率 (Success Rate, SR) 和效率 (Average Turn, AT)。 - 卓越的实验性能: 在谈判 (
CraisglistBargain)、情感支持 (ESConv) 和辅导 (CIMA) 三个不同主动对话应用中,PPDPP持续且显著优于现有LLM-based对话系统,证明了其在有效性和效率方面的优越性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 主动对话 (Proactive Dialogues)
主动对话是指对话系统在交流过程中,不只是被动地响应用户,而是能够主动地引导对话方向、提出建议、澄清信息或采取特定策略,以实现预设的对话目标。这与传统的被动式或以用户为中心的对话系统形成对比。在主动对话中,系统需要具备预测、规划和执行策略的能力。例如,在谈判中,系统可能需要主动提出新的价格;在情感支持中,系统可能需要主动探索用户的情绪根源;在辅导中,系统可能需要主动引导学生理解知识点。
3.1.2. 对话策略规划 (Dialogue Policy Planning)
对话策略规划是主动对话系统的核心组成部分,它指的是对话系统决定在给定对话状态下应该采取何种行动(或策略)的过程,以最大限度地实现其长期目标。这些行动可能包括提问、提供信息、表达情感、提出建议、谈判等。一个好的对话策略规划器能够使对话系统在复杂、动态的交互环境中,有效地推动对话进程,并最终达成目标。
3.1.3. 大型语言模型 (Large Language Models, LLMs)
大型语言模型是具有数亿到数万亿参数的深度学习模型,它们在海量文本数据上进行预训练,学习语言的统计规律、语法、语义以及一定程度的世界知识。LLMs 能够生成连贯、有意义的文本,并执行多种自然语言处理任务,如文本摘要、翻译、问答和对话生成。它们通过理解上下文和生成符合语境的响应,显著提升了对话系统的能力。
3.1.4. 监督微调 (Supervised Fine-Tuning, SFT)
监督微调是一种机器学习技术,用于在特定任务的数据集上进一步训练一个已经预训练好的模型(如 LLM)。在 SFT 过程中,模型会根据任务特定的 人工标注数据 (human-annotated data) 学习输入与输出之间的映射关系。其目标是使模型适应新任务,并提高其在该任务上的性能。在本文中,SFT 用于在 人工标注对话 (human-annotated dialogues) 数据上初始化 PPDPP 的策略规划能力。
3.1.5. 强化学习 (Reinforcement Learning, RL)
强化学习是机器学习的一个分支,其目标是让 智能体 (agent) 在一个 环境 (environment) 中通过与环境的 交互 (interaction) 学习如何采取行动以最大化 累积奖励 (cumulative reward)。智能体通过 试错 (trial and error) 的方式,根据从环境中获得的 奖励 (reward) 信号来调整其行为 策略 (policy)。在本文中,RL 被用于在 自博弈模拟 (self-play simulation) 中根据 目标导向的AI反馈 (goal-oriented AI feedback) 进一步优化 PPDPP 的策略规划器。
3.1.6. 马尔可夫决策过程 (Markov Decision Process, MDP)
马尔可夫决策过程是强化学习中用于建模决策制定问题的一种数学框架。一个 MDP 由以下五元组定义:
-
:
状态 (states)的集合,表示环境的所有可能配置。 -
:
动作 (actions)的集合,表示智能体可以采取的所有可能操作。 -
:
状态转移概率 (state transition probability),表示在状态 采取动作 后,转移到状态 的概率。 -
R(s, a, s'):奖励函数 (reward function),表示从状态 采取动作 转移到状态 所获得的即时奖励。 -
:
折扣因子 (discount factor),用于衡量未来奖励相对于当前奖励的重要性,通常介于 0 到 1 之间。在
MDP中,智能体的目标是学习一个策略 (policy),即在给定状态 时选择动作 的概率分布,以最大化长期累积折扣奖励。对话过程可以被建模为一个MDP,其中对话历史是状态,对话代理的策略选择是动作,对话目标达成后的评估是奖励。
3.2. 前人工作
论文在 相关工作 (Related Works) 部分总结了对话策略规划、可学习插件和来自 AI 反馈的强化学习 (RLAIF) 等方面的先前研究。
3.2.1. 对话策略规划 (Dialogue Policy Planning)
- 传统任务导向对话 (Task-oriented Dialogues): 在
任务导向对话 (task-oriented dialogues)和对话推荐 (conversational recommendation)中,交互过程常被抽象为槽位 (slots) 和值 (values) 序列。规划成功与否通常是客观的,例如系统是否提供了合适的实体。 - 主动对话的挑战: 在主动对话中,没有预定义的议程或模式来简化多轮交互。自然语言交互需要更复杂的推理和领域知识(如心理学或教学技能)。规划结果也更为主观(如辅导中的学习收获、情感支持中的情绪缓解)。
- Pre-LLM 时代: 主要采用
基于语料库的微调 (corpus-based fine-tuning)方法来预测对话策略。这些方法高度依赖静态人工标注对话 (human-annotated dialogues),且难以优化对话的长期目标。 - LLM 时代:
- 提示式策略规划 (Prompt-based policy planning): 促使冻结的
Actor LLM在每一轮进行自我思考 (self-thinking)或策略规划 (strategy planning)(例如:Zhang et al., 2023a;Deng et al., 2023b;Wang et al., 2023a)。 - AI 反馈迭代细化 (Iterative refinement with AI feedback): 针对特定案例,由
LLM生成AI 反馈 (AI feedback)来迭代改进对话策略规划 (例如:Fu et al., 2023;Yu et al., 2023)。 - 混合主动策略 (Mixed-initiative strategy):
Chen et al. (2023)验证了基于混合主动策略提示在主动对话问题中的有效性。
- 提示式策略规划 (Prompt-based policy planning): 促使冻结的
- 现有方法的局限:
- LLMs 在
零样本 (zero-shot)或少样本 (few-shot)提示下规划有效策略的能力不足。 - 迭代细化方法(如
ICL-AIF)缺乏可迁移性,需要为每个新案例进行多轮模拟,不适用于现实世界。 - 这些方法无法通过学习改进
LLM-powered对话代理的策略规划能力,因为所有参数都是冻结且不可学习的。
- LLMs 在
3.2.2. 可学习插件 (Learnable Plug-ins) 用于大型语言模型 (LLMs)
由于商业 LLMs 的黑盒性质和开源 LLMs 全模型微调的高昂成本,一个最新趋势是利用外部插件来提升 LLMs 的某些能力,例如 APIs、视觉模型或 Huggingface 的功能模型。然而,这些插件通常无法从宝贵的反馈中学习并迭代增强自身能力。
最近的研究表明,小型语言模型也可以作为 LLMs 的有价值插件,用于文本分类、摘要、问答等,或赋予 LLMs 特定能力(如心理状态推理)。这些可学习插件可以受益于 监督微调 (SFT) 和 强化学习 (RL)。
3.2.3. 来自 AI 反馈的强化学习 (Reinforcement Learning from AI Feedback, RLAIF)
随着 LLMs 变得越来越强大,能够监督其他模型, 提出了 RLAIF 的概念,用于通过自我改进来训练无害化、无毒化的 LLM,而无需人类标注。
由于 LLMs 的反馈通常是自然语言形式,大多数现有研究 (Shinn et al., 2023;Fu et al., 2023;Madaan et al., 2023;Hao et al., 2023) 直接利用 LLMs 生成的自然语言反馈来 自我细化 (self-refine) 任务指令提示,而不是获得用于模型训练的标量奖励。
本文提出 目标导向的AI反馈 (goal-oriented AI feedback),用于在对话系统背景下促进 RLAIF,它不仅将文本反馈转换为标量奖励,还能捕捉从动态多轮交互中获得的长期目标导向奖励,而非仅基于单轮响应的 AI 偏好 (AI preference)。
3.3. 技术演进
该领域的技术演进可以概括为:
- 早期基于规则/语料库的方法: 在
LLMs出现之前,对话策略规划主要依赖专家系统 (expert systems)的规则或从人工标注语料库 (human-annotated corpora)中学习。这些方法通常在特定任务中表现尚可,但缺乏泛化能力,且难以应对开放域或需要复杂推理的主动对话场景。 LLMs的兴起与提示工程 (Prompt Engineering): 随着LLMs的发展,研究人员开始探索使用提示工程 (prompt engineering)的方式来引导LLMs进行策略规划。通过精心设计的提示,LLMs可以在一定程度上模拟策略生成。这带来了很大的灵活性,但LLM本身的参数是冻结的,其策略规划能力受限于预训练知识和提示的质量。- 自反馈与迭代改进 (Self-Feedback and Iterative Refinement): 为了克服
冻结LLM的局限性,一些工作引入了LLM提供的AI 反馈 (AI feedback)来迭代改进LLM生成的策略或响应。这种方法通过模拟自博弈或自我反思来增强规划能力,但其主要问题是学习成果通常无法迁移到新案例,每次都需要重新进行大量迭代。 - 可学习插件与强化学习 (Learnable Plug-ins and Reinforcement Learning): 本文的工作代表了技术演进的一个新阶段。通过引入一个可学习、可调优的插件作为策略规划器,并结合
SFT和RLAIF,解决了冻结LLM的能力限制和迭代细化方法的迁移性问题。插件化的设计允许在保持LLM通用能力的同时,专门优化策略规划这一特定功能,并通过RL从动态交互中获得长期奖励信号,从而实现更有效、更泛化的策略学习。
3.4. 差异化分析
论文在 Table 1 中对 LLM-based 的通用和对话策略规划方法进行了总结和对比,从七个维度突出了 PPDPP 的创新点。
Table 1: Overview of LLM-based general (upper) and dialogue (lower) policy planning methods.
| Subjective Multi-turn Decision | Explicit Goal | Interaction | Making Strategy | Long-term Optimization | Learning | Gradient Transferability | |
|---|---|---|---|---|---|---|---|
| DSP (Li et al., 2023) | xxx | x | >> | ×× | ✓ | ||
| RAP (Hao et al., 2023) | X | ||||||
| Reflexion (Shinn et al., 2023) | X | X | |||||
| Retroformer (Yao et al., 2023) | X | X | X | xx> | |||
| MI-Prompt (Chen et al., 2023) | X | X | X | X | X | ||
| Ask-an-Expert (Zhang et al., 2023a) | + | X | X | X | |||
| ProCoT (Deng et al., 2023b) | X | ||||||
| ICL-AIF (Fu et al., 2023) | X | X | X | X | |||
| PPDPP | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
以下是 PPDPP 与相关工作的主要区别和创新点:
-
主观多轮决策 (Subjective Multi-turn Decision): 许多通用策略规划方法(如
DSP、Retroformer)主要关注客观单轮决策。对话策略规划通常涉及主观判断和多轮交互。PPDPP明确针对这种复杂的、主观的多轮决策场景。 -
显式目标 (Explicit Goal):
PPDPP强调目标导向 (goal-oriented)的策略规划,显式地将对话目标纳入策略学习过程。一些方法(如Reflexion、MI-Prompt)可能没有如此显式的目标。 -
交互 (Interaction):
PPDPP的训练框架核心是LLM-based self-play simulation,这是一种动态的交互式学习环境,能够捕捉对话的复杂性和实时反馈。这与许多不涉及动态交互的方法(如DSP、Retroformer)形成对比。 -
制定策略 (Making Strategy):
PPDPP直接通过一个可学习的插件来预测和制定对话策略。而Ask-an-Expert和ICL-AIF虽然也涉及策略,但前者是通过询问专家LLM来获得策略建议,后者是通过AI反馈迭代优化,而非直接学习一个可调优的策略规划器。 -
长期优化 (Long-term Optimization):
PPDPP采用强化学习 (RL),利用累积奖励 (cumulative rewards)来优化策略,从而实现对话的长期目标。许多prompt-based方法(如ProCoT、Ask-an-Expert)主要关注单轮的策略选择,缺乏对长期目标的显式优化。 -
可学习 (Learning): 这是
PPDPP最重要的区别之一。PPDPP的对话策略规划器 (dialogue policy planner)是一个可学习、可调优的插件。这意味着其参数可以被SFT和RL更新,从而真正提升策略规划能力。而大多数现有LLM-based方法(如RAP、Reflexion、MI-Prompt、Ask-an-Expert、ProCoT、ICL-AIF)都依赖于冻结的LLM,其参数不可学习,因此LLM的策略规划能力无法得到根本性提升。 -
梯度可迁移性 (Gradient Transferability):
PPDPP的可学习插件经过训练后,其学习到的策略规划能力可以泛化和迁移到新的案例和应用中,只需替换插件即可。这解决了ICL-AIF等方法在面对新情境时需要重新进行大量迭代模拟的局限性。DSP虽然也具有一定的梯度可迁移性,但其目标和应用场景与PPDPP聚焦的主动对话有所不同。综上,
PPDPP的核心创新在于将一个可学习的语言模型插件与结合了SFT和RL的训练框架相结合,以解决LLM在主动对话中策略规划能力受限和泛化性差的问题,同时提出了一个更贴合实际需求的交互式评估范式。
4. 方法论
4.1. 方法原理
PPDPP (Plug-and-Play Dialogue Policy Planner) 的核心思想是为 LLM 驱动的对话代理引入一个可调优的语言模型插件,专门负责对话策略规划。这个插件通过 监督微调 (SFT) 和 强化学习 (RL) 两个阶段进行训练。SFT 阶段利用现有的 人工标注对话 (human-annotated dialogues) 进行初步学习,而 RL 阶段则通过 LLM-based self-play simulation 产生的动态交互数据和 目标导向的AI反馈 (goal-oriented AI feedback) 来进一步优化策略。在推理阶段,这个训练好的插件直接为基座 LLM 提供策略指令,引导其生成响应,从而实现灵活、高效且可泛化的主动对话。
4.2. 核心方法详解
4.2.1. MDP 环境 (MDP Environment)
本文将对话过程建模为一个 马尔可夫决策过程 (Markov Decision Process, MDP)。
在每个对话轮次 :
- 状态 (State): 根据对话历史,智能体观察到当前状态 。
- 动作 (Action): 对话系统选择一个动作 ,其中 是领域专家预定义的候选策略集合。
- 用户响应 (User Response): 用户根据系统动作进行响应。 这个过程会重复进行,直到达到对话目标或达到最大轮次 。 智能体的目标是学习一个策略 ,使其最大化在观测到的对话片段上获得的预期累积奖励: 其中 表示对话历史,即当前状态; 是在状态 下采取的动作; 是在状态 采取动作 后获得的即时奖励,记为 。 是所有可能策略的集合。
4.2.2. 可插拔对话策略规划器 (Plug-and-Play Dialogue Policy Planner, PPDPP)
如图 1(b) 所示,一个较小的模型被用作插件,用于控制 LLM 驱动对话代理的对话策略规划。本文采用一个可调优的预训练语言模型(例如 RoBERTa)作为对话策略规划器来预测动作 。
4.2.2.1. 监督微调 (Supervised Fine-Tuning, SFT)
在进行交互式在线学习之前,PPDPP 可以通过 监督微调 (SFT) 在可用的对话语料库 上进行初始化。具体而言:
给定对话历史作为当前状态 :
PPDPP 预测下一个动作 :
其中, 表示系统在第 轮的发言, 表示用户在第 轮的发言。
SFT 的目标是最小化预测动作 与人类标注动作 之间的交叉熵损失:
其中, 是对话语料库中对话的总数量; 表示语料库中的一个对话; 表示对话 的轮次数量; 是 PPDPP 在第 轮预测的动作的概率分布; 是第 轮人类标注的真实动作(通常表示为 one-hot 编码)。
尽管基于语料库的学习可能导致次优策略,但这种初始化被认为能够加速交互式在线训练的收敛过程。
4.2.3. 自博弈交互 (Self-play Interaction)
在交互式在线学习期间,本文通过提示两个 LLM(一个作为助理 LLM_sys,一个作为用户 LLM_usr)来执行自博弈对话,模拟动态的用户-助理交互。
- 角色和目标: 每个
LLM都会收到关于其角色和对话目标的描述。例如,在谈判对话中,买方(用户)寻求更优惠的价格,而卖方则力求获得更高的价格。 - 助理策略预测和响应生成:
- 当轮到助理发言时,
PPDPP首先根据交互历史预测下一个动作 。 - 预测的动作 被映射到一个预定义的自然语言指令 。
- 然后,助理
LLM(LLM_sys) 根据对话历史和自然语言动作指令生成策略性响应: 其中 是助理LLM的角色提示; 是由PPDPP预测的动作 转换而来的自然语言指令; 和 分别是第 轮的系统和用户发言。
- 当轮到助理发言时,
- 用户响应生成: 接着,用户
LLM(LLM_usr) 根据更新后的对话历史生成响应: 其中 是用户LLM的角色提示。 - 终止条件: 这个过程重复进行,直到达到一个终止状态。自博弈交互有三种类型的状态:
ON-GOING (进行中):对话仍在进行,目标尚未达成。GOAL-COMPLETED (目标完成):指定的对话目标已完成(如解决情绪问题、学生掌握练习)。GOAL-FAILED (目标失败):对话达到最大轮次但未完成目标。
4.2.4. LLM 作为奖励模型 (LLM as Reward Model)
本文使用第三个 LLM (LLM_rwd) 作为奖励模型,它具有两个功能:
- 判断目标完成度 (determine goal completion): 在对话过程中判断目标是否完成。
- 评估策略结果并提供标量奖励 (evaluate policy outcome with scalar rewards): 将评估结果转化为标量奖励。
- 目标导向的 AI 反馈: 通过提示奖励模型回答多项选择题,生成
目标导向的AI反馈 (goal-oriented AI feedback)。 - 反馈转换: 定义一个映射函数 将
verbal feedback转换为scalar rewards。 - 采样策略 (Sampling Strategy): 为了缓解规划结果的主观性和
LLM生成输出的变异性,本文遵循常用做法,对奖励LLM的解码序列进行采样。通常,通过对 次采样得到的目标导向的AI反馈进行平均,可以获得一个标量值 : 其中 是奖励模型的提示; 是LLM生成时的温度参数,控制输出的随机性。 - 奖励分配:
- 首先,使用 来判断自博弈交互的状态。如果 不小于某个阈值 ,则认为状态为
GOAL-COMPLETED。 - 如果对话达到终止状态(
GOAL-COMPLETED或GOAL-FAILED),则奖励 。 - 如果对话未终止,则分配一个小的负奖励,例如 ,以惩罚冗长的对话,促进高效的目标完成。
- 首先,使用 来判断自博弈交互的状态。如果 不小于某个阈值 ,则认为状态为
4.2.5. 强化学习 (Reinforcement Learning)
当对话达到目标或最大轮次时,本文获得 目标导向的奖励 (goal-oriented reward) 。
策略代理被表示为 ,它返回在给定状态 下采取动作 的概率。为了优化策略代理,本文使用 Vanilla Policy Gradient (Sutton et al., 1999) 方法,其公式如下:
其中:
- 是
PPDPP的可学习参数。 - 是学习率。
- 是策略函数对参数 的梯度,表示在状态 下采取动作 的概率的对数梯度。
- 是从当前时刻 到对话结束 的累积折扣奖励,计算方式为: 其中, 是在 时刻的即时奖励; 是折扣因子,用于衡量未来奖励的重要性。
在推理阶段,经过调优的 PPDPP 直接根据对话历史提供动作提示,以指导对话 LLM 生成下一个响应。此时,奖励 LLM 将不再使用(如图 1(b) 中的虚线所示)。通过这种方式,LLM 驱动的对话代理在处理新案例时,无需进行多次迭代模拟,即可展示出更强的适应性。
下图(原文 Figure 1)展示了两种 LLM-based 主动对话系统的架构,其中图 (b) 描绘了 PPDPP 的工作原理:
该图像是论文中的示意图,展示了两种基于大语言模型的主动对话系统架构。图(a)为基于提示的策略规划,图(b)为本文提出的可插拔式对话策略规划器PPDPP,展示了训练流程及推理阶段的模块交互。
图 1: 两种 LLM-based 主动对话系统的架构。虚线部分在推理阶段将被阻断。
5. 实验设置
5.1. 数据集
本文在三种不同类型的主动对话应用中评估 PPDPP 框架,包括谈判对话、情感支持对话和辅导对话。训练集中的 人工标注对话 (human-annotated dialogues) 用于对话策略规划器的 监督微调 (SFT),而数据集中仅有的案例背景信息用于 强化学习 (RL) 过程。
以下是原文 Table 2 的数据集统计信息: Table 2: The statistics of datasets (train/dev/test).
| Dataset | # Case | # Act |
|---|---|---|
| CraisglistBargain | 3,090/188/188 | 11 |
| ESConv | 1,040/130/130 | 8 |
| CIMA | 909/113/113 | 5 |
CraisglistBargain(谈判对话):- 来源: 创建,是一个讨价还价谈判数据集,买家和卖家就商品价格进行谈判。
- 特点:
Yang et al. (2021)设计了15种对话行为 (dialogue acts) 对其进行标注,其中包括11种谈判策略和4种终止行为。实验中只考虑11种谈判策略。 - 案例信息: 每个案例都包含商品类别、商品描述、买家目标价格和卖家目标价格,这些作为指令信息。
- 数据划分: 将原始开发集(dev)分成新的开发集和测试集。
ESConv(情感支持对话):- 来源: 创建,包含1300个案例。
- 特点: 包含8种支持策略。
- 案例信息: 每个案例都附有问题类型、情感类型和情境描述。
- 数据划分: 采用原始的训练/开发/测试集划分。
CIMA(辅导对话):- 来源:
Stasaski et al. (2020)创建,一个众包数据集,标注者通过扮演学生和老师,使用5种教学策略来练习将介词短语从英语翻译成意大利语。 - 特点: 包含5种教学策略。
- 案例信息: 每个练习被视为一个案例。
- 数据划分: 随机将数据集按8:1:1的比例划分为训练/开发/测试集。
- 来源:
5.2. 评估指标
传统的评估方法(如轮级响应评估)在评估对话策略规划能力时存在局限性。因此,本文采用对话级别的交互式评估,并引入以下指标:
-
平均轮次 (Average Turn, AT):
- 概念定义:
平均轮次 (AT)衡量的是对话系统达成目标所需的平均对话回合数,回合数越少,效率越高。它评估了策略规划器引导对话高效实现目标的能力。 - 数学公式:
- 符号解释:
AT: 平均轮次。- : 成功完成目标的对话案例总数量。
- : 第 个成功对话所经历的轮次。
- 特点: 用于衡量目标完成的效率,数值越小越好。
- 概念定义:
-
成功率 (Success Rate at turn t, SR@t):
- 概念定义:
成功率 (SR@t)衡量的是在预设的最大对话轮次 内,对话系统能够成功达成预定目标的案例百分比。成功率越高,有效性越强。 - 数学公式:
- 符号解释:
- : 在 轮内的成功率。
- : 在 轮内成功完成目标的对话案例数量。
- : 所有对话案例的总数量。
- 特点: 用于衡量目标完成的有效性,数值越大越好。实验中将最大对话轮次设置为8。
- 概念定义:
-
销售与列表比 (Sale-to-List Ratio, SL%):
-
概念定义:
销售与列表比 (SL%)专门用于谈判对话 (CraisglistBargain),衡量买家在谈判中获得的收益。它表示成交价与卖家目标价之间的差额占买家目标价与卖家目标价之间差额的比例。该比率越高,表示买家获得的利益越大。如果未能达成交易,SL%设为0。 -
数学公式:
-
符号解释:
- :销售与列表比。
- :最终成交价格。
- :卖家最初的列表价格或目标价格。
- :买家的目标价格。
-
特点: 用于衡量谈判对话中目标完成的有效性(买家收益),数值越大越好。
交互式评估协议: 评估是通过与
LLM-based user simulator交互进行的,而目标完成情况(GOAL-COMPLETED或GOAL-FAILED)由LLM-based reward model确定。附录A中提供了对LLM作为奖励模型和用户模拟器可靠性的初步分析。
-
5.3. 对比基线
为了全面评估 PPDPP 的性能,本文将其与一系列基线模型进行了比较,包括传统的 fine-tuned dialogue model 和多个最新的 LLM-based dialogue policy planning methods。
-
DialoGPT(Zhang et al., 2020):- 类型: 通用
fine-tuned dialogue model。 - 特点: 一个大型预训练的生成式对话模型,在通用对话数据上进行微调。作为非
LLM-based策略规划的代表。 - 说明 (Appendix E.5):
DialoGPT作为一种通用微调对话模型。
- 类型: 通用
-
Standard(Vanilla LLM):- 类型:
LLM-based简单提示方法。 - 特点: 简单地提示两个
LLM使用任务指令进行自博弈对话,不考虑任何对话策略。代表了LLM在没有特定策略引导下的基础表现。 - 说明 (Appendix E.5): 简单提示两个
LLM进行自博弈对话,不考虑任何对话策略。
- 类型:
-
Proactive(Deng et al., 2023b):- 类型:
LLM-based策略预测方法。 - 特点: 首先提示
LLM-based dialogue system选择下一轮最合适的策略,然后根据所选策略生成响应。将策略标签映射为自然语言指令(使用MI-Prompt方案)。最初用于谈判对话,通过修改任务指令和候选策略集可适用于其他应用。 - 说明 (Appendix E.5): 首先提示基于
LLM的对话系统选择下一轮最合适的策略,然后根据所选策略生成响应。策略标签映射为自然语言指令(混合主动策略提示MI-Prompt)。
- 类型:
-
ProCoT(Deng et al., 2023b):- 类型:
LLM-based链式思考 (CoT) 策略预测方法。 - 特点: 在
Proactive的基础上进一步改进,通过提示LLM-based dialogue system生成链式思考 (chain-of-thought, CoT)的描述性分析,然后规划下一轮策略。同样结合了MI-Prompt。最初用于谈判对话,通过修改任务指令和候选策略集可适用于其他应用。 - 说明 (Appendix E.5): 在
Proactive的基础上,通过提示LLM生成链式思考 (CoT)的描述性分析来规划下一轮策略。同样结合了MI-Prompt。
- 类型:
-
Ask-an-Expert (AnE)(Zhang et al., 2023a):- 类型:
LLM-based专家咨询策略方法。 - 特点: 提示另一个
LLM作为战略专家,通过 个部分问题推理下一个对话策略。对话策略是口头描述而非从预定义分类中选择。最初用于情感支持对话,通过修改专家LLM的角色和预定义问题可适用于其他应用。 - 说明 (Appendix E.5): 提示另一个
LLM作为战略专家,通过 个部分问题推理下一个对话策略。
- 类型:
-
ICL-AIF(Fu et al., 2023):-
类型:
LLM-based迭代细化AI feedback方法。 -
特点: 提示另一个
LLM为玩家提供反馈,以改进其对话策略,反馈是口头形式而非显式策略。与AnE不同,ICL-AIF使用对话级别的反馈进行策略改进,并进行 次迭代。最初用于谈判对话,通过修改任务指令和角色扮演描述可适用于其他应用。 -
说明 (Appendix E.5): 提示另一个
LLM为玩家提供反馈,以改进其对话策略。使用对话级别的反馈进行策略改进,并进行 次迭代。这些基线模型涵盖了从传统微调模型到各种
LLM-based策略规划方法的范畴,为全面评估PPDPP提供了坚实的基础。
-
5.4. 实施细节
PPDPP插件: 默认采用RoBERTa(roberta-large) 作为可插拔的对话策略规划器。- 基座
LLM(LLM_sys和LLM_usr) 和奖励模型 (LLM_rwd): 均使用ChatGPT(gpt-3.5-turbo-0613)。LLM_sys和LLM_usr的温度参数 ,以生成确定性输出。LLM_rwd的温度参数 ,采样次数 ,以集成标量奖励。
- 对比实验中的其他
LLM主干: 为了比较不同LLM的表现,还采用了两个流行的开源LLM-based对话系统作为主干模型:Vicuna-13B-delta-v1.1LLaMA-2-13B-Chat- 这些开源
LLM使用与ChatGPT相同的超参数设置。
- 提示细节:
- 助理和用户玩家的角色扮演提示 ( 和 ) 详见附录
E.1和E.2。 - 对话动作的自然语言指令映射 () 详见附录
E.3。 - 奖励模型的提示 () 和整个奖励映射过程详见附录
E.4。
- 助理和用户玩家的角色扮演提示 ( 和 ) 详见附录
- 训练细节: 附录 提供了详细的训练过程和超参数设置。训练分为
监督微调 (SFT)和强化学习 (RL)两个阶段。SFT阶段:批量大小16,训练轮次10,学习率6e-6,最大序列长度512。RL阶段:训练回合1,000,学习率1e-6,最大对话轮次8,折扣因子 。- 所有实验均在配备8个
Tesla V100 GPU的服务器上运行。
6. 实验结果与分析
6.1. 核心结果分析
以下是原文 Table 3 的实验结果,总结了不同方法在三个数据集上的表现: Table 3: Experimental results. #Tokens denotes the approximate tokens required for prompting LLMs to simulate a new conversation, where denotes the standard prompt length for one episode of conversation. and are respectively set to 3 and 5 by default as set by corresponding works.
| Method | #Tokens | CraisglistBargain | | | ESConv | | CIMA | | :---------------------- | :----------- | :---------------- | :------ | :------ | :----- | :------ | :--- | :------ | | | AT↓ | SR↑ | SL%↑ | AT↓ | SR↑ | AT↓ | SR↑ | DialoGPT | - | 6.73 | 0.3245 | 0.2012 | 5.31 | 0.7538 | 5.43 | 0.4956 | Standard | O(L) | 6.47 | 0.3830 | 0.1588 | 5.10 | 0.7692 | 3.89 | 0.6903 | AnE (Zhang et al., 2023a) | O((M + 1)L) | 5.91 | 0.4521 | 0.2608 | 4.76 | 0.8000 | 3.86 | 0.6549 | Proactive (Deng et al., 2023b) | O(L) | 5.80 | 0.5638 | 0.2489 | 5.08 | 0.7538 | 4.84 | 0.5310 | + MI-Prompt (Chen et al., 2023) | O(2L) | 5.74 | 0.5691 | 0.2680 | 4.78 | 0.7846 | 4.70 | 0.5664 | ProCoT (Deng et al., 2023b) | O(L) | 6.22 | 0.5319 | 0.2486 | 4.75 | 0.7923 | 4.58 | 0.5487 | + MI-Prompt (Chen et al., 2023) | O(2L) | 6.12 | 0.5532 | 0.3059 | 4.83 | 0.7769 | 4.72 | 0.5221 | ICL-AIF (Fu et al., 2023) | O((N + 1)L) | 6.53 | 0.3617 | 0.1881 | 4.69 | 0.8079 | 4.19 | 0.6106 | PPDPP | O(L) | 5.62 | 0.6117 | 0.3376 | 4.56 | 0.8462 | 3.03 | 0.8407 | - w/o SFT | O(L) | 5.71 | 0.6223 | 0.3354 | 4.68 | 0.8384 | 3.18 | 0.8230 | - w/o RL | O(L) | 5.57 | 0.6649 | 0.2280 | 5.24 | 0.7308 | 3.41 | 0.7965
6.1.1. 整体表现
PPDPP显著领先: 提出的PPDPP方法在所有三个主动对话任务 (CraisglistBargain,ESConv,CIMA) 上,持续且大幅优于所有基线方法。这表明PPDPP不仅能高效地完成对话目标(AT更低),还能更有效地完成更多任务(SR或SL%更高)。Token效率:PPDPP在调用黑盒LLM API方面所需的token数量 () 远少于AnE() 和ICL-AIF(),这降低了实际应用的成本和计算资源。SFTvsRL: 监督微调 (-w/o RL行) 对最终性能的贡献不如强化学习 (RL)阶段,尤其在某些任务中,单独SFT的表现甚至低于Standard提示。这突出了RL从动态环境中学习长期策略的重要性。
6.1.2. 任务特定观察
6.1.2.1. 谈判对话 (CraisglistBargain)
- 基线表现:
AnE,Proactive,ProCoT等三种轮级策略规划方法显著提高了交易成功率 (SR) 和交易收益 (SL%)。然而,ICL-AIF仅在交易收益上略有改善,甚至对交易成功率产生负面影响,这可能说明对话级别的AI feedback在谈判对话中难以动态调整策略以达成共识。 PPDPP表现:PPDPP (-w/o RL)(仅SFT) 可以大幅提高交易成功率。RL阶段 (PPDPP行) 进一步显著提高了SL%(从 0.2280 到 0.3376),表明策略优化倾向于更高的谈判收益。- 值得注意的是,这种对
SL%的优化(最大化自身利益)略微降低了交易成功率(从 0.6649 到 0.6117),这是预期的结果,因为追求更高收益可能使卖家达成交易的意愿降低。
6.1.2.2. 情感支持对话 (ESConv)
- 基线表现:
ChatGPT(Standard提示) 在此问题中已达到相当好的性能(成功率 76.92%)。从AI feedback学习的方法 (AnE和ICL-AIF) 略优于显式策略预测方法 (Proactive和ProCoT)。 PPDPP表现:PPDPP (-w/o RL)的表现甚至低于Standard提示,这表明基于语料库的学习远不能令人满意地处理情感支持对话,因为这类对话可能需要更多样化的策略链。- 通过
RL从动态交互中学习后,PPDPP显著提高了成功率(从 0.7308 到 0.8462),并以显著优势超越所有其他基线。
6.1.2.3. 辅导对话 (CIMA)
- 基线表现: 所有基线方法都未能超越
Standard提示方案,这表明ChatGPT本身在辅导翻译方面已经非常强大。 PPDPP表现:- 与情感支持对话不同,基于语料库的学习 (
PPDPP -w/o RL) 在辅导对话中被证明是有用的,大幅优于所有基线。这可能归因于这两个应用中案例的多样性差异:ESConv涉及各种情绪问题,需要不同的策略链;而CIMA所有案例都围绕相同类型的练习(将英语句子翻译成意大利语),语料库学习在与训练数据相似的测试案例中表现良好。 - 尽管如此,
RL仍能进一步大幅提升性能(从 0.7965 到 0.8407)。
- 与情感支持对话不同,基于语料库的学习 (
6.1.3. 轮次表现分析 (Performance w.r.t Turns)
下图(原文 Figure 2)展示了在不同对话轮次下,相对于 Standard 方法的相对成功率比较:
该图像是图表,展示了在不同对话轮次下,PPDPP与其他方法在三个任务(CraigslistBargain,ESConv,CIMA)中的相对成功率比较。纵轴为相对成功率百分比,横轴为对话轮次,PPDPP整体表现优于其他方法。
图 2: 在不同对话轮次下,相对于 Standard 的相对成功率比较。相对成功率是通过将 Standard 提示方法的实际成功率从相关方法的成功率中减去而计算的。
-
PPDPP在所有数据集和几乎每个对话轮次中都优于基线。 -
AnE在前几轮表现相对较强,这表明它能通过详细反馈在短对话语境下成功完成简单目标。然而,随着对话轮次增加,其性能迅速下降,说明AnE未能实现复杂情况下的长期目标。 -
在辅导对话 (
CIMA) 中,所有基线在三轮对话后表现甚至不如Standard提示,这表明它们在做出错误决策后,无法有效调整策略以实现长期目标。下图(原文 Figure 3)展示了谈判对话 (
CraisglistBargain) 中,不同方法在不同对话轮次下,相对于Standard的相对销售与列表比 (SL%)比较:
该图像是图表,展示了不同对话轮次中相对于标准的销售与列表比例(Relative Sale-to-List Ratio %)变化,具体针对CraigslistBargain场景。图中曲线通过不同颜色和标记区分多个方法,显示随对话轮次增加,比例普遍上升。
图 3: 在不同轮次下,相对于 Standard 的相对 销售与列表比 (SL%) 比较(图例与图 2 相同)。
该图进一步支持了 PPDPP 在谈判对话中,不仅在成功率上,也在谈判收益 (SL%) 上具有持续的优势。
6.1.4. 不同 LLM 比较 (Comparisons with Different LLMs)
下图(原文 Figure 4)展示了在不同 LLM 作为主干模型时,PPDPP 的测试性能曲线随训练回合的变化:
该图像是一组折线图,展示了不同大语言模型(ChatGPT、Vicuna、LLaMA2-Chat)在三个任务(CraigslistBargain、ESConv、CIMA)中随训练轮数增加的性能变化,包括成交率和成功率指标。
图 4: 不同 LLM 下的测试性能曲线随训练回合的变化。
- 总体而言,
RL训练的PPDPP有效地提升了所有LLM驱动的对话代理在各个对话问题上的性能。PPDPP的优化目标通常随着训练回合的增加而提高(CraisglistBargain的SL%,ESConv和CIMA的SR)。 ChatGPT并非在所有问题上都最优:- 在谈判对话中,
Vicuna和LLaMA2-Chat实现了更高的收益 (SL%),但交易成功率低于ChatGPT。这表明ChatGPT更倾向于与用户妥协,这可能归因于其增强的响应能力,使其倾向于与对话上下文高度一致的价格。 - 在情感支持对话中,
Vicuna达到了与ChatGPT相当的性能。 - 在辅导意大利语翻译的对话中,
ChatGPT由于其卓越的多语言能力,显著优于其他模型。
- 在谈判对话中,
- 启示: 这些结果表明,
LLM驱动的对话代理在不同对话问题中具有其固有的优势,这源于其基座LLM的黑盒训练过程。这意味着未来可能需要结合多个代理来解决广泛的对话问题。
6.2. 消融实验/参数分析
6.2.1. 采样策略消融研究 (Ablation Study of the Sampling Strategy)
本文对 目标导向的AI反馈 (goal-oriented AI feedback) 的采样策略进行了消融研究,以验证其优势。奖励 LLM 有两个功能:(1) 判断对话中的目标完成状态;(2) 评估策略结果并提供标量奖励。因此,消融研究从这两个角度分析了采样策略的优势。
以下是原文 Table 7 的采样策略消融研究结果: Table 7: Ablation study of the sampling strategy.
| | State Prediction | | | Reward Estimation | | | | | | :-------------- | :--------------- | :-- | :---- | :---------------- | :---- | :---- | :---- | :---- | :---- | | CB | ESC | CIMA | AT↓ | SR↑ | SL%↑ | AT↓ | SR↑ | AT↓ | SR↑ | Method | F1↑ | F1↑ | F1↑ | | | | | | | | PPDPP (l = 10) | 93.7 | 93.4 | 94.6 | 5.62 | 0.6117 | 0.3376 | 4.56 | 0.8462 | 3.03 | 0.8407 | PPDPP (l = 1) | 91.4 | 88.2 | 90.3 | 5.87 | 0.5957 | 0.2623 | 4.67 | 0.8307 | 3.29 | 0.7965
- 状态预测分析: (采样10次) 相比 (不采样) 在状态预测的
F1分数上显著提升。这表明采样策略有效地减少了LLM生成输出的方差,从而提高了状态预测的准确性。 - 奖励估计分析: 在奖励估计方面,采用采样策略()的方法在所有指标上均优于不采样()的方法。这说明细粒度的连续奖励(通过采样平均获得)有助于
RL过程中的策略规划结果更具区分度,从而带来更好的性能。当奖励模型仅分类为预定义离散值时,其提供的信号可能不足以进行有效的RL优化。
6.3. 人类评估 (Human Evaluation)
本文对 ESConv 和 CraisglistBargain 中随机抽样的100个对话进行了人类评估。三位标注者将 PPDPP 生成的响应与其他方法(AnE, ProCoT, ICL-AIF)进行配对比较,评价维度如下:
- 情感支持对话 (
ESConv) 评估维度:Identification (识别):哪个助理在探索和识别问题方面更有帮助?Comforting (安慰):哪个助理在安慰方面更熟练?Suggestion (建议):哪个助理提供了更多有帮助的建议来解决问题?
- 谈判对话 (
CraisglistBargain) 评估维度:-
Persuasive (说服力):哪个助理在谈判中更有说服力? -
Coherent (连贯性):哪个助理更切题且与对话历史一致? -
Natural (自然度):哪个助理更像人类?以下是原文 Table 4 的人类评估结果: Table 4: Human evaluation results.
-
| | ESConv | | | | CraisglistBargain | | | | :------- | :------------------------------------------------- | :------------------------------------------ | :------------------------------------------ | :------------------------------------------ | :----------------------------------------- | :------------------------------------------ | :------------------------------------------ | :------------------------------------------ | | Ide. | Com. | Sug. | Ove. | Per. | Coh. | Nat. | Ove. | | Win | Lose | Win | Lose | Win | Lose | Win | Lose | Win | Lose | Win | Lose | Win | Lose | Win | Lose | PPDPP | 31% | 15% | 14% | 27% | 52% | 12% | 34% | 24% | 40% | 23% | 22% | 12% | 14% | 7% | 31% | 18% | AnE | 31% | 15% | 27% | 52% | 12% | 34% | 24% | 40% | 23% | 22% | 12% | 14% | 7% | 31% | 18% | | ProCoT | 27% | 21% | 34% | 20% | 38% | 15% | 30% | 11% | 24% | 21% | 17% | 15% | 9% | 6% | 27% | 21% | ICL-AIF | 35% | 12% | 32% | 28% | 33% | 29% | 29% | 22% | 55% | 11% | 39% | 12% | 25% | 3% | 62% | 4%
PPDPP整体优势:PPDPP在人类评估的几乎所有方面以及总体 (Ove.) 评价中都优于其他基线。AnE在安慰方面的优势: 唯一的例外是AnE在情感支持对话 (ESConv) 的Comforting方面取得了更高的胜率。- 定性分析: 作者观察到
AnE可以为情感支持策略提供详细指令,其中大多数是富有同理心的策略,这有助于AnE强大的安慰能力。然而,对话系统还应主动探索并解决患者的情绪问题,而不仅仅是表达同理心。
- 定性分析: 作者观察到
6.4. 定性案例研究 (Example Conversations)
附录 提供了不同对话系统与相同用户模拟器交互生成的示例对话,进一步验证了 PPDPP 的有效性。
-
谈判对话示例 (Tables 24, 25, 26):
Standard提示直接暴露预算,导致未达成交易。Ask-an-Expert虽达成交易,但买家做出较大妥协。ProCoT和PPDPP采用有效谈判策略,达成更好的交易。PPDPP在卖家表现出妥协意愿时,能更进一步最大化自身利益。ICL-AIF尽管采纳了所有建议,但未能有效应对动态交互,最终未达成交易。
-
情感支持对话示例 (Tables 27, 28, 29, 30):
Standard提示持续表达同理心,但在情绪强度降低后效果不佳。Ask-an-Expert能生成引人入胜的对话,但同样面临Standard的局限性。ProCoT采用有效情感支持策略,高效解决了患者问题。ICL-AIF能通过教练LLM提供的建议,有效地引导对话经过情感支持的三个阶段。PPDPP优化策略规划器,高效达成目标,对话轮次更少。
7. 总结与思考
7.1. 结论总结
本文引入了一种名为 PPDPP (Plug-and-Play Dialogue Policy Planner) 的新范式,用于为 LLM 驱动的对话代理制定策略。PPDPP 是一个可插拔的可调优语言模型插件,其训练框架结合了 监督微调 (SFT) 和 强化学习 (RL)。SFT 利用现有 人工标注语料库 进行初始化,RL 则从 LLM-based self-play simulation 产生的动态交互数据和 目标导向的AI反馈 中学习。这种方法使得 LLM 驱动的对话代理在训练后不仅能泛化到不同的案例,还能通过简单替换学习到的插件来适用于不同的应用,同时不影响 LLM 的响应生成能力。此外,本文提出了一个交互式评估协议,用于衡量多轮对话中策略规划的有效性和效率。实验结果在谈判、情感支持和辅导三种主动对话问题上验证了 PPDPP 的优越性。
7.2. 局限性与未来工作
论文作者指出了这项研究对会话 AI 领域的两个重要含义,这也可以被视为未来工作的方向:
-
可调优插件的潜力: 可调优插件能够解决
LLMs的特定缺点,并且可以扩展到各种应用,甚至可以集成多个插件来解决更复杂的对话挑战。这意味着未来的研究可以探索更多类型的插件,以及如何有效协调多个插件。 -
不同
LLM固有优势的利用: 论文发现不同LLM驱动的对话代理在不同问题中具有固有的优势。考虑到训练专用LLMs资源密集,这一发现意味着未来有潜力通过集成多个代理协作来解决更广泛的对话问题。这可能涉及到多智能体系统 (multi-agent systems)和代理间的协调 (inter-agent coordination)机制。论文中未明确提及当前方法的具体局限性,但从其提出的未来工作和实验结果中可以推断出一些隐含的局限性。例如,
PPDPP依赖于预定义的动作空间,这可能限制了其在高度开放域对话中的灵活性。LLM-based user simulator和reward model的可靠性虽然经过初步验证,但其本身作为LLM仍然可能存在偏差和不可靠性。
7.3. 个人启发与批判
7.3.1. 个人启发
- 插件化范式的重要性:
PPDPP提出的插件化 (plug-and-play) 策略规划器范式非常有启发性。它提供了一种在不昂贵地微调整个大型LLM的情况下,增强其特定能力(如策略规划)的有效途径。这对于资源有限的团队和需要快速迭代的应用场景尤为重要。这种模块化的思想可以推广到LLM的其他特定能力提升中。 - 自博弈与
RLAIF的强大潜力: 将LLM-based self-play simulation与目标导向的AI反馈 (goal-oriented AI feedback)结合进行强化学习 (RL)是一条非常有效的路径。它允许系统在没有大量人类标注数据的情况下,通过与自身的交互来学习和优化复杂的多轮策略,突破了传统SFT的局限。这种RLAIF范式在未来各种LLM应用中都有巨大的潜力。 - 交互式评估的必要性: 论文强调了
对话级交互式评估 (dialogue-level interactive evaluation)的重要性,并提出了LLM-based user simulator和reward model的评估框架。这比传统的轮级 (turn-level)评估更能反映主动对话系统在实际应用中的性能和目标达成能力,为评估复杂对话系统提供了更贴近实际的视角。 LLM固有能力的发现: 实验中发现不同LLM在不同任务上存在固有优势(例如ChatGPT在多语言任务上的优势, 在谈判中的收益追求),这提醒我们LLM不仅仅是黑盒,其内在能力受预训练数据和架构影响,未来多代理协作 (ensemble of multiple agents)的方向值得深入探索。
7.3.2. 批判
LLM-based Simulator和Reward Model的可靠性与偏见: 尽管附录 对LLM作为奖励模型和用户模拟器进行了初步验证,但其可靠性仍然是潜在的问题。LLM自身可能存在幻觉 (hallucination)、偏见 (bias) 或无法完全模拟真实人类行为的复杂性。如果模拟器或奖励模型本身存在偏差,那么RL过程可能会学到次优或有偏的策略。例如,模拟用户是否能真实反映人类在谈判中的情绪波动和决策逻辑?奖励LLM对“目标完成”的判断是否能与人类专家完全一致?- 预定义动作空间的限制:
PPDPP依赖于预定义的动作空间 (dialogue acts),这意味着其策略规划器只能从有限的、离散的动作集中选择。这可能限制了其在开放域或需要更灵活、更具创造性的策略的对话场景中的应用。如何将这种方法扩展到更开放、更细粒度的动作空间是一个挑战。 Goal-oriented AI feedback的精调成本: 尽管RL减少了人类标注,但目标导向的AI反馈 (goal-oriented AI feedback)的设计和verbal feedback到scalar rewards的映射 () 仍然需要人工精调和领域知识。不同应用场景下,奖励函数的设计可能复杂且耗时。例如,情感支持中的“感到更好”到数值的映射,以及谈判中对“收益”的定义,都需要仔细考量。- 插件模型 (
RoBERTa) 的表达能力: 论文使用RoBERTa作为插件模型。虽然小型PLM相比LLM训练更轻量,但其是否足以捕捉复杂对话策略的所有细微差别和长期依赖性,仍有待更深入的探究。特别是在长对话或需要高度抽象推理的场景中,小型模型的瓶颈可能会显现。 - 训练收敛性与稳定性:
RL训练,尤其是基于自博弈的RL,通常面临收敛性和稳定性挑战。如何确保PPDPP在复杂对话环境中始终稳定收敛到最优策略,以及如何处理自博弈中可能出现的策略崩溃或循环问题,是实际应用中需要关注的问题。 - 泛化性与领域转移的真正边界: 论文声称
PPDPP训练后可以泛化到不同案例,并通过替换插件适用于不同应用。虽然实验结果支持这一说法,但其泛化和迁移能力的真正边界在哪里?对于完全不同的新领域或新任务,是否仍需要从头开始进行SFT和RL训练?插件的跨领域迁移成本仍需进一步量化。
相似论文推荐
基于向量语义检索推荐的相关论文。