Refining Text Generation for Realistic Conversational Recommendation via Direct Preference Optimization

Michimasa Inaba

论文状态：已完成

Refining Text Generation for Realistic Conversational Recommendation via Direct Preference Optimization

发表：2025/08/27

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种改进的对话推荐系统方法，通过利用大型语言模型生成对话摘要和推荐信息，从而捕捉用户显式及隐式偏好。采用直接偏好优化（DPO）进行调优，确保生成内容信息丰富。实验结果表明，该方法能更自然地实现对话推荐，提升用户体验。

摘要

Conversational Recommender Systems (CRSs) aim to elicit user preferences via natural dialogue to provide suitable item recommendations. However, current CRSs often deviate from realistic human interactions by rapidly recommending items in brief sessions. This work addresses this gap by leveraging Large Language Models (LLMs) to generate dialogue summaries from dialogue history and item recommendation information from item description. This approach enables the extraction of both explicit user statements and implicit preferences inferred from the dialogue context. We introduce a method using Direct Preference Optimization (DPO) to ensure dialogue summary and item recommendation information are rich in information crucial for effective recommendations. Experiments on two public datasets validate our method's effectiveness in fostering more natural and realistic conversational recommendation processes. Our implementation is publicly available at: https://github.com/UEC-InabaLab/Refining-LLM-Text

思维导图

论文精读

中文精读约 35 分钟读完 · 23,462 字

1. 论文基本信息

1.1. 标题

通过直接偏好优化改进文本生成以实现逼真对话推荐 (Refining Text Generation for Realistic Conversational Recommendation via Direct Preference Optimization)

1.2. 作者

Manato Tajiri 和 Michimasa Inaba，隶属于日本电气通信大学 (The University of Electro-Communications)。

1.3. 发表期刊/会议

该论文发布于 ArXiv，当前为预印本 (Preprint) 状态，尚未正式发表于期刊或会议。

1.4. 发表年份

2025年8月27日 (UTC)。

1.5. 摘要

对话推荐系统 (Conversational Recommender Systems, CRSs) 旨在通过自然对话了解用户偏好并提供合适的推荐。然而，现有的对话推荐系统常通过在简短会话中快速推荐项目，偏离了逼真的人机交互。为了解决这一问题，本研究利用大型语言模型 (Large Language Models, LLMs) 从对话历史中生成对话摘要，并从项目描述中生成项目推荐信息。这种方法能够提取用户明确的陈述以及从对话上下文中推断出的隐式偏好。作者引入了一种使用直接偏好优化 (Direct Preference Optimization, DPO) 的方法，以确保生成的对话摘要和项目推荐信息富含对有效推荐至关重要的信息。在两个公共数据集上的实验验证了该方法在促进更自然、逼真的对话推荐过程方面的有效性。

1.6. 原文链接

ArXiv 链接: https://arxiv.org/abs/2508.19918
PDF 链接: https://arxiv.org/pdf/2508.19918v3.pdf

2. 整体概括

2.1. 研究背景与动机

推荐系统在提升用户满意度方面发挥着关键作用（例如亚马逊和Netflix），但常常面临新用户或新项目的“冷启动问题 (cold-start problem)”。对话推荐系统 (CRSs) 被视为一个有前景的解决方案，通过自然对话收集用户偏好。这种方式避免了形式化的评分输入，允许信息自然获取并提高可访问性；它们可以根据用户响应动态调整查询；并通过引导式提问有效地发掘用户可能未察觉的潜在需求和兴趣，尤其对于新用户。

然而，现有许多对话推荐系统 (如基于REDAL数据集构建的系统) 存在一个核心问题：它们倾向于在简短的对话会话中过早且快速地推荐项目，后续建议也往往基于即时用户反馈。这种做法与逼真的人类对话场景大相径庭，在真实场景中，推荐者通常会首先全面了解用户的偏好、经验和上下文信息，然后才谨慎地提出推荐。此外，隐式信息（例如未明确表达的上下文、情感和过往经验）在自然交互中至关重要，但在当前研究中其有效整合仍未得到充分探索。这种与自然对话过程的偏差是限制现有系统实际效用的一个关键因素。本研究旨在解决这些挑战，促进更自然的对话过程，并实现隐式信息的有效整合。

2.2. 核心贡献/主要发现

本研究的核心贡献和主要发现如下：

提出改进的对话推荐方法： 本文提出了一种基于对 SumRec (一种利用大型语言模型生成对话摘要和项目推荐信息的方法) 进行扩展的方法。通过使用直接偏好优化 (DPO) 对大型语言模型进行微调，该方法专门针对逼真的对话推荐数据集进行了优化，旨在生成富含推荐关键信息的文本。
验证了方法性能的优越性： 通过与基线方法和原始 SumRec 进行比较，实验证明所提出的方法在两个公共数据集（Tabidachi Corpus 和 ChatRec）上均取得了优越的推荐性能，尤其在较高排名 (higher ranks) 时性能提升显著，表明其能大幅提升用户初次查看的候选列表质量。
强调了对话摘要 DPO 训练的关键作用： 消融研究和人工评估结果均表明，对对话摘要生成模型进行 DPO 训练是提升整个推荐系统性能的关键驱动因素。它显著增强了摘要捕捉推荐相关信息的能力，提升了用户偏好表示的准确性。
揭示了生成文本的变化： 自动分析显示，DPO 训练使得生成的对话摘要和项目推荐信息更长，但词汇多样性略有降低，这表明模型被引导优先保留和重复对评分预测器重要的关键词和短语，以确保文本“充分包含任务所需的信息”。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解这篇论文，我们需要了解以下几个核心概念：

3.1.1. 对话推荐系统 (Conversational Recommender Systems, CRSs)

概念定义： 对话推荐系统是一种通过与用户进行自然语言对话来逐步理解用户偏好，并在此基础上提供个性化推荐的系统。它不同于传统的推荐系统（如基于评分或历史行为的系统），后者通常要求用户直接提供明确的输入。 核心特点： CRSs 能够动态调整提问，深入挖掘用户潜在需求，并解决传统推荐系统面临的“冷启动问题”，即新用户或新项目缺乏足够数据进行有效推荐的困境。

3.1.2. 大型语言模型 (Large Language Models, LLMs)

概念定义： LLMs 是指拥有数亿甚至数千亿参数的深度学习模型，它们在海量文本数据上进行训练，能够理解、生成和处理人类语言。 作用： 在本文中，LLMs 被用于生成对话摘要（从对话历史中提取用户偏好）和项目推荐信息（将项目描述转化为更具推荐性的自然语言文本）。

3.1.3. 直接偏好优化 (Direct Preference Optimization, DPO)

概念定义： DPO 是一种用于微调大型语言模型的强化学习技术，它直接使用人类偏好数据（即一对“优选”和“劣选”的文本对）来训练模型，使其生成更符合人类偏好的文本。与传统的强化学习从人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 方法不同，DPO 无需单独训练一个奖励模型 (reward model)，从而简化了训练流程并提高了稳定性。 作用： 本文利用 DPO 来训练 LLM，以确保生成的对话摘要和项目推荐信息能够包含评分预测器 (score predictor) 认为对推荐任务至关重要的信息。

3.1.4. 评分预测器 (Score Predictor)

概念定义： 评分预测器是一个机器学习模型，其任务是根据输入（通常是对话摘要、项目推荐信息和项目描述）来预测某个项目对特定用户的推荐分数。 作用： 在本文中，评分预测器是一个基于 Transformer 编码器的预训练语言模型 (DeBERTa)，它将生成的对话摘要、项目推荐信息和原始项目描述作为输入，输出一个预测分数。这个分数是创建 DPO 训练数据的基础，因为它反映了文本质量对最终推荐效果的影响。

3.1.5. 对话摘要 (Dialogue Summarization)

概念定义： 对话摘要是将一段对话内容精炼成简洁、信息丰富的文本的过程。 作用： 在本文中，对话摘要用于从冗长的对话历史中提取用户偏好和经验，为推荐系统提供核心的用户画像信息。对于长对话，本文采用了分块摘要再整合的方法。

3.1.6. 项目推荐信息 (Item Recommendation Information)

概念定义： 项目推荐信息是指由 LLM 根据原始项目描述生成的一段自然语言文本，它不仅仅是客观事实的罗列，更侧重于解释该项目适合哪类用户或在何种情境下值得推荐。 作用： 旨在弥补原始项目描述可能缺乏的用户适配性信息，使推荐更具吸引力和解释性。

3.2. 前人工作

本研究建立在现有对话推荐系统和文本生成技术的基础上，并针对其局限性进行改进。

3.2.1. 对话推荐系统 (Conversational Recommender System)

现有的对话推荐数据集（如 Kim et al., 2024; Li et al., 2018; Zhou et al., 2020）大多以快速、连续推荐多个项目为特点，且后续推荐受用户即时反馈驱动。基于这些数据集开发的 CRS（如 Ravaut et al., 2024; Ma et al., 2021; Lin et al., 2023）也因此针对这些特定的交互模式进行设计。然而，这种模式限制了它们在更逼真、更细致的对话推荐场景中的适用性和有效性，在这些场景中，交互可能更长，推荐决策也更审慎。

3.2.2. 基于 LLM 的对话摘要 (Dialogue Summarization using LLMs)

大型语言模型（如 GPT, Llama, PaLM）在各种 AI 研究领域取得了显著成功。本研究利用 LLM 从对话历史中生成对话摘要，以提取对推荐至关重要的用户偏好。

Zhu et al. (2025a) 提出使用小型语言模型结合 GPT-3.5-Turbo 作为教师模型进行对比学习，生成事实性摘要。但该方法主要针对短对话，难以处理长对话。
Zhong et al. (2022) 通过预训练基于 Transformer 的模型来解决长对话问题，但这通常需要大量数据和计算资源。
Zhang et al. (2022) (SummN) 提出一种通过监督学习微调 LLM 的方法，先对对话片段进行摘要，然后从这些片段摘要中生成最终摘要。本研究采纳了 SummN 的方法来处理长对话历史。

3.2.3. 通过项目描述增强或细化进行推荐 (Recommendation via Augmentation or Refinement of Item Description)

本研究通过生成项目推荐信息来解释项目对特定用户的适用性，从而促进项目推荐。

Lyu et al. (2024) 提出一种通过 LLM 增强项目描述来推荐项目的方法。但他们的研究并未明确将从对话中提取的用户偏好或经验整合到项目描述的增强或项目推荐信息的生成中。
Li et al. (2023) 引入一种通过在生成过程中施加词汇约束来生成更合适的项目推荐信息的方法。
其他方法（如 Cheng et al., 2023; Yang et al., 2024; Ma et al., 2024）涉及使用外部工具检索相似评论或其他外部信息，并利用它们生成项目推荐信息。然而，这些现有研究主要侧重于利用历史用户行为数据或过去评论来生成项目推荐信息。在仅有当前对话历史和项目描述可用的场景中，它们的适用性面临挑战。因此，本研究提出了一种仅基于从对话历史中提取的用户偏好和经验，并结合项目描述来生成相关项目推荐信息的方法。

3.2.4. SumRec (Asahara et al., 2023)

SumRec 是本研究的直接前身，它利用大型语言模型生成对话摘要和项目推荐信息，旨在解决传统 CRS 中“偏离自然对话过程”和“隐式信息整合不足”的问题。它通过生成对话摘要从对话历史中提取显式和隐式用户偏好，并通过从项目描述生成项目推荐信息来以自然语言阐明项目与用户偏好和经验的相关性。这种双重生成过程促进了一种更接近人类对话的推荐流程，即在充分理解用户信息后推荐合适的项目。然而，SumRec 的一个主要限制是其生成的摘要或推荐文本有时可能缺乏对有效下游推荐任务（如项目选择或评分）至关重要的信息，从而可能阻碍系统解释用户需求与项目适用性之间关系的能力。

3.3. 差异化分析

本文的工作与上述相关研究相比，其核心创新点和差异化主要体现在：

DPO微调LLM，优化信息提取： 现有 SumRec 依赖提示工程来指导 LLM 生成对话摘要和项目推荐信息，但难以确保生成文本“富含”对推荐任务至关重要的信息，常导致抽象或通用性过高的输出。本文的核心创新在于将直接偏好优化 (DPO) 应用于微调 LLM，使其能够直接学习生成更利于下游评分预测器 (score predictor) 进行准确预测的文本。这是一种直接优化生成文本“有用性”的机制。
更强的任务导向性： 通过 DPO，模型被引导去提取和生成评分预测器能够准确解读的用户偏好、经验与项目描述之间关系的信息。这意味着生成过程不再仅仅是语义上的摘要或重述，而是更深层次地理解和提炼“对推荐决策有用”的信息。
对真实场景的适用性： 论文旨在提升 SumRec 在更普遍、逼真的对话推荐场景中的适用性，并首次在 Tabidachi Corpus（一个更接近真实对话场景的长对话数据集）上进行了验证。

4. 方法论

4.1. 方法原理

本研究旨在通过优化大型语言模型 (LLM) 生成的文本（对话摘要和项目推荐信息）来提高推荐系统的性能，使其更适用于逼真的对话推荐场景。核心思想是利用直接偏好优化 (Direct Preference Optimization, DPO) 技术，根据评分预测器 (score predictor) 的反馈，指导 LLM 生成对推荐任务更有效、信息更丰富的文本。传统的 SumRec 依赖提示工程 (prompt engineering) 来指导 LLM 生成文本，但这种方式难以持续地提取和生成关键细节，常导致输出过于抽象或通用。本研究通过 DPO 训练，使 LLM 能够生成更精准地反映用户偏好和项目适用性的文本，从而实现更准确、更恰当的推荐。

4.2. 核心方法详解

本研究扩展了 SumRec，提出了一种能够在逼真对话推荐数据集上实现高性能推荐的方法。整个训练流程分为两个主要步骤，如图 3 所示。

4.2.1. 任务定义

本研究专注于对话环境中的项目推荐任务。给定操作员（推荐者）的语料 u _ { o _ { i } } 和客户（被推荐者）的语料 u _ { c _ { i } }，对话历史定义为 $\mathcal { C } = \left\{ u _ { o _ { 1 } } , u _ { c _ { 1 } } , \ldots , u _ { o _ { n - 1 } } , u _ { c _ { n - 1 } } \right\}$ 。在此时刻，有一组候选项目 $T = \{ t _ { 1 } , \dots , t _ { M } \}$ 以及对应的项目描述 $D = \{ d _ { 1 } , \hdots , d _ { M } \}$ 。研究的目标是预测操作员下一个语料 $\boldsymbol { u } _ { o _ { n } }$ 中将包含的正确项目 t _ { k }。

4.2.2. SumRec 推荐流程回顾

SumRec 的项目推荐流程如图 2 所示。它将对话摘要、项目推荐信息和项目描述作为输入，送入一个评分预测器 (Score Predictor) 来预测分数，进而推荐项目。

Figure 2: Item recommendation flow in SumRec. Dialogue Summaries and Item Recommendation Information, generated from Dialogue History and Item Descriptions respectively, are fed with the Item Descrip… 该图像是一个示意图，展示了在对话历史和项目描述基础上生成对话摘要和推荐信息的流程。用户表达了自然偏好，经过对话摘要生成模型，最终生成对东京巨蛋的推荐信息，预测评分为0.608。

Figure 2: Item recommendation flow in SumRec. Dialogue Summaries and Item Recommendation Information, generated from Dialogue History and Item Descriptions respectively, are fed with the Item Description into a Score Predictor to estimate a recommendation score.

SumRec 流程的核心组件包括：

对话摘要生成模型 (Dialogue Summary Generation Model)：
- 该模型使用一个 LLM 从对话历史 $C = \{ u _ { o _ { 1 } } , u _ { c _ { 1 } } , \dotsc , u _ { o _ { n - 1 } } , u _ { c _ { n - 1 } } \}$ 中生成对话摘要 $s$ 。
- 其目的是提取对话历史中对推荐有用的信息，如说话者的偏好和经验。
- 对于长对话，为了避免一次性处理的困难，该模型借鉴了 Zhang et al. (2022) 的方法：首先将对话历史分块，生成部分摘要 (partial summaries)，然后将这些部分摘要拼接起来，生成最终的对话摘要。
- 具体的提示词 (prompts) 示例在附录 B.1 中提供。
项目推荐信息生成模型 (Item Recommendation Information Generation Model)：
- 项目描述通常包含客观事实，但可能缺乏关于该项目适合何种用户的信息。
- SumRec 使用一个 LLM 基于候选项目的项目描述 $D = \{ d _ { 1 } , \hdots , d _ { M } \}$ 来创建项目推荐信息 $r$ 。
- 例如，与仅仅列出项目特征不同，项目推荐信息可能会包含“它也适合那些想享受娱乐的人，因为那里举办各种活动”这样的短语，以阐明项目与用户偏好的关联性。
- 具体的提示词示例在附录 B.2 中提供。
评分预测器 (Score Predictor)：
- 从上述过程获得的对话摘要 $s$ 和项目推荐信息 $r$ ，连同原始项目描述 $d$ ，通过 [SEP] 标记拼接起来。
- 拼接后的文本被送入一个评分预测器，用于估计该项目对客户的推荐分数。
- 评分预测器是一个基于 Transformer 编码器的预训练语言模型 (在实验中使用了 DeBERTa)。
- 它被训练为一个回归任务：对话中实际推荐的项目被赋予目标分数 $y = 1$ ，所有其他项目被赋予目标分数 $y = 0$ 。
  
  SumRec 的一个局限性在于，其生成的项目推荐信息可能不总能包含关于该项目适合何种用户的信息，这可能导致不准确的评分预测。虽然简单的提示工程可以指示 LLM“包含用户偏好信息”，但很难让 LLM 选择性地提取对特定推荐任务至关重要的信息。本研究的重点在于确保生成的文本（对话摘要和项目推荐信息）包含能让评分预测器做出准确预测的关键信息。

4.2.3. 使用 DPO 改进信息提取性能

本研究采用直接偏好优化 (DPO) (Rafailov et al., 2023) 来生成充分包含推荐所需信息的文本（对话摘要和项目推荐信息）。与 SumRec 不对生成模型进行微调不同，本文提出的方法通过 DPO 训练这些模型，以确保评分预测器能够正确解释用户偏好、经验与项目描述之间的关系。用于 DPO 训练的偏好数据是根据评分预测器的预测分数创建的。

本方法的一个关键特点是，候选文本是使用精心设计的结构化提示词生成的。因此，偏好数据中的“劣选 (loser)”样本并非毫无意义的负面示例，而是趋向于“接近良好”但对推荐任务效果稍差的文本。这使得 DPO 过程能够专注于学习高质量文本与略逊文本之间的细微差别。附录 E 提供了 DPO 训练中使用的偏好数据示例。

该图像是一个示意图，展示了通过直接偏好优化（DPO）方法进行对话推荐系统的训练过程。图中分为两个阶段：第一阶段为训练评分预测器，第二阶段为训练生成模型。其中，包含了对话历史、对话摘要生成模型及推荐信息生成模型等关键组件。

Figure 3: Overall training flow of the proposed method. In Stage 1, the Score Predictor is trained. In Stage 2, the Dialogue Summary Generation Model and the Item Recommendation Information Generation Model are trained using DPO.

本研究提出的训练流程如图 3 所示，包含两个步骤： 步骤 1：训练评分预测器 (Training the Score Predictor) 首先训练评分预测器，因为用于 DPO 训练对话摘要和项目推荐信息生成模型的偏好数据是基于评分预测器的输出创建的。

评分预测器使用 DeBERTa 模型。
使用 DeBERTa 进行评分预测可以表示为以下公式： $\hat { y } = \mathrm { D e B E R T a } ( s , r , d )$ 其中：
- $\hat { y }$ 是预测的推荐分数。
- $\mathrm { D e B E R T a }$ 是评分预测器模型。
- $s$ 是由对话摘要生成模型从对话历史生成的对话摘要。
- $r$ 是由项目推荐信息生成模型从项目描述生成的项目推荐信息。
- $d$ 是项目描述。
训练目标是让 $\hat{y}$ 接近真实分数 $y$ (推荐为 1，不推荐为 0)。

步骤 2：使用 DPO 训练对话摘要生成模型和项目推荐信息生成模型 (Training the Dialogue Summary Generation Model and Item Recommendation Information Generation Model using DPO)

4.2.4. 训练对话摘要生成模型 (Training the Dialogue Summary Generation Model)

生成候选摘要： 从给定的对话历史 C _ { n } 开始，首先创建一组 $M$ 个部分摘要 $\{ p s _ { 1 } ^ { n } , \ldots , p s _ { M } ^ { n } \}$ 。将这些部分摘要拼接成一个组合文本 P S _ { n }。然后，LLM 从这个 P S _ { n } 生成 $K$ 个最终的对话摘要 $\{ s _ { 1 } ^ { n } , \ldots , s _ { K } ^ { n } \}$ 。
计算预测分数： 对于每一个生成的对话摘要 $s _ { k } ^ { n }$ ，以及对应的项目推荐信息 $r _ { m } ^ { n }$ 和项目描述 $d _ { m } ^ { n }$ ，将其输入到步骤 1 训练好的评分预测器中，得到预测分数 $\hat { y } _ { k , m } ^ { n }$ ： $\hat { y } _ { k , m } ^ { n } = \mathrm { D e B E R T a } ( s _ { k } ^ { n } , r _ { m } ^ { n } , d _ { m } ^ { n } )$
创建偏好数据： 根据预测分数 $\hat { y } _ { k , m } ^ { n }$ $\overset{y}{^}_{k, m}^{n}$ 与真实分数 $y _ { m } ^ { n }$ $y_{m}^{n}$ 之间的绝对差值，确定“优选 (winner)”摘要和“劣选 (loser)”摘要：
- 优选摘要 $s _ { m , + } ^ { n }$ 是指与真实分数最接近的摘要： $s _ { m , + } ^ { n } = \arg \underset { s _ { k } ^ { n } } { \operatorname* { m i n } } | y _ { m } ^ { n } - \hat { y } _ { k , m } ^ { n } |$
- 劣选摘要 $s _ { m , - } ^ { n }$ 是指与真实分数最远的摘要： $s _ { m , - } ^ { n } = \arg \underset { s _ { k } ^ { n } } { \operatorname* { m a x } } | y _ { m } ^ { n } - \hat { y } _ { k , m } ^ { n } |$ 这些优选-劣选对被用作 DPO 的偏好数据。
DPO 损失函数： 使用以下 DPO 损失函数对对话摘要生成模型进行训练： $\begin{array} { r l } { \mathcal { L } _ { \mathrm { { D P 0 } } } = - \mathbf { E } _ { ( P S _ { n } , s _ { m , + } ^ { n } , s _ { m , - } ^ { n } ) \sim \{ m \in \mathcal { M } _ { n } , n \in \mathcal { N } \} } } \\ { \Bigg [ \log \sigma \Bigg ( \beta \log \frac { \pi _ { \phi } ( s _ { m , + } ^ { n } | P S _ { n } ) } { \pi _ { \phi _ { \mathrm { r e f } } } ( s _ { m , + } ^ { n } | P S _ { n } ) } } & { } \\ { - \beta \log \frac { \pi _ { \phi } ( s _ { m , - } ^ { n } | P S _ { n } ) } { \pi _ { \phi _ { \mathrm { r e f } } } ( s _ { m , - } ^ { n } | P S _ { n } ) } \Bigg ) \Bigg ] } \end{array}$ 其中：
- $\mathcal { L } _ { \mathrm { D P 0 } }$ 是 DPO 损失。
- $\mathbf { E }$ 表示期望。
- $(P S _ { n } , s _ { m , + } ^ { n } , s _ { m , - } ^ { n } )$ 是从数据集中采样的偏好三元组，其中 P S _ { n } 是由部分摘要拼接而成的文本， $s _ { m , + } ^ { n }$ 是优选摘要， $s _ { m , - } ^ { n }$ 是劣选摘要。
- $\mathcal { N }$ 是对话历史索引的集合，即 $\{ 1 , 2 , \ldots , | N | \}$ 。
- $\mathcal { M } _ { n }$ 是对话历史 C _ { n } 对应的候选项目索引集合，即 $\{ 1 , 2 , \ldots , | M _ { n } | \}$ 。
- $\beta$ 是温度参数 (temperature parameter)，控制 DPO 优化的强度。
- $\pi _ { \phi } ( s | P S )$ 是正在训练的对话摘要生成模型（参数为 $\phi$ ）在给定 P S 的条件下生成摘要 $s$ 的概率。
- $\pi _ { \phi _ { \mathrm { r e f } } } ( s | P S )$ 是参考对话摘要生成模型（参数为 $\phi _ { \mathrm { r e f } }$ ，通常是训练前的原始模型）在给定 P S 的条件下生成摘要 $s$ 的概率。
- $\sigma$ 是 Sigmoid 函数。通过最小化此损失，模型学习增加优选摘要的相对概率，同时降低劣选摘要的相对概率。

4.2.5. 训练项目推荐信息生成模型 (Training the Item Recommendation Information Generation Model)

项目推荐信息生成模型也以类似方式使用 DPO 进行训练，目标是生成更能融入推荐关键信息的文本。
选择项目描述： 仅使用真实分数 $y _ { m } ^ { n } = 1$ 的项目描述 $d _ { m } ^ { n }$ 进行训练，以避免训练模型将缺乏必要推荐信息的句子视为良好输出。
生成候选推荐信息： LLM 根据 $d _ { m } ^ { n }$ 生成 $J$ 个项目推荐信息 $\{ r _ { m , 1 } ^ { n } , \hdots , r _ { m , J } ^ { n } \}$ 。
创建偏好数据： 将每个生成的项目推荐信息，连同项目描述 $d _ { m } ^ { n }$ 和对话摘要 $s ^ { n }$ （由 LLM 从对话历史 C _ { n } 生成），输入到评分预测器。
计算输出分数与真实分数 $y _ { m } ^ { n }$ 之间的绝对差值。将最接近真实分数的项目推荐信息标记为 $r _ { m , + } ^ { n }$ ，最远的标记为 $r _ { m , - } ^ { n }$ 。这些被用作偏好数据。
DPO 损失函数： 用于训练项目推荐信息生成模型的损失函数与公式 5 类似，但策略生成的是以项目描述 $d _ { m } ^ { n }$ 为条件的推荐信息 $r$ ，而不是以对话历史 P S _ { n } 为条件的摘要 $s$ 。

5. 实验设置

5.1. 数据集

实验使用了两个日语数据集：Tabidachi Corpus (Inaba et al., 2024) 和 ChatRec (Asahara et al., 2023)。

5.1.1. Tabidachi Corpus

来源、规模、特点和领域：
- 来源： Inaba et al., 2024。
- 领域： 旅游代理任务对话语料库，专注于旅游景点推荐。
- 特点： 包含操作员和客户之间通过 Zoom 进行的观光旅行规划对话。操作员在对话中利用系统查找旅游信息，客户则根据预设情景决定旅行计划。该数据集的对话历史较长，更接近实际对话场景。
- 规模： 总计 165 个对话，42,663 条语料。
  - 训练集：126 个对话。
  - 验证集：15 个对话。
  - 测试集：24 个对话。
- 具体样本：
  - 对话示例 (Table 5): 展示了操作员和客户关于北海道旅行计划的对话，包括季节偏好（秋天）、人数（一人）和具体活动偏好（观赏美丽的秋叶）。
  - 项目描述示例 (Table 6): 展示了“Former Sougenji Stone Gate”的详细信息，包括区域、类型、摘要、价格、地址和特色（如“ Takes about 30 minutes to visit / Recommended for women / Recommended for history enthusiasts”）。
- 项目描述构成： 在本研究中，项目描述使用的是 Table 6 中“Summary”和“Feature”部分的拼接。
- 数据选择： 客户参与者共 55 人（25 名成人、10 名老年人、20 名儿童），每人参与 6 场推荐对话。其中，有 3 场对话是在共享旅游信息检索系统屏幕的情况下进行，另 3 场是在不共享屏幕的情况下进行。本研究仅使用了不共享屏幕的对话，因为共享屏幕提供的视觉信息无法直接输入到 LLM 中。
  
  以下是原文 Table 4 的结果：
  
  Metric Tabidachi Corpus ChatRec
  T E N ALL
  Dialogues 165 237 223 545 1,005
  (Train / Val / Test) 126 / 15 / 24 189 / 13 / 35 178 / 12 / 33 436 /28 /81 803 / 53 / 149
  Utterances 42,663 5,238 5,009 11,735 21,982

以下是原文 Table 5 的结果：

Operator	Hello. Thank you for using our service today. Um, regarding your travel plans, um, do you have any particular destination in mind that you would like to visit?
Customer Operator	Yes. Um, I would like to go to Hokkaido. Ah, yes. Um, do you have any preference for the
Customer	season? Um, around autumn, I think.
Operator	Um, how many people are planning to go?
Customer	Ah, just me, just myself alone.
Operator	Ah, understood. <> I will look into it, so please
Customer	wait a moment. Yes. Ah, yes. Yes, please do.
Operator	Um, is there anything specific you'd like to do,
Customer	or any particular preferences? Yes. Ah, well. Um, I'd like to go somewhere
	with beautiful autumn leaves.
Operator	Yes. Ah, there is one thing but... Yes.
Customer Operator	Um, <>, around Sapporo and Mount Hakodate,
	particularly, are there any other places you'd like to visit? Ah, yes. Around that area, if there are any rec-
Customer	ommendations.
Operator	Let me see... also Yes.
Customer	<>, it's near Sapporo but...
Operator	Yes.
Customer	There is a place called Satellite Place
Operator Customer	Yes.

以下是原文 Table 6 的结果：

SightID		80042498
Title		Former Sougenji Stone Gate (KyuuSougenji Ishimon)
Detail	Area	Kyushu/Okinawa>Okinawa Prefecture>Naha/Southern Main Island
	Genre1	See>Buildings/HistoricSites>Historical Structures
	Genre2
	Summary	A triple-arch gate made of Ryukyulimestone. The massive stone gateextending nearly 100m was built us-ing cut stone masonry technique andis designated as a National ImportantCultural Property. The interior wasthe temple grounds where SougenjiTemple, which enshrined the spiritsof the Sho Dynasty, once stood, butwas completely destroyed during theBattle of Okinawa.
	Time
	Closed
	Price	Free to visit
	Tel	098-868-4887
	Address	1-9-1 Tomari, Naha City, OkinawaPrefecture
	Station	Miebashi
	Parking	None
	Traffic1	10-minute walk from Yui Rail (Oki-nawa Monorail) Miebashi Station orMakishi Station
	Traffic2	6 km from Okinawa Naha Airport
	Feature	Takes about 30 minutes to visitRecommended for women / Recom-mended for history enthusiasts
	Treasure	Important Cultural Property (Struc-ture)

5.1.2. ChatRec 数据集

来源、规模、特点和领域：

来源： Asahara et al., 2023。
领域： 开放域闲聊 (chit-chat) 对话，但被 SumRec 用作评估数据集，因此也纳入本研究。
特点： 包含两个 CrowdWorks 参与者之间的闲聊对话（每方至少 10 轮），设定在“等候室里的陌生人”场景。数据收集在三种话题条件下：旅行 (Travel, T)、除旅行外 (Except for Travel, E) 和无限制 (No Restriction, N)。
规模： 总计 1,005 个对话，21,982 条语料。
- 训练集：803 个对话。
- 验证集：53 个对话。
- 测试集：149 个对话。
项目信息： 旅游目的地信息包含 3,290 个日本国内景点。这些景点最初来自 Rurubu 上的约 45,000 个国内景点，然后排除了 TripAdvisor 评论少于 100 条的景点。
评分方式： 每个对话结束后，系统会随机分配一个包含 10-20 个景点（平均 15.7 个）的文件给参与者进行评分。此外，每个景点还提供了一个“人工预测分数 (human-predicted score)”，由五名第三方工作人员估计的兴趣分数平均值得出（1 到 5 分）。本研究将 2 分或更低的分数转换为“不喜欢 (dislike)” (0)，3 分或更高的分数转换为“喜欢 (like)” (1)，以与 Tabidachi Corpus 的评分方法保持一致。

具体样本：

对话示例 (Table 7): 展示了关于晚餐计划和个人对肉类偏好的闲聊对话。

项目描述示例 (Table 8): 展示了“Sumida Park”的描述，包括其作为赏樱胜地的历史、特点和地理位置。

以下是原文 Table 7 的结果：

A	What are your plans for dinner?
B	Thank you in advance. I'm planning to make ginger pork for dinner today. How about you?
A	Since it's cold, I'm thinking about having shabushabu, but ginger pork sounds good too.
B	That sounds nice. But I've already prepared for ginger pork today, so I'm thinking about having shabu-shabu tomorrow.
A	Pork for two days in a row, do you like pork?
B	I do like pork. I prefer chicken or pork over beef.
A	Do you use pork for curry?
B	Yes. We usually make it with pork at home. Are you perhaps a beef person?
A	We use beef at home. Does that mean you live in the eastern region?
B	Not necessarily, but for some reason we've always used pork at my home.
A	I see, what's your favorite pork dish?
B	For pork dishes, I like wrapping cheese with pork and seasoning it with a sweet and savory sauce.
A	That's quite elaborate. Do you put only cheese inside?
B	Not at all. I also add shiso leaves.
A	Is this fried, or do you just grill it?
B	It's delicious when fried too, but I'm concerned about the calories, so currently I just grill it.
A	What's the best side dish for it?
B	I'm not sure if it's the best, but I usually serve it with lettuce and cherry tomatoes.
A	Just imagining it makes me hungry.
B	Indeed. Do you like beef?
A	I do! I love steak and yakiniku (grilled meat).
A	Thank you for your time!

以下是原文 Table 8 的结果：

id	7
name	Sumida Park
description	Located alongside the Sumida River, it has long been known as a famous cherry blossom view- ing spot. In spring, when approximately 500 cherry trees planted along the Sumida embank- ment bloom, the park becomes crowded with many flower-viewing visitors. The park, which extends from Azuma Bridge, features walking paths that make for an ideal strolling course. From the X-shaped Sakura Bridge, visitors can enjoy a view of the Sumida River below.

5.2. 评估指标

由于任务是从一组候选项目中选择推荐项目，因此实验使用检索任务中常用的指标：命中率 (Hit Rate, HR) 和平均倒数排名 (Mean Reciprocal Rank, MRR)。

5.2.1. 命中率 (Hit Rate, HR)

概念定义： 命中率衡量在推荐列表的前 $K$ 个项目中，用户实际交互的正确项目是否被包含。如果正确项目出现在前 $K$ 个推荐中，则记为一次命中。HR 值越高，表明系统越能成功地将用户感兴趣的项目置于推荐列表的前部。
数学公式： $\text{HR}@K = \frac{\sum_{u \in U} \mathbb{I}(\text{relevant item is in top-K of } L_u)}{\text{Number of users}}$ 或者更简洁地，若以用户为单位计算： $\text{HR}@K = \frac{\text{Number of users for whom the correct item is in the top K recommendations}}{\text{Total number of users}}$
符号解释：
- $\text{HR}@K$ 表示在推荐列表前 $K$ 位计算的命中率。
- $U$ 是所有用户的集合。
- $\mathbb{I}(\cdot)$ 是指示函数，当括号内的条件为真时取 1，否则取 0。
- $L_u$ 是为用户 $u$ 生成的推荐列表。
- $\text{Number of users for whom the correct item is in the top K recommendations}$ 指的是在推荐列表前 $K$ 位中成功命中用户实际交互项目数量的用户数。
- $\text{Total number of users}$ 指的是所有参与评估的用户总数。

5.2.2. 平均倒数排名 (Mean Reciprocal Rank, MRR)

概念定义： 平均倒数排名衡量正确项目在推荐列表中的位置。如果正确项目排在第 rank 位，则其倒数排名为 $1/rank$ 。MRR 是所有查询（或推荐场景）倒数排名的平均值。MRR 值越高，表示正确项目在推荐列表中排名越靠前，系统推荐的精确度越高。
数学公式： $\text{MRR} = \frac{1}{|Q|} \sum_{q=1}^{|Q|} \frac{1}{\text{rank}_q}$
符号解释：
- $|Q|$ 是查询（或推荐场景）的总数。
- $\text{rank}_q$ 是第 $q$ 个查询中，用户实际交互的正确项目在推荐列表中的排名。如果某个查询中没有命中正确项目，则通常不计算其倒数排名（或将其视为 0）。

5.3. 对比基线

为了证明所提出方法的有效性，实验将本文方法与以下两个基线进行了比较：

Baseline (基线)：
- 该模型使用 LLM (Llama-3.1-Swallow-8B-v0.1) 生成对话摘要，但不进行 DPO 微调。
- 仅将生成的对话摘要和原始项目描述作为输入，送入评分预测器。
- 该模型不生成也不使用项目推荐信息。
SumRec：
- 该模型使用 LLM (Llama-3.1-Swallow-8B-v0.1) 生成对话摘要和项目推荐信息，但不进行 DPO 微调。
- 将生成的对话摘要、项目推荐信息和原始项目描述三者都送入评分预测器。
- 该基线代表了原文 (Asahara et al., 2023) 中提出的方法，其生成模型仅通过提示工程指导。

5.4. 实现细节与超参数

开发环境： 框架使用 Python 3.10.12 实现。
核心库版本：
- PyTorch (version 2.4.1)
- Hugging Face Transformers (version 4.46.2)
- Hugging Face Tokenizers (version 0.20.3)
- SacreBLEU (version 2.5.1)
- rouge-score (version 0.1.2)
- Fugashi (version 1.4.0) with MeCab (用于日语分词)
- Optuna (version 4.1.0) (用于超参数优化)
- Hugging Face Datasets (version 3.1.0)
- Hugging Face TRL (Transformer Reinforcement Learning) (version 0.12.1)
大型语言模型 (LLM)： 文本生成模型（包括对话摘要和项目推荐信息生成模型）使用 Llama-3.1-Swallow-8B-v0.1 (Okazaki et al., 2024; Fujii et al., 2024)。
评分预测器 (Score Predictor)： 使用 deberta-v3-japanese-large (3.52 亿参数) (He et al., 2021)。
超参数优化： 使用 Optuna (Akiba et al., 2019) 进行超参数优化。
模型选择： 对话摘要生成模型和项目推荐信息生成模型分别选择在验证集上推荐性能最佳的超参数。然后，每个模型使用这些选定的超参数训练五次，最终结果取这五次训练模型的平均值。
硬件： 所有实验主要在四块 Nvidia A100 80GB GPU 上运行。
训练时间：
- Llama-3.1-Swallow-8B 模型：单次训练一个 epoch 需要约 24 小时（使用全部四块 GPU）。
- DeBERTa 模型：进行超参数调优时，训练 1、4、10 个 epoch。DeBERTa 单个 epoch 的训练约需 4 小时（使用四块 GPU）。

许可：

Tabidachi Corpus：CC BY 4.0 许可。
ChatRec (数据集 + 基线代码)：MIT 许可。
Llama3.1-Swallow-8B：Meta Llama 3.1 Community License 和 Gemma Terms of Use (允许研究和商业使用，但有使用限制)。

deberta-v3-japanese-large：CC BY-SA 4.0 许可。

以下是原文 Table 9 的结果：

Parameter	Summary Model (DPO)	Recommendation Model (DPO)
learning_rate	1.1593 × 10−7	8.7340 × 10−6
per_device_train_batch_size	12	16
num_train_epochs	1	1
optimizer	AdamW (β1 = 0.9, β2 = 0.999, = 10−8, weight_decay= 0)	AdamW (β1 = 0.9, β2 = 0.999, = 10−8, weight_decay= 0)
max_grad_norm	1.0	1.0
gradient_checkpointing	True	True
bf16	True	True
disable_dropout	True	True
DPO-Specific Parameter
β	0.1768	0.06109

以下是原文 Table 10 的结果：

Parameter	Summary Model (DPO)	Recommendation Model (DPO)
learning_rate	6.4087 × 10−7	1.7718 × 10-7
per_device_train_batch_size	8	8
num_train_epochs	1	1
optimizer	AdamW (β1 = 0.9, β2 = 0.999, = 10−8, weight_decay= 0)	AdamW (β1 = 0.9, β2 = 0.999, = 10−8, weight_decay= 0)
max_grad_norm	1.0	1.0	max_grad_norm	1.0
gradient_checkpointing	True	True
bf16	True	True
disable_dropout	True	True
DPO-specific Parameter
β	0.1253	0.03949

6. 实验结果与分析

6.1. 核心结果分析

实验结果在 Tabidachi Corpus 和 ChatRec 两个数据集上对 Hit Rate (HR) 和 Mean Reciprocal Rank (MRR) 进行了比较。

以下是原文 Table 1 的结果：

Dataset	Method	Metrics	@1	@3	@5
Tabidachi Corpus	Baseline	HR ↑	0.2439	0.5056	0.7146
		MRR ↑	0.2439	0.3587	0.4057
	SumRec	HR ↑	0.2040	0.5376	0.7574
	Ours	MRR↑	0.2040	0.3527	0.4032
		HR ↑ MRR ↑	0.2474 0.2474	0.5525	0.7231
ChatRec	Baseline			0.3796	0.4181
		HR ↑ MRR↑	0.8423 0.8423	0.9799 0.9049	0.9933 0.9081
	SumRec	HR ↑	0.8255	0.9698	1.0
		MRR ↑	0.8255	0.8915	0.8984
	Ours	HR ↑	0.8591	0.9832	0.9933
		MRR ↑	0.8591	0.9172	0.9196

Tabidachi Corpus 数据集：

本文提出的方法 (Ours) 在所有排名截断 (rank cutoffs) 上均优于现有方法。
特别是在较高排名（例如 HR@1 和 MRR@1），“Ours”方法取得了显著的性能提升 (HR@1: 0.2474 vs Baseline 0.2439, SumRec 0.2040; MRR@1: 0.2474 vs Baseline 0.2439, SumRec 0.2040)。
这表明本方法能够大幅提升用户通常首先查看的候选列表的质量。

ChatRec 数据集：

ChatRec 本身是一个基线性能较高的推荐任务，尽管如此，本文提出的方法在 HR 方面保持了与现有方法相当或更优的水平。
同时，在 MRR 方面，“Ours”方法持续表现最佳 (MRR@1: 0.8591 vs Baseline 0.8423, SumRec 0.8255)。
这表明即使在对话密度和领域不同的情况下，本方法也能稳定地提高早期排名的精确度。

结论： 综合来看，这些发现证实了本方法在不同数据集上都能提高顶端推荐的质量，并有助于实现实际应用所需的快速、高精度推荐。

6.2. 生成文本分析

对模型生成的文本进行定量分析（见 Table 2），结果表明应用 DPO 在文本结构和词汇使用上带来了显著变化。

以下是原文 Table 2 的结果：

Method	Avg. Len.	Distinct-1/2	BLEU	ROUGE-L
Dialogue	Summary
SumRec	118.6	0.251 / 0.611
Proposed	151.2	0.187 / 0.526
Item Recommendation Information
SumRec	149.7	0.247 / 0.586	3.608	0.087
Proposed	247.2	0.164 / 0.433	1.455	0.019

6.2.1. 对话摘要 (Dialogue Summary)

长度增加： 提出的方法生成的对话摘要比 SumRec 明显更长 (Proposed Avg. Len.: 151.2 vs SumRec Avg. Len.: 118.6)。这表明模型能够保留更多详细的用户偏好和对话上下文。
词汇多样性下降： Distinct-1 和 Distinct-2 分数有所下降 (Proposed Distinct-1/2: 0.187 / 0.526 vs SumRec Distinct-1/2: 0.251 / 0.611)。这可能意味着模型更倾向于重复使用评分预测器认为重要的关键词和短语，以确保文本包含推荐任务所需的关键信息。

6.2.2. 项目推荐信息 (Item Recommendation Information)

长度增加和词汇多样性下降： 项目推荐信息也观察到类似的趋势，长度增加 (Proposed Avg. Len.: 247.2 vs SumRec Avg. Len.: 149.7) 且词汇多样性降低 (Proposed Distinct-1/2: 0.164 / 0.433 vs SumRec Distinct-1/2: 0.247 / 0.586)。
与原始项目描述的相似度降低： 相对于原始项目描述，BLEU 和 ROUGE-L 等 n-gram 相似度指标也呈下降趋势 (Proposed BLEU: 1.455 vs SumRec BLEU: 3.608; Proposed ROUGE-L: 0.019 vs SumRec ROUGE-L: 0.087)。这表明本方法更侧重于融入有利于推荐的解释性元素，而不是优先考虑与源项目描述的表层 n-gram 重叠。

总结： 这些观察结果暗示，对话摘要和项目推荐信息都经过优化，旨在“充分包含任务所需的信息”，即使这意味着牺牲一些简洁性或与原始描述的表面相似度。附录 E 中的 Table 11 提供了生成文本的示例，展示了客户偏好如何体现在摘要中，以及推荐信息如何包含适合用户的描述。但 Table 12 也揭示了生成项目推荐信息时可能出现幻觉 (hallucination) 的问题，即包含原始描述中不存在的信息。

6.3. 消融实验 (Ablation Study)

为了探究 DPO 对不同生成模型的影响，实验在 Tabidachi Corpus 上进行了消融研究，分别评估了仅使用 DPO 优化对话摘要生成模型 (w/o Rec-DPO) 和仅使用 DPO 优化项目推荐信息生成模型 (w/o Sum-DPO) 的效果。

以下是原文 Table 3 的结果：

Method	Metrics	@1	@3	@5
Ours	HR↑	0.2474	0.5525	0.7231
w/o Rec-DPO	MRR ↑	0.2474	0.3796	0.4181
w/o Rec-DPO	HR ↑	0.2393	0.5560	0.7402
w/o Sum-DPO	MRR ↑	0.2393	0.3772	0.4195
w/o Sum-DPO	HR ↑	0.2341	0.5176	0.7363
	MRR ↑	0.2341	0.3554	0.4051

w/o Rec-DPO (仅对对话摘要应用 DPO)：
- 该方法在除 HR@5 外的所有指标上均超越了 SumRec (对比 Table 1 的 SumRec: HR@1 0.2040, MRR@1 0.2040)。
- 在 HR 和 MRR，尤其是在较高排名（如 @1 和 @3）上取得了显著提升。例如，HR@1 从 SumRec 的 0.2040 提升到 0.2393，MRR@1 同样提升。
- 这表明，提升摘要的质量能够更精确地反映用户偏好，从而显著提高初始呈现项目的相关性。
w/o Sum-DPO (仅对项目推荐信息应用 DPO)：
- 该方法也显示出一些改进，但效果不如“w/o Rec-DPO”明显。
- 性能差距在较高排名处倾向于扩大。
- 这表明，虽然改善推荐信息有辅助作用，但优化对话摘要（作为推荐过程的基础）更为关键。 DPO 对项目推荐信息本身的直接影响相对有限。
Ours (对两个模型均应用 DPO)：
- 本文提出的“Ours”方法在所有指标上均表现最佳 (HR@1 0.2474, MRR@1 0.2474)。
- 这证实了通过同时微调摘要和推荐信息生成，用户偏好表示和项目描述的质量得到了协同增强，进一步提高了推荐准确性。

6.4. 人工评估 (Human Evaluation)

为了评估生成的对话摘要和项目推荐信息的质量，研究通过 CrowdWorks 平台进行了人工评估。比较了本文方法 (Ours) 和 SumRec 的输出，基于四个标准：一致性 (Consistency)、简洁性 (Conciseness)、流畅性 (Fluency) 和有用性 (Usefulness)。共有 54 个推荐对话及其项目描述被 10 名 CrowdWorker 评估。

以下是原文 Figure 4 的结果：

该图像是柱状图，展示了对不同特征（有用性、一致性、流畅性和简洁性）评价的百分比分布。可见在简洁性上，72.39%的评价为高，而在一致性上，52.42%的评价为高。

Figure 4: Human evaluation of the proposed method and SumRec on Tabidachi Corpus, assessing dialogue summaries and item recommendation information.

对话摘要 (Dialogue Summary)：

Ours 优于 SumRec： 提出的方法在一致性、流畅性和有用性方面均优于 SumRec。
有用性显著提升： 约一半的评估者认为“Ours”生成的摘要更优，其中“有用性”显示出最显著的差异 (Ours Win 51.54% vs SumRec Win 29.52% for Usefulness)。这表明 DPO 显著提高了摘要质量，使其能更准确地捕捉到对推荐有用的用户偏好信息。
简洁性： 在“简洁性”方面未显示出实质性差异，但“Ours”在不损害简洁性的前提下改进了其他方面，尽管略有冗余倾向。

项目推荐信息 (Item Recommendation Information)：

SumRec 表现更好： 对于项目推荐信息，SumRec 在所有指标上均表现更佳。
原因与影响： 这一发现可能与消融研究结果相关，即仅对项目信息应用 DPO 并未带来持续的性能提升。然而，论文认为这种质量下降并非关键问题，因为项目推荐信息主要用于内部使用，不直接呈现给用户。

结论： 人工评估结果进一步证实，对话摘要的 DPO 训练对于提高推荐系统的性能至关重要，与消融研究的结果相吻合。

7. 总结与思考

7.1. 结论总结

本研究提出了一种通过直接偏好优化 (DPO) 来优化对话摘要和项目推荐信息生成模型的方法，旨在构建一个更适用于逼真对话推荐的系统。实验结果表明，在 Tabidachi Corpus 和 ChatRec 两个数据集上，本文提出的方法在推荐性能方面均优于基线模型。尤其值得注意的是，对话摘要的 DPO 训练对性能提升做出了显著贡献，人工评估也证实了其在提取推荐有用信息方面的增强效果。DPO 成功地引导大型语言模型生成了评分预测器能够更有效利用的文本，从而提高了整体推荐的准确性和相关性。

7.2. 局限性与未来工作

论文作者指出了本研究的以下局限性，并提出了未来可能的研究方向：

模型规模限制： 本研究使用的模型 Llama-3.1-Swallow-8B-v0.1 和 DeBERTa-v3-japanese-large 属于中等规模模型，并非最先进的（数百亿参数）大型语言模型 (LLMs)。虽然更大的模型可能提升性能，但也会显著增加 GPU 内存消耗和推理延迟，在运营成本上形成权衡，这仍是一个挑战。
评估范围狭窄： 实验仅在两个旅行领域的日语数据集（Tabidachi Corpus 和 ChatRec）上进行。因此，本方法对其他领域和语言的泛化能力尚待验证。
幻觉问题持续存在： 在生成项目推荐信息和对话摘要时，模型存在持续的幻觉 (hallucinations) 问题，即编造源内容中不存在的特征。即使这些编造的信息不直接呈现给用户，它们也可能对模型的可解释性产生负面影响。

未来的工作将包括：

在保持生成项目推荐信息质量的同时，进一步提高推荐性能。
解决潜在风险，如数据特定的偏见、内容幻觉和滥用问题。

7.3. 个人启发与批判

7.3.1. 个人启发

DPO在下游任务对齐中的潜力： 本文最主要的启发在于 DPO 机制的巧妙应用。它不仅仅是生成“看起来好”的文本，而是通过下游的评分预测器反馈，直接优化生成文本在“推荐任务”上的有效性。这种将生成模型与特定任务目标深度对齐的范式，对于任何需要高质量、任务导向性文本生成的场景都具有重要的借鉴意义。
对话摘要的基石作用： 消融实验和人工评估都强调了对话摘要质量对整个推荐系统的关键影响。这提醒研究者，在复杂的推荐系统中，对用户偏好的准确、全面理解是核心，而摘要正是实现这一目标的关键。提升摘要质量，比仅改善推荐话术可能带来更大的整体性能增益。
长对话处理策略的实用性： 借鉴 SummN 的分块摘要再整合策略，有效地解决了长对话场景下 LLM 处理能力受限的问题。这种模块化、分层处理复杂输入的方法在实际应用中非常实用。
真实世界交互的考量： 论文关注现有 CRS 快速推荐与真实人类交互脱节的问题，并致力于通过更自然的对话流程来解决，这体现了对用户体验和系统实用性的深刻洞察。

7.3.2. 批判

项目推荐信息质量下降的潜在影响： 人工评估显示，DPO 训练后项目推荐信息的质量在一致性、简洁性、流畅性和有用性上都低于 SumRec。虽然论文解释这部分内容主要供内部使用，不直接呈现给用户，但内部质量的下降仍然是一个潜在风险。劣质的内部信息可能在模型复杂决策中引入噪音，或在未来的可解释性需求中造成障碍。例如，如果需要追溯某个推荐的理由，而推荐信息本身存在幻觉或不准确，那么系统的透明度将大打折扣。
幻觉问题的未决： 幻觉是 LLM 的普遍问题，但本文明确指出在生成项目推荐信息中存在幻觉（如 Table 12 所示，编造“室内时尚、氛围平静”等信息）。尽管论文将其列为未来工作，但对于推荐系统而言，推荐信息的真实性至关重要。一个基于虚假信息做出的推荐，无论多么“有用”，都可能损害用户信任。这要求在实际部署前，必须有强大的事实核查或约束机制。
泛化能力有待证明： 实验仅在两个日语数据集（且都与旅游领域相关）上进行，这严重限制了方法结论的泛化能力。不同领域（如电影、书籍、商品）的对话模式、偏好表达方式和项目描述特点可能截然不同。此外，仅在日语上验证也未能证明其跨语言的有效性。在更广泛的领域和语言上进行验证是其走向实用化的必经之路。
模型规模与性能的权衡： 论文指出使用了中等规模的 LLM 和 DeBERTa，并提及更大模型可能带来的性能提升和成本增加。这虽然是一个实际的工程考量，但也意味着当前成果可能并未达到该方法在理论上的最大潜力。未来的研究应探索如何在保持成本效益的同时，有效利用更强大的模型。
DPO 偏好数据构造的鲁棒性： 偏好数据是根据评分预测器与真实标签的差异来选择优选和劣选样本的。这种方法依赖于评分预测器的初期表现。如果评分预测器本身存在显著偏差或不稳定，可能会影响 DPO 训练数据的质量，进而影响生成模型的优化方向。如何确保 DPO 训练数据的客观性和高质量，即使在初期评分预测器不够完美的情况下，也是一个值得深入探讨的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Metric	Tabidachi Corpus	ChatRec
Metric	Tabidachi Corpus	T	E	N	ALL
Dialogues	165	237	223	545	1,005
(Train / Val / Test)	126 / 15 / 24	189 / 13 / 35	178 / 12 / 33	436 /28 /81	803 / 53 / 149
Utterances	42,663	5,238	5,009	11,735	21,982