Asking Clarifying Questions for Preference Elicitation With Large Language Models

Ofer Meshi

论文状态：已完成

Asking Clarifying Questions for Preference Elicitation With Large Language Models

发表：2025/10/14

基于大语言模型的用户偏好引导 (1)生成式推荐系统中的澄清问题生成 (1)扩散模型驱动的序列问题生成 (1)用户偏好挖掘方法 (1)多阶段用户偏好建模 (1)

原文链接 PDF 下载

价格：0.10

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新方法，通过大型语言模型 (LLM) 生成澄清问题，以有效获取用户偏好，尤其在用户历史信息有限的情况下。该方法采用两阶段的扩散模型启发，分别生成并逐步去除问题中的信息，从而显著提升了 LLM 在引导用户偏好方面的能力。

摘要

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add noise'' to the user profile. The reverse process involves training a model to denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

思维导图

论文精读

中文精读约 46 分钟读完 · 25,452 字

1. 论文基本信息

1.1. 标题

Asking Clarifying Questions for Preference Elicitation With Large Language Models (使用大型语言模型通过提问澄清来引导偏好)

1.2. 作者

Ali Montazeralghaem (alimontazer@google.com), Google, Mountain View, CA, USA
Guy Tennenholtz (guytenn@google.com), Google, Mountain View, CA, USA
Craig Boutilier (cboutilier@google.com), Google, Mountain View, CA, USA
Ofer Meshi (meshi@google.com), Google, Mountain View, CA, USA

1.3. 发表期刊/会议

GENNEXT@SIGIR'25 (2025年ACM信息检索大会GENNEXT研讨会) 这是一个在信息检索领域有较高影响力的会议（ACM SIGIR）的研讨会，表明该研究在推荐系统、自然语言处理和人工智能交叉领域具有一定的学术关注度。

1.4. 发表年份

2025年（论文中显示的发布时间为 2025-10-13T23:32:31.000Z，暗示这是一篇未来的或预期的发表）

1.5. 摘要

大型语言模型 (LLM) 使得推荐系统能够通过开放式对话界面与用户交互。为了个性化 LLM 的响应，引导用户偏好至关重要，尤其是在用户历史记录有限的情况下。一种获取更多信息的方法是向用户提出澄清问题。然而，在各种领域生成有效的序列化澄清问题仍然是一个挑战。为了解决这个问题，本文引入了一种训练 LLM 提出序列化问题以揭示用户偏好的新颖方法。该方法遵循一个受扩散模型 (diffusion models) 启发的两阶段过程：

前向过程 (Forward Process): 从用户档案 (user profile) 开始，生成澄清问题以获取答案，然后逐步移除这些答案，这相当于向用户档案添加“噪声”。
反向过程 (Reverse Process): 训练一个模型通过学习提出有效的澄清问题来“去噪”用户档案。实验结果表明，该方法显著提高了 LLM 提出漏斗式问题 (funnel questions) 和有效引导用户偏好的能力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.12015 (预印本)
PDF 链接: https://arxiv.org/pdf/2510.12015v1.pdf (预印本)

2. 整体概括

2.1. 研究背景与动机

推荐系统 (Recommendation Systems, RSs) 在帮助用户发现海量在线内容方面发挥着关键作用。传统上，这些系统通过分析用户的历史交互来学习其偏好并改进未来的推荐。然而，在许多场景下，关于用户偏好的信息是不足的：

新用户 (New Users): 新用户通常缺乏足够的交互历史，导致“冷启动 (cold start)”问题。
隐私限制 (Privacy Constraints): 隐私政策可能限制系统使用用户的历史数据。
情境因素 (Contextual Factors): 用户的偏好可能受当前情境（如心情、社交场合）影响，这些信息难以通过历史行为推断。

为了解决这些信息缺失的问题，推荐系统可以采用偏好引导 (Preference Elicitation, PE) 技术，即直接向用户提问以澄清其偏好。这种方法不仅可以获取缺失的信息，还能通过允许用户直接表达需求来增强用户的主观能动性 (user agency)，从而提高推荐质量。

随着大型语言模型 (Large Language Models, LLMs) 的快速发展和普及，将 LLM 融入推荐系统，创建对话式推荐系统 (Conversational Recommendation Systems, CRS) 成为可能。CRS 能够通过开放式的对话界面与用户互动，并利用 LLM 的能力在多轮对话中进行偏好引导。虽然简单的提示 (prompting) 技巧可以指导 LLM 在适当时候提问，但如何优化 LLM 提出高质量的引导性问题仍然是一个挑战。

本文旨在解决的核心问题是：如何训练 LLM 有效地生成一系列澄清问题，以准确地引导用户偏好，并以一种“漏斗式 (funnel-like)”的方式（从一般到具体）进行提问？ 现有的研究在生成跨领域有效的序列化澄清问题方面仍面临困难，这正是本文的切入点。

2.2. 核心贡献/主要发现

本文的主要贡献在于提出了一种新颖的方法来训练大型语言模型 (LLM) 生成有效的序列化澄清问题，以引导用户偏好。其核心贡献和主要发现包括：

提出新颖的扩散模型启发式方法 (Diffusion Model-Inspired Approach): 引入了一个受扩散模型启发的两阶段过程来训练 LLM 生成澄清问题。
- 前向过程 (Forward Process): 从完整的用户档案开始，通过生成澄清问题并逐步移除答案来“添加噪声”，从而创建一系列部分用户档案和对应问题的数据。
- 反向过程 (Reverse Process): 训练一个 LLM 作为“提问者 (Questioner)”，通过学习提出有效的澄清问题来“去噪”这些部分用户档案，逐步重建完整的用户档案。
训练 LLM 生成漏斗式问题 (Funnel Questions): 该方法使训练后的 LLM 能够以漏斗式的方式提问，即从更普遍的问题开始，逐步深入到更具体的问题，这更符合人类的对话习惯。
显著提高偏好引导效率 (Significant Improvement in Preference Elicitation Efficiency): 实验结果表明，通过这种方法训练的 LLM 在提问能力上显著提升，能够更有效地引导用户偏好，从而更好地重建真实的用户档案。
引入用户模拟器进行评估 (User Simulator for Evaluation): 为了在没有真实用户交互的情况下进行大规模评估，研究者训练了一个 LLM 作为用户模拟器 (user simulator) 来回答提问者生成的问题，从而提供一个受控的评估环境。
量化微调和问题历史的影响 (Quantifying the Impact of Fine-tuning and Question History): 实验分析了微调提问者和用户模拟器对性能的积极影响，并发现将问题历史与答案一同添加到用户档案中，有助于模型避免重复提问并提高性能。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文，我们需要对以下核心概念有所了解：

大型语言模型 (Large Language Models, LLMs):
- 概念: LLMs 是基于深度学习，特别是 Transformer 架构的语言模型，通过在海量文本数据上进行训练，学习语言的统计规律、语法、语义和世界知识。它们能够生成连贯、有意义的文本，并执行多种自然语言处理任务，如问答、摘要、翻译等。
- 在本文中的作用: 本文利用 LLM 作为核心组件，既作为生成澄清问题的“提问者 (Questioner)”，也作为模拟用户响应的“用户模拟器 (User Simulator)”。此外，它还用于将用户的文本偏好转换为结构化的 JSON 格式。
推荐系统 (Recommendation Systems, RSs):
- 概念: RSs 是一种信息过滤系统，旨在预测用户对物品（如电影、音乐、商品）的“评分”或“偏好”，并向用户推荐他们可能感兴趣的物品。传统 RSs 通常依赖用户的历史行为数据（如购买记录、浏览历史、评分）来构建用户画像。
- 挑战: 面对新用户（“冷启动”问题）或缺乏历史数据时，RSs 的效果会大打折扣。
偏好引导 (Preference Elicitation, PE):
- 概念: PE 是一种主动获取用户偏好信息的技术。与传统 RSs 依赖被动观察用户行为不同，PE 通过直接向用户提问，让用户明确表达他们的需求和偏好，以补充或澄清系统已有的信息。
- 在本文中的重要性: 在 LLM 驱动的对话式推荐系统中，PE 成为关键能力，因为它允许系统在有限历史的情况下，通过对话迅速了解用户的当前需求。
对话式推荐系统 (Conversational Recommendation Systems, CRS):
- 概念: CRS 将推荐系统与对话界面相结合，使用自然语言进行交互。它能够理解用户的自然语言查询，提供个性化推荐，并通过多轮对话进行澄清和调整。
- 优势: LLM 的兴起极大地推动了 CRS 的发展，使其能够进行更开放、更灵活的对话。
扩散模型 (Diffusion Models):
- 概念: 扩散模型是一类生成模型，最初主要用于图像生成。它们通过两个阶段工作：
  - 前向扩散过程 (Forward Diffusion Process): 逐步向数据（例如图像）添加噪声（通常是高斯噪声），直到数据完全变成随机噪声。
  - 反向去噪过程 (Reverse Denoising Process): 训练一个神经网络来学习如何逆转前向过程，即从噪声数据中逐步“去噪”，最终恢复出清晰、完整的数据。
- 离散扩散模型 (Discrete Diffusion Models): 扩散模型的一个变体，适用于离散数据（如文本）。在前向过程中，不是添加连续的高斯噪声，而是通过插入、删除或替换词语等离散操作来“腐蚀”数据。
- 在本文中的应用: 本文将用户档案的构建类比为离散扩散过程。
  - 前向过程：从完整用户档案逐步移除信息（添加“噪声”）。
  - 反向过程：从部分用户档案（“带噪声”）通过提问（“去噪”）来重建完整档案。
微调 (Fine-tuning):
- 概念: 在预训练模型（如 LLM）的基础上，使用特定任务的数据集进一步训练模型，使其适应特定任务。这通常涉及调整模型的所有参数。
- 在本文中的应用: 作者对 Gemma LLM 进行微调，使其成为更高效的“提问者”和“用户模拟器”。
参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 和低秩适应 (Low-Rank Adaptation, LoRA):
- 概念: PEFT 是一系列旨在减少微调大型模型所需计算资源和存储空间的技术。LoRA 是 PEFT 中的一种流行方法，它通过在预训练模型的现有权重矩阵旁边注入小的、低秩的适应矩阵来微调模型，从而显著减少需要训练的参数数量。
- 在本文中的应用: 作者使用 LoRA 进行微调，以提高效率。

3.2. 前人工作

本文在多个相关领域的基础上进行了创新：

传统偏好引导 (Traditional Preference Elicitation): 论文引用了 [16, 18, 23, 24, 26] 等工作，这些研究探讨了在推荐系统中通过直接提问来获取用户偏好的方法。这包括多目标决策、信息理论方法和交互式提问等。
对话式推荐系统 (Conversational Recommender Systems, CRS): 随着 LLM 的发展，CRS 成为一个热门领域。论文引用 [6, 11, 19-21, 31] 等研究，表明 LLM 使得 CRS 能够以开放式对话的形式进行交互。这些工作涵盖了利用 LLM 进行零样本推荐、从用户话语中提取相关信息以及使用强化学习框架等。
扩散模型 (Diffusion Models): 本文方法的核心灵感来源于扩散模型，特别是离散状态空间中的结构化去噪扩散模型 [3, 25]。这些模型最初在计算机视觉领域取得成功 [12, 28]，并被扩展到文本生成等离散数据领域。
LLM 生成澄清问题 (LLMs Asking Clarifying Questions): 训练语言模型提出澄清问题是一个活跃的研究方向。
- Generative Active Task Elicitation (GATE) [17]: 这是一个框架，模型通过自由形式的语言与用户互动，以推断用户的意图行为。
- STaR-GATE [1]: 该方法旨在通过让语言模型在面对模糊或不确定性时寻求额外信息，从而提高其性能。
- PEBOL [2]: 结合贝叶斯优化和 LLM 获得的自然语言偏好引导框架。它利用自然语言推理 (NLI) 和贝叶斯优化策略来指导 LLM 查询的生成。
- Active Preference Inference [22]: 利用 LLM 和概率推理进行主动偏好推断，通过信息性问题快速推断用户偏好。
- 意图分类 (Intent Classification) [27]: 虽然不是直接关于提问，但它关注如何理解用户意图，这与偏好引导有密切关系。

3.3. 技术演进

该领域的技术演进可以概括为从被动观察到主动对话，再到智能引导：

早期推荐系统 (Passive Observation): 最初的推荐系统主要依赖用户过去的隐式或显式行为数据（如浏览、购买、评分）进行推荐。这种方法简单有效，但在数据稀疏和冷启动场景下效果不佳。
传统偏好引导 (Active but Limited Elicitation): 为了弥补数据不足，研究者开始探索直接询问用户偏好的方法（PE）。这些方法可能涉及结构化问卷、多属性效用理论等，但通常不够灵活和自然。
对话式推荐系统初期 (Rule-based/Simple NLU CRS): 随着自然语言处理技术的发展，出现了一些对话式推荐系统。早期可能依赖规则或基于槽填充 (slot-filling) 的方法，对话能力有限，难以处理开放式和复杂的偏好表达。
LLM 赋能的对话式推荐系统 (LLM-powered CRS): 大型语言模型的崛起彻底改变了 CRS。LLM 强大的语言理解和生成能力，使其能够进行更自然、更开放的对话，并能理解用户复杂、模糊的偏好描述。这使得对话式偏好引导成为 CRS 的核心能力。
智能、序列化、漏斗式偏好引导 (Intelligent, Sequential, Funnel Elicitation): 尽管 LLM 增强了 CRS 的对话能力，但简单地提示 LLM 提问并不能保证问题是高效、有策略的。本文的工作正是在这个阶段，致力于通过借鉴扩散模型等先进技术，训练 LLM 能够：
- 生成序列化问题: 问题不是孤立的，而是构成一个连贯的对话流程。
- 有效性: 每个问题都能有效获取用户偏好。
- 漏斗式: 从宏观到微观，逐步聚焦用户兴趣，提升用户体验并避免用户疲劳。

3.4. 差异化分析

本文的方法与现有工作在以下几个方面存在显著差异和创新：

与传统偏好引导方法的差异:
- 灵活性和开放性: 传统 PE 方法可能涉及预定义的问卷或结构化问题，而本文利用 LLM 能够生成自由形式 (free-form) 的问题，适应更广泛的领域和用户表达。
- 自动化生成: 本文的方法自动化了序列化澄清问题 (sequential clarifying questions) 的生成过程，而无需人工设计对话流程。
与一般 LLM 提示方法的差异:
- 优化目标: 仅仅通过提示 LLM 提问，其生成的问题可能缺乏策略性、可能重复或效率低下。本文的方法通过扩散模型启发式的训练范式 (diffusion model-inspired training paradigm)，显式地优化 LLM 提问的有效性 (effectiveness) 和序列性 (sequentiality)。
- 漏斗式提问 (Funnel Questioning): 这是本文的一个核心创新点。通过特定的前向过程（将信息从最具体到最一般进行排序并移除），模型在反向过程中学会了从一般性问题到细节性问题的提问策略，这在很大程度上提升了用户体验和信息获取效率。
与现有 LLM 提问工作的差异:
- 扩散模型类比 (Diffusion Analogy): 虽然有其他工作（如 STaR-GATE）也训练 LLM 提问，但本文首次将用户档案的构建过程类比为离散扩散模型的逆过程，这提供了一个新颖且强大的训练框架。这种将“去噪”过程映射到“提问重建”的理念，为优化提问策略提供了一个优雅的数学框架。
- 端到端训练框架: 本文提出了一个包含前向数据生成和反向模型训练的完整框架，不仅生成了高质量的训练数据，还通过微调 Questioner 和 User Simulator 实现了端到端的优化。
- 对问题历史的利用: 实验结果表明，在用户档案中包含问题历史有助于模型避免重复提问，这一细节增强了对话的连贯性和效率。
  
  总结来说，本文在将扩散模型理念应用于 LLM 的偏好引导任务方面迈出了重要一步，解决了如何高效、策略性地生成序列化澄清问题这一核心挑战，并最终提高了 LLM 在对话式推荐系统中的个性化能力。

4. 方法论

4.1. 方法原理

本文的核心目标是优化一个大型语言模型 (LLM) 以提出高质量的澄清问题，从而有效地引导用户偏好。其方法原理借鉴了扩散模型 (diffusion models) 在离散空间中的思想。直观上，扩散模型通过学习如何从噪声数据中恢复原始数据来进行生成。本文将这个过程类比为用户偏好引导：

“噪声”的引入（前向过程）: 想象一个拥有完整用户偏好信息的档案。如果我们将这些信息逐步移除，直到档案变为空白，这个移除信息的过程就像是向档案中逐步添加“噪声”。在每次移除信息时，我们都记录下为了揭示这部分信息应该提出的问题。
“去噪”的学习（反向过程）: 现在，我们训练一个 LLM。当它看到一个部分缺失信息的用户档案（“带噪声的档案”）时，它的任务是“去噪”，即通过提出最有效的澄清问题来恢复缺失的信息，从而逐步重建完整的用户档案。

为了确保提问的效率和用户体验，本文强调漏斗式问题 (funnel questions) 的生成，即对话应从更一般、更宽泛的问题开始，然后逐渐聚焦到更具体、更细致的问题。例如，先问“你喜欢什么电影类型？”，再问“你喜欢哪位导演的动作片？”。为了实现这一点，在前向过程中，用户档案中的信息会根据其通用性进行排序，并以从最具体到最一般的顺序被“移除”，这样在反向训练时，模型就能学到从一般到具体的提问顺序。

通过这种方式，训练后的 LLM 能够根据当前已知的用户偏好（部分档案）来生成下一个最能揭示用户偏好的问题，并最终逐步构建出完整的用户偏好档案。

4.2. 核心方法详解

4.2.1. 配置文件重建通过提问 (Profile Reconstruction by Asking Questions) (反向过程)

本节描述了模型的生成过程，即如何通过一系列问题和答案来逐步构建用户档案，这对应于扩散模型的反向去噪过程。

目标: 训练一个模型，使其能够通过提出适当的问题，将一个初始的空用户档案 $P_0 = \emptyset$ 转化为一个最终的真实用户档案 $P_n$ 。这通过一系列中间档案 $P_1, \ldots, P_{n-1}$ 来实现。每个中间档案 $P_t$ 代表了在 $t$ 次问答交互后的状态。

用户档案的表示: 每个档案 $P_t$ 被定义为一系列问答对的集合： $P_t = \{ (Q_i, A_i) \}_{i=0}^{t-1}$ 其中， $Q_i$ 是在第 $i$ 轮提问的问题， $A_i$ 是对应的答案。

生成过程的概率模型: 我们希望学习将一个部分或可能被“损坏”的档案 $P_t$ （其中 $t < n$ ）映射到完整档案 $P_n$ 的生成过程。整个生成序列 $P_n$ 的概率可以使用链式法则表示： $p_{\theta, \phi}(P_n) = \prod_{t=1}^{n} p(P_t | P_{t-1}; \theta, \phi)$

符号解释:
- $p_{\theta, \phi}(P_n)$ : 完整用户档案 $P_n$ 的生成概率，由参数为 $\theta$ 和 $\phi$ 的模型决定。
- $P_t$ : 在第 $t$ 步（即 $t$ 次问答交互后）的用户档案。
- $P_{t-1}$ : 在第 t-1 步的用户档案。
- $\theta$ : 提问者 (Questioner) 模型的参数。
- $\phi$ : 用户模拟器 (User Simulator) 模型的参数。

单步生成概率的分解: 每一步的条件概率 $p(P_t \mid P_{t-1}; \theta, \phi)$ 可以进一步分解为三个组成部分的乘积： $\begin{array}{r l} & { \ p ( P _ { t } \mid P _ { t - 1 } ; \theta , \phi ) = p _ { \theta } ( Q _ { t - 1 } \mid P _ { t - 1 } ) } \\ & { \qquad \quad \times p _ { \phi } ( A _ { t - 1 } \mid Q _ { t - 1 } , P _ { t - 1 } ) } \\ & { \qquad \quad \times p ( P _ { t } \mid P _ { t - 1 } , Q _ { t - 1 } , A _ { t - 1 } ) } \end{array}$

符号解释:
- $p_{\theta}(Q_{t-1} \mid P_{t-1})$ : 这是提问者 (Questioner) 的概率。它表示在给定当前部分用户档案 $P_{t-1}$ 的情况下，生成问题 $Q_{t-1}$ 的概率。这个概率由参数为 $\theta$ 的 LLM 建模，反映了提问者的行为。
- $p_{\phi}(A_{t-1} \mid Q_{t-1}, P_{t-1})$ : 这是用户模拟器 (User Simulator) 的概率。它表示在给定问题 $Q_{t-1}$ 和当前部分用户档案 $P_{t-1}$ 的情况下，用户提供答案 $A_{t-1}$ 的概率。这个概率由参数为 $\phi$ 的 LLM 建模，反映了用户（或模拟用户）的响应。
- $p(P_t \mid P_{t-1}, Q_{t-1}, A_{t-1})$ : 这是档案更新的概率。它表示在给定前一状态 $P_{t-1}$ 、问题 $Q_{t-1}$ 和答案 $A_{t-1}$ 的情况下，生成下一个状态 $P_t$ 的概率。这是一个确定性的组件，没有可学习的参数。其定义如下： $\begin{array} { r } { p ( P _ { t } | P _ { t - 1 } , Q _ { t - 1 } , A _ { t - 1 } ) = \left\{ \begin{array} { r l } { 1 } & { \mathrm { ~ i f ~ } P _ { t } = P _ { t - 1 } \cup \{ ( Q _ { t - 1 } , A _ { t - 1 } ) \} } \\ { 0 } & { \mathrm { ~ o t h e r w i s e } } \end{array} \right. } \end{array}$ 这意味着，如果新的用户档案 $P_t$ 正是通过将当前的问题 $Q_{t-1}$ 及其答案 $A_{t-1}$ 添加到之前的档案 $P_{t-1}$ 中而获得的，那么这个概率为 1；否则为 0。论文特别指出，在用户档案中同时包含问题和答案有助于模型避免重复查询并提高性能。

优化目标: 本文的目标是最大化生成完整用户档案的概率，通过优化提问者 ( $\theta$ ) 和用户模拟器 ( $\phi$ ) 的参数来实现： $\operatorname* { m a x } _ { \theta , \phi } \sum _ { i = 1 } ^ { | I | } \log ( p _ { \theta , \phi } ( P _ { n } ^ { i } ) )$

符号解释:
- $|I|$ : 用户总数。
- $P_n^i$ : 第 $i$ 个用户的完整用户档案。这个目标通过微调两个 LLM 来实现：一个作为提问者，另一个作为用户模拟器。

下图（原文 Figure 1）展示了该模型处理受损用户档案并通过澄清问题进行重建的整体框架。

Figure 1: Our model for addressing corrupted user profiles and reconstruction through clarifying questions. 该图像是示意图，展示了我们的方法用于处理受损用户档案以及通过澄清问题进行重构的流程。图中包含两个阶段的过程：前向过程和反向过程。前向过程通过生成一系列问题获取用户反馈，而反向过程则通过学习有效的问题来“去噪”用户档案，从而改善推荐系统的个性化效果。

原文描述: Figure 1: Our model for addressing corrupted user profiles and reconstruction through clarifying questions. VLM 描述: 该图像是示意图，展示了我们的方法用于处理受损用户档案以及通过澄清问题进行重构的流程。图中包含两个阶段的过程：前向过程通过生成一系列问题获取用户反馈，而反向过程则通过学习有效的问题来“去噪”用户档案，从而改善推荐系统的个性化效果。

4.2.2. 档案损坏 (Profile Corruption) (前向过程)

本节描述了如何从完整的用户档案生成训练数据，这对应于扩散模型的前向加噪过程。这一过程的目标是创建一系列问答对和部分用户档案，用于训练反向过程中的提问者和用户模拟器。

输入: 用户 $u$ 的文本形式信息 $P^u$ （例如，喜欢的电影类型或已观看电影的描述）。 目标: 逐步向档案添加“噪声”（通过删除信息），直到档案变为空。在每一步，根据当前的部分档案生成一个澄清问题。

步骤 1: 结构化档案转换 首先，将文本格式的用户信息 $P^u$ 转换为结构化格式（例如 JSON），记为 $J P ^ { u } := \mathrm { L L M } ( P ^ { u } )$ 。这种结构化表示允许更有效地查询和操作档案数据。

步骤 2: 漏斗式问题生成 在生成问题时，需要遵循两个关键约束：

从一般到具体: 在反向过程中，问题应从更容易、更直接的问题开始，逐步推进到更具体的问题。
考虑依赖关系: 如果问题之间存在依赖关系，应首先询问更广泛的方面，然后是更具体的方面。例如，先问电影类型，再问子类型或导演。

为了满足这些约束，本文使用一个 LLM 来完成以下任务：

标签排序: 首先，使用 LLM 根据通用性概念（从最不一般到最一般）对 JSON 用户档案中的标签进行排序。
漏斗式问题生成: 然后，基于排序后的标签，提示 LLM 生成一系列漏斗式问题 $Q_i$ $Q_{i}$ 及其对应的答案 $A_i$ $A_{i}$ 。
- 假设结构化档案 $J P ^ { u } ~ = ~ \{ \left( t _ { i } , c _ { i } \right) \} _ { i = 1 } ^ { m }$ ，其中 $t_i$ 是标签（tag）， $c_i$ 是对应的信息内容（content）。
- LLM 生成问答对序列: $( { \mathcal Q } _ { 0 } , A _ { 0 } ) , \ldots , ( Q _ { n - 1 } , A _ { n - 1 } ) \ = \ \mathrm { L L M } ( J P ^ { u } , \{ t _ { 1 } , t _ { 2 } , t _ { 3 } , \ldots , t _ { m } \}$ )。
- $Q_i$ 表示生成的问题， $A_i$ 表示从用户档案中提取的对应答案。例如， $Q_i = \text{‘Do you like action movies?’}$ ， $A_i = \text{‘yes’}$ 。
问题-答案映射到档案标签: 定义一个映射 $\mathcal { T } ( Q _ { i } , A _ _ { i } )$ ，它标识了原始档案 $J P ^ { u }$ 中与问题 $Q_i$ 和答案 $A_i$ 直接相关联的标签-内容对集合。形式上： ${ \mathcal { T } } ( Q _ { i } , A _ { i } ) = \{ ( t _ { k } , c _ { k } ) \in J P ^ { u } \mid ( t _ { k } , c _ { k } ) \text{ is addressed by } Q _ { i } , A _ { i } \}$ 为了简化，有时记为 $\mathcal { T } _ { i } = \mathcal { T } ( Q _ { i } , A _ { i } )$ 。
问题数量与标签数量: 注意，生成的问题数量 $n$ 和档案中的标签数量 $m$ 可以不同。LLM 可能会针对单个标签生成多个问题，或者一个问题涵盖多个标签。
问题顺序: 由于是漏斗式生成，问题 $Q_i$ 的顺序是从宽泛概念（如 $Q_0$ ）到更详细的问题（如 $Q_{n-1}$ ）。

步骤 3: 创建部分用户档案 前向过程从完整的用户档案开始，逐步移除信息。由于问题是按漏斗式生成的（ $Q_0$ 最一般， $Q_{n-1}$ 最具体），为了在反向过程中实现从一般到具体的提问，前向过程中的信息移除需要从最具体的问题答案开始。

移除顺序: 从问题 $Q_{n-1}$ （最具体）开始，假设用户档案是完整的。然后，从用户档案中移除对应于 $Q_{n-1}$ 答案的信息。这个过程继续，依次移除与每个问题的答案相关的信息，直到用户档案为空。
部分档案表示: 在第 $t$ $t$ 步（对应于即将提问 $Q_t$ $Q_{t}$ 之前），部分用户档案 $J P _ { t } ^ { u }$ $J P_{t}^{u}$ 可以表示为： $J P _ { t } ^ { u } = J P ^ { u } \setminus \bigcup _ { i = t } ^ { n - 1 } \mathcal { T } _ { i }$
- 符号解释:
  - $J P ^ { u }$ : 完整的初始用户档案。
  - $\mathcal { T } _ { i }$ : 与问题 $Q_i$ 和答案 $A_i$ 相关的标签-内容对集合。
  - $\bigcup _ { i = t } ^ { n - 1 } \mathcal { T } _ { i }$ : 移除了从 $Q_t$ 到 $Q_{n-1}$ 所有问题所涵盖的信息。
  - $t$ 的范围是从 $n$ （表示完整档案， $\bigcup$ 为空）到 0（表示空档案，所有信息都被移除）。
  - $J P _ { t } ^ { u }$ 是在提出问题 $Q_t$ 之前可用的部分用户档案。
  - $J P _ { n } ^ { u }$ 是完整的初始用户档案。
  - $J P _ { 0 } ^ { u }$ 是空档案 $\emptyset$ 。

步骤 4: 构建训练数据 通过上述过程，为用户 $u$ 生成的用于反向过程的训练数据 $D_u$ 形式如下： $D _ { u } = \{ ( Q _ { n - 1 } , J P _ { n - 1 } ^ { u } ) , ( Q _ { n - 2 } , J P _ { n - 2 } ^ { u } ) , . . . , ( Q _ { 0 } , J P _ { 0 } ^ { u } ) \}$

训练实例: 每个对 $(Q_i, J P _ { t } ^ { u })$ 代表一个训练实例：给定部分用户档案 $J P _ { t } ^ { u }$ 作为输入，模型应生成对应的目标问题 $Q_i$ 。
总训练数据: 对于所有用户 $I = \{ u _ { 1 } , u _ { 2 } , \ldots \ldots , u _ { | I | } \}$ ，总训练数据为 $D = \{ D _ { u _ { 1 } } , D _ { u _ { 2 } } , \ldots , D _ { u _ { | I | } } \}$ 。这些数据用于微调提问者 (Questioner)。

算法 1 前向过程: 档案损坏 (Profile Corruption) 以下是原文算法 1 的描述：

$Input: A user profile `P _ { u }` in text format. Output: Training data `D _ { u }`, comprising question-partial user profile pairs for various partial profiles. 1: Convert `P _ { u }` into a JSON format $J P ^ { u }$. 2: Sort tags $\{ t _ { 1 } , t _ { 2 } , \ldots , t _ { m } \}$ from $J P ^ { u }$ based on notion of generality. 3: Generate Funnel Questions $\{ ( Q _ { 0 } , A _ { 0 } ) , ( Q _ { 1 } , A _ { 1 } ) , . . . , ( Q _ { n - 1 } , A _ { n - 1 } ) \}$ based on the extracted tags. 4: $t \gets n - 1$ 5: while $t \geq 0$ do 6: Create partial profile $J P ^ { u _ { t } }$ by using Equation (7). 7: $D _ { u } \gets D _ { u } \cup \{ ( Q _ { t } , J P ^ { u _ { t } } ) \}$ 8: $t \gets t - 1$ 9: end while 10: return `D _ { u }`$

算法解释:
- 行 1: 将用户文本档案 $P_u$ 转换为结构化的 JSON 格式 $J P ^ { u }$ 。
- 行 2: 使用 LLM 对 $J P ^ { u }$ 中的标签进行排序，从最不一般到最一般。
- 行 3: 基于排序后的标签，使用 LLM 生成一系列漏斗式的问题-答案对 $( Q _ { 0 } , A _ { 0 } ) , \ldots , ( Q _ { n - 1 } , A _ { n - 1 } )$ 。
- 行 4-9 (循环):
  - $t$ 从 n-1 开始（对应最具体的问题 $Q_{n-1}$ ），递减到 0（对应最一般的问题 $Q_0$ ）。
  - 在每次循环中，行 6 使用公式 $J P _ { t } ^ { u } = J P ^ { u } \setminus \bigcup _ { i = t } ^ { n - 1 } \mathcal { T } _ { i }$ 来创建当前部分用户档案 $J P _ { t } ^ { u }$ 。这意味着从完整档案中移除与问题 $Q_t, \ldots, Q_{n-1}$ 相关的全部信息。
  - 行 7 将当前的问题 $Q_t$ 和对应的部分档案 $J P _ { t } ^ { u }$ 作为一个训练实例添加到训练数据集 $D_u$ 中。这里的 $Q_t$ 是预期模型在给定 $J P _ { t } ^ { u }$ 时应该生成的问题。

4.2.3. 用户模拟 (User Simulation)

为了在受控环境中评估提问者 (Questioner) 模型，本文需要一个能够响应其生成问题的用户模拟器 (User Simulator)。

挑战: 在研究阶段，直接与真实用户进行大规模对话互动是困难且成本高昂的。

解决方案: 使用 LLM 作为用户模拟器。

基本原理: 在提问者与用户模拟器的每次对话中，将完整的真实标注用户档案 (ground-truth user profile) 提供给 LLM。
回答逻辑: 用户模拟器 LLM 会根据提供的问题 $Q$ 和真实档案 $P$ 查找答案。
- 如果能在档案中找到答案，则生成该答案： $A = \mathrm{LLM}(P, Q)$ 。
- 如果档案中没有相关信息，则指示 LLM 回复“我不知道 (I don't know)”，这假设用户对该问题没有特定的偏好。
微调用户模拟器: 为了增强 LLM 作为用户模拟器回答问题的能力，本文对其进行了微调。微调使用在档案损坏 (Profile Corruption) 阶段生成的数据。
- 训练实例: 每个元组 $( \mathcal { T } _ { i } , Q _ { i } , J P ^ { u } )$ 都作为一个训练实例来微调用户模拟器。具体来说，给定问题 $Q_i$ 和用户档案 $J P ^ { u }$ ，模型应该输出对应的答案 $A_i$ （通过思维链 (chain-of-thought) 方式）以及映射 $\mathcal { T } _ { i }$ （作为响应输出）。 $\begin{array} { r l } & { \hat { D } _ { u } = \{ ( \mathcal { T } _ { n - 1 } , Q _ { n - 1 } , J P ^ { u } ) , ( \mathcal { T } _ { n - 2 } , Q _ { n - 2 } , J P ^ { u } ) , } \\ & { \qquad \ldots , ( \mathcal { T } _ { 0 } , Q _ _ { 0 } , J P ^ { u } ) \} } \end{array}$
- 符号解释:
  - $\hat{D}_u$ : 用于微调用户模拟器的数据集。
  - $\mathcal{T}_i$ : 与问题 $Q_i$ 和答案 $A_i$ 相关的标签-内容对集合。
  - $Q_i$ : 问题。
  - $J P ^ { u }$ : 完整的用户档案。
图示示例: 原文 Figure 2 展示了整个前向过程如何生成用户偏好的澄清问题，并可能作为用户模拟器训练的数据。

该图像是一个示意图，展示了通过前向过程生成用户偏好的清晰问题。图中包含不同的用户档案及对应的问题示例，如'你对音乐剧有兴趣吗？'和'你喜欢什么类型的电影？'等。

VLM 描述: 该图像是一个示意图，展示了通过前向过程生成用户偏好的清晰问题。图中包含不同的用户档案及对应的问题示例，如'你对音乐剧有兴趣吗？'和'你喜欢什么类型的电影？'等。

5. 实验设置

5.1. 数据集

名称: Movielens
来源: Movielens 是电影推荐领域广泛使用的基准数据集 [10]。
用户档案: 本文使用的用户档案 (user profiles) 来自 Jeong et al. [15] 和 Tennenholtz et al. [29, 30] 的研究。
- 生成方式: 这些档案是通过一个 LLM，基于每个用户的完整原始评分历史 (complete raw history of ratings) 生成的。
- 质量验证: 这些档案经过评估，被证明对数据集中的用户评分具有预测性，这表明它们有效地捕捉了用户的偏好。

5.2. 评估指标

本文的评估过程旨在衡量模型生成问题的质量以及通过这些问题重建用户档案的有效性。

5.2.1. 评估过程

评估过程模拟了提问者 (Questioner) 与用户模拟器 (User Simulator) 之间的对话。具体步骤由算法 2 评估过程 (Algorithm 2 Evaluation Process) 描述：

$Input: A corrupted profile `P _ { t }`, target profile `P _ { n }`, parameters $\theta , \phi$, maximum question number $T$ Output: A sequence of questions and answers that transforms `P _ { t }` to `P _ { n }` 1: Initialize profiles: $P _ { \mathrm { c u r r e n t } } \gets P _ { t }$ 2: Initialize question count: count $\gets 0$ 3: while $( P _ { \mathrm { c u r r e n t } } \neq P _ { n } )$ and (count $< T$) do 4: Generate question $Q _ { \mathrm { t - 1 } }$ using the fine-tuned model as the Questioner 5: Query the user simulator model, which accesses the target profile `P _ { n }` to determine an answer $A _ { \mathrm { t - 1 } }$ : 6: if answer is found in `P _ { n }` then 7: Set $A _ { \mathrm { t - 1 } }$ to the corresponding value in `P _ { n }` 8: else 9: Set $A _ { \mathrm { t - 1 } }$ to $^* \mathrm { N o }$ Preference" 10: end if 11: Update: 12: $P _ { \mathrm { c u r r e n t } } \gets P _ { \mathrm { c u r r e n t } } \cup \{ ( Q _ { \mathrm { t - 1 } } , A _ { \mathrm { t - 1 } } ) \}$ 13: Increment question count: count $\gets$ count $+ 1$ 14: end while 15: return Pcurrent$

算法解释:
- 输入: 一个初始（可能为空或被损坏的）档案 $P_t$ ，目标（真实标注）档案 $P_n$ ，提问者和模拟器的模型参数 $\theta, \phi$ ，以及最大提问数量 $T$ 。
- 输出: 经过问答交互后生成的最终档案 $P_{current}$ 。
- 行 1-2: 初始化当前档案 $P_{current}$ 为 $P_t$ (在实验中通常为空档案)，并设置问题计数器 count 为 0。
- 行 3-14 (循环): 对话循环持续进行，直到当前档案 $P_{current}$ $P_{c u rre n t}$ 与目标档案 $P_n$ $P_{n}$ 完全匹配，或者提问数量达到最大限制 $T$ $T$ (实验中设为 10)。
  - 行 4: 提问者模型（经过微调的 LLM）根据当前的 $P_{current}$ 生成一个问题 $Q_{t-1}$ 。这里使用 $Q_{t-1}$ 的索引，可能是指当前回合的问题，虽然循环变量是 count。
  - 行 5-10: 用户模拟器模型访问目标档案 $P_n$ $P_{n}$ 来确定对 $Q_{t-1}$ $Q_{t - 1}$ 的答案 $A_{t-1}$ $A_{t - 1}$ 。
    - 如果答案在 $P_n$ 中找到，则 $A_{t-1}$ 被设置为对应的值。
    - 否则（如果 $P_n$ 中没有相关信息），则 $A_{t-1}$ 被设置为“无偏好 (No Preference)”。
  - 行 12: 当前档案 $P_{current}$ 通过添加新的问答对 $(Q_{t-1}, A_{t-1})$ 来更新。
  - 行 13: 问题计数器 count 增加。
- 行 15: 循环结束后，返回最终生成的档案 $P_{current}$ 。

5.2.2. 量化指标

为了衡量生成档案 $P_{current}$ 与目标档案 $P_n$ 之间的相似度（即问题生成的质量），本文使用了两种文本相似度指标：

BLEU (Bilingual Evaluation Understudy):
- 概念定义: BLEU 是一种广泛用于评估机器翻译质量的指标。它通过比较候选文本（模型生成的档案）与一组人工参考文本（真实用户档案）之间的 n-gram (连续的 n 个词序列) 重叠程度来量化相似度。BLEU 更侧重于精确率 (precision)，即模型生成的文本中有多少比例的 n-gram 能够在参考文本中找到。它还包含一个简洁惩罚因子 (Brevity Penalty)，以避免生成过短的文本获得高分。
- 数学公式: $\mathrm{BLEU} = \mathrm{BP} \cdot \exp \left( \sum_{n=1}^{N} w_n \log p_n \right)$ 其中， $\mathrm{BP}$ 是简洁惩罚因子，用于惩罚过短的翻译； $p_n$ 是 n-gram 的精确度； $w_n$ 是 n-gram 的权重，通常取 $1/N$ 。
  
  简洁惩罚因子 $\mathrm{BP}$ 的计算公式为： $\mathrm{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1 - r/c} & \text{if } c \le r \end{cases}$ 其中， $c$ 是候选文本的总词数， $r$ 是参考文本的有效参考长度。
  
  n-gram 精确度 $p_n$ 的计算公式为： $p_n = \frac{\sum_{\text{sentence} \in \text{Cand}} \sum_{\text{n-gram} \in \text{sentence}} \mathrm{Count}_{\text{clip}}(\text{n-gram})}{\sum_{\text{sentence} \in \text{Cand}} \sum_{\text{n-gram} \in \text{sentence}} \mathrm{Count}(\text{n-gram})}$
- 符号解释:
  - $\mathrm{BP}$ : 简洁惩罚因子，用于惩罚模型生成过短的文本，确保生成文本的长度与参考文本相近。
  - $c$ : 候选文本（即模型通过问答交互重建的用户档案）的总词数。
  - $r$ : 参考文本（即真实标注用户档案 $P_n$ ）中与候选文本长度最接近的参考文本的有效词数。
  - $N$ : 考虑的最大 n-gram 长度，通常取 4。这意味着 BLEU 会考虑 1-gram (unigram) 到 4-gram 的重叠。
  - $w_n$ : n-gram 精确度 $p_n$ 的权重。通常，如果考虑所有 n-gram，则 $w_n = 1/N$ 。
  - $p_n$ : n-gram 精确度，衡量候选文本中有多少 n-gram 出现在参考文本中。
  - $\mathrm{Count}_{\text{clip}}(\text{n-gram})$ : n-gram 在候选文本中出现的次数，但其计数被裁剪 (clipped) 至它在任何一个参考文本中出现的最大次数。这可以防止模型通过简单重复某些词语来获得高分。
  - $\mathrm{Count}(\text{n-gram})$ : n-gram 在候选文本中未经裁剪的出现次数。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
- 概念定义: ROUGE 是一套用于评估自动文本摘要和机器翻译质量的指标。与 BLEU 侧重精确率不同，ROUGE 更侧重于召回率 (recall)，即参考文本中有多少 n-gram（或词序列、词对）被模型生成的文本所覆盖。它通过比较自动生成的文本（候选文本）与一组参考文本（真实用户档案）之间的 n-gram 重叠程度来衡量相似度。
- 数学公式: 论文未明确指定使用了 ROUGE 的哪种变体（例如 ROUGE-1、ROUGE-2、ROUGE-L 等）。通常情况下，ROUGE-N（其中 N 表示 n-gram 的长度）的计算公式为： $\mathrm{ROUGE-N} = \frac{\sum_{\text{reference summaries}} \sum_{\text{n-gram} \in \text{reference}} \mathrm{Count}_{\text{match}}(\text{n-gram})}{\sum_{\text{reference summaries}} \sum_{\text{n-gram} \in \text{reference}} \mathrm{Count}(\text{n-gram})}$
- 符号解释:
  - $\mathrm{ROUGE-N}$ : N-gram 重叠的召回率。例如，ROUGE-1 关注单个词（unigram）的召回率，ROUGE-2 关注两个词（bigram）的召回率。
  - $\text{reference summaries}$ : 参考摘要集合（在这里是真实用户档案 $P_n$ ）。
  - $\text{n-gram}$ : 长度为 N 的连续词序列。
  - $\mathrm{Count}_{\text{match}}(\text{n-gram})$ : 候选文本和参考文本中 n-gram 匹配的次数。
  - $\mathrm{Count}(\text{n-gram})$ : n-gram 在参考文本中出现的总次数。

5.3. 对比基线

为了评估所提出方法的有效性，实验将几种不同配置的模型进行了比较：

提问者 (Questioner) 模型类型:
- 未微调 Gemma 模型 (Non-fine-tuned Gemma): 作为基线，观察未经本文方法训练的 LLM 提问能力。
- 微调 Gemma 模型 (Fine-tuned Gemma): 经过本文提出的前向-反向过程训练的 Gemma LLM。
用户模拟器 (User Simulator) 模型类型:
- 未微调 Gemini 模型 (Non-fine-tuned Gemini): 使用一个更大、能力更强的通用 LLM (Gemini) 作为未经特定微调的模拟器。
- 微调 Gemma 模型 (Fine-tuned Gemma): 经过本文方法微调的 Gemma LLM 作为模拟器，使其能更有效地回答问题。
  
  通过组合这些不同类型的提问者和模拟器，实验共评估了四种主要情景（例如：未微调提问者 + 未微调模拟器，微调提问者 + 微调模拟器），以全面分析各个组件的影响。

模型选择:

Questioner 和 User Simulator 的基础模型: Gemma LLM (7B version) [9]。选择 Gemma 的原因在于其权重公开可用，且在同等规模模型中表现出色。
前向过程数据生成模型: Gemini 2.0 [8]。由于前向过程生成的数据将用于微调，因此使用一个更大、能力更强的 LLM (Gemini) 来确保生成训练数据的高质量。
微调技术: 采用参数高效微调 (PEFT) 框架，并具体使用其中的低秩适应 (LoRA) [13] 技术，以降低训练成本。
训练超参数: 批次大小 (batch size) 固定为 64，学习率 (learning rate) 设置为 0.001。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 微调效果 (Effect of Fine-tuning)

本实验对比了微调后的 Gemma 提问者与未微调的 Gemma 提问者，以及微调后的 Gemma 用户模拟器与未微调的 Gemini 用户模拟器之间的性能差异。

以下是原文 Figure 3 的图示，展示了不同提问者和用户模拟器组合的性能以及未回答问题的百分比。

该图像是两个柱状图，展示了使用不同问题设置的平均得分和未回答问题的百分比。在图(a)中，蓝色和红色柱子分别表示Bleu和Rouge得分，显示了Fine-tuned和Non-Fine-tuned问题的比较。图(b)则展示了不同设置下未回答问题的百分比，其中Non-Fine-tuned问题的比例最高，达到0.46。

VLM 描述: 该图像是两个柱状图，展示了使用不同问题设置的平均得分和未回答问题的百分比。在图(a)中，蓝色和红色柱子分别表示Bleu和Rouge得分，显示了Fine-tuned和Non-Fine-tuned问题的比较。图(b)则展示了不同设置下未回答问题的百分比，其中Non-Fine-tuned问题的比例最高，达到0.46。

提问者微调效果 (图 3(a)):
- 通过比较 non-finetuned questions 和 finetuned questions 两组（在 finetuned simulation 条件下），可以明显看到，对模型进行微调显著提升了其性能。
- ROUGE 分数从约 0.4 提高到 0.68。
- BLEU 分数从约 0.28 提高到 0.49。
- 这表明微调后的提问者能够提出更有效的序列化问题，从而更好地捕获用户的个人信息并构建用户档案。
用户模拟器微调效果 (图 3(a)):
- 通过比较第一和第二组柱状图（non-finetuned questions 分别与 Gemini simulation 和 finetuned simulation 交互），或者第三和第四组柱状图（finetuned questions 分别与 Gemini simulation 和 finetuned simulation 交互），可以看出微调用户模拟器也显著提高了结果。
- 例如，在使用微调提问者的情况下，将模拟器从 Gemini 换成 finetuned simulator，ROUGE 和 BLEU 分数都有明显提升。这说明微调后的模拟器能够更准确、更有效地回答问题。
未回答问题百分比 (图 3(b)):
- 该图显示了四种模型组合中未回答问题的百分比。
- 使用未微调的 Gemini 作为模拟器时，无论是与未微调提问者还是微调提问者交互，未回答问题的百分比都相对较高（例如，与未微调提问者交互时，未回答问题比例达到 0.46）。这表明未微调的 Gemini 难以在用户档案中找到或推断答案。
- 使用微调的 Gemma 作为模拟器时，未回答问题的百分比显著降低（例如，与微调提问者交互时，未回答问题比例仅为约 0.06）。
- 这突出强调了用户模拟器与提问者之间有效交互的重要性。一个优秀的模拟器能够提供更准确的反馈，从而更好地评估提问者的性能。

6.1.2. 问题数量的影响 (Effect of Number of Questions)

本实验考察了提问数量对 BLEU 和 ROUGE 分数的影响。

以下是原文 Figure 4 的图示，展示了 BLEU 和 ROUGE 分数随问题数量变化的趋势。

Figure 4: BLEU (left) and ROUGE (right) scores vs. number of questions. 该图像是一个图表，展示了BLEU（左图）和ROUGE（右图）分数与问题数量的关系。不同的曲线代表了不同的模型和微调策略，随着问题数量的增加，分数普遍呈现上升趋势。

原文描述: Figure 4: BLEU (left) and ROUGE (right) scores vs. number of questions. VLM 描述: 该图像是一个图表，展示了BLEU（左图）和ROUGE（右图）分数与问题数量的关系。不同的曲线代表了不同的模型和微调策略，随着问题数量的增加，分数普遍呈现上升趋势。

性能提升趋势: 随着提问数量的增加，所有模型的 BLEU 和 ROUGE 分数都呈现上升趋势，表明更多的信息收集有助于更好地重建用户档案。
最差表现:
- non-finetuned Questioner + Gemini simulator (蓝色线) 表现最差。这是由于提问者无法提出有效问题，且 Gemini 模拟器也未能有效回答。
模拟器微调效果:
- 将 Gemini simulator 替换为 finetuned simulator (橙色线) 带来了性能提升。这说明即使提问者未经微调，一个更智能的模拟器也能帮助提高信息获取效率。
提问者微调效果:
- 将 non-finetuned Questioner 替换为 finetuned Questioner (绿色线，搭配 Gemini simulator) 也带来了性能提升。这证明了对提问者进行微调使其能够提出更有效的澄清问题的重要性。
最佳表现:
- finetuned Questioner + finetuned simulator (红色线) 取得了最佳性能。这个组合在收集前 5 个问题时能获取更广泛的信息，然后在后续的回合（第 6 或第 7 回合）转向更具体、更详细的问题。这印证了模型学习到了漏斗式提问 (funnel questioning) 策略。

6.1.3. 添加问题历史的效果 (Effect of Adding Question History)

本实验探讨了在更新用户档案时，除了答案之外，是否同时包含问题历史 (Q-H) 对模型性能的影响。

以下是原文 Figure 5 的图示，展示了集成问题和答案（Q-H）到用户档案中对模型整体性能的影响。

该图像是一个柱状图，展示了在不同条件下（Finetune与Non-Finetune以及是否使用Q-H）评估模型生成效果的平均得分，包括Bleu和Rouge两种指标。可见，Finetune情况下的得分普遍高于Non-Finetune，且在使用Q-H时效果尤为显著。

VLM 描述: 该图像是一个柱状图，展示了在不同条件下（Finetune与Non-Finetune以及是否使用Q-H）评估模型生成效果的平均得分，包括Bleu和Rouge两种指标。可见，Finetune情况下的得分普遍高于Non-Finetune，且在使用Q-H时效果尤为显著。

微调模型 (Finetuned Model) 的影响:
- 对于微调模型，将问题历史与答案一同添加到用户档案中 (即 finetuned + Q-H) 显著提高了性能。ROUGE 和 BLEU 分数均高于仅添加答案的情况 (finetuned - Q-H)。
- 这表明，对于一个已经训练有素的模型，了解之前的问答历史能够帮助它避免重复提问，并在后续轮次中提出更有效且不重复的问题。
未微调模型 (Non-finetuned Model) 的影响:
- 对于未微调模型，添加问题历史 (non-finetuned + Q-H) 反而降低了性能。ROUGE 和 BLEU 分数均低于未添加问题历史的情况 (non-finetuned - Q-H)。
- 分析认为，虽然问题历史可以帮助模型避免重复，但未微调的模型本身没有学会如何提出有效的澄清问题。因此，当它被强制去提出不重复的新问题时，这些新问题可能效率低下，无法有效地揭示用户偏好，从而导致性能下降。

6.1.4. 微调步数对模型性能的影响 (Impact of Fine-Tuning Steps on Model Performance)

本实验考察了提问者模型在不同微调步数下的 BLEU 和 ROUGE 分数变化。

以下是原文 Figure 6 的图示，展示了 Questioner 模型在不同微调步数下的 BLEU 和 ROUGE 分数。

Figure 6: BLEU and ROUGE scores of the Questioner model at different fine-tuning steps (0, 4000, 28000, and 40000) 该图像是一个柱状图，展示了Questioner模型在不同微调步骤下（未微调、4000步、28000步和40000步）的BLEU和ROUGE评分。蓝色柱表示BLEU评分，红色柱表示ROUGE评分，结果显示随着微调步骤的增加，模型的评分显著提升。

原文描述: Figure 6: BLEU and ROUGE scores of the Questioner model at different fine-tuning steps (0, 4000, 28000, and 40000) VLM 描述: 该图像是一幅柱状图，展示了Questioner模型在不同微调步骤下（未微调、4000步、28000步和40000步）的BLEU和ROUGE评分。蓝色柱表示BLEU评分，红色柱表示ROUGE评分，结果显示随着微调步骤的增加，模型的评分显著提升。

趋势: 随着微调步数的增加（从 0 到 40000），提问者模型的 BLEU 和 ROUGE 分数持续提升。
具体数据:
- 未微调时 (0 步)，BLEU 和 ROUGE 分数较低。
- 在 4000 步时，分数有显著提高。
- 在 28000 步和 40000 步时，分数进一步提高，并在 40000 步达到最高。
结论: 这表明更充分的微调能够使模型更好地学习如何生成有效的后续问题，这与提问者的设计目标一致。

6.1.5. 分析模型提出的问题 (Analyzing the Questions Asked by the Model)

为了验证模型是否按照“漏斗式”格式提问，本文分析了对话中每个问题的概念（即用户档案 JSON 格式中的关键词），并计算了每个概念的加权排名 (Weighted Rank, WR)。

加权排名 (WR) 公式: $W R = \sum _ { i = 1 } ^ { T } i \times p ( i )$
- 符号解释:
  - $T$ : 模型可以提出的最大问题数量（例如，本实验中通常为 10）。
  - $i$ : 问题在对话中的位置（从 1 到 $T$ ）。
  - p(i): 该概念出现在对话中第 $i$ 个位置的概率。
- WR 的含义: WR 值越小，表示该概念倾向于在对话早期（即问题位置 $i$ 较小）被问及，说明它是更普遍的概念。WR 值越大，表示该概念倾向于在对话后期被问及，说明它是更具体的概念。
  
  以下是原文 Figure 7 的图示，展示了基于加权排名（总和 >= 300）的类别预期值。
  
  该图像是一个条形图，展示了基于加权排名（总和 >= 300）的类别预期值。图中列出了各种偏好的预期价值，如逃避、怀旧、幽默以及视觉效果等，反映了用户在推荐过程中可能关注的不同方面。

VLM 描述: 该图像是一个条形图，展示了基于加权排名（总和 >= 300）的类别预期值。图中列出了各种偏好的预期价值，如逃避、怀旧、幽默以及视觉效果等，反映了用户在推荐过程中可能关注的不同方面。原文描述: rW values correspond to concepts typically addressed later.

结果分析 (图 7):
- 早期问题（WR 值较小）: 提问者倾向于在对话早期询问更广泛的概念，例如 'Genre' (类型)、'Film Era' (电影年代) 和 'Decade' (十年)。这些概念通常是用户偏好的高层次分类。
- 中期问题: 逐渐转向询问更具体的方面，如 'Directors' (导演)、'Visual Style' (视觉风格) 和 'Tone' (基调)。
- 后期问题（WR 值较大）: 最终，模型会询问高度详细和具体的概念，例如 'Special Effects' (特效)、'Humor' (幽默) 和 'Atmosphere' (氛围)。
结论: 这种从一般到具体的提问顺序与数据生成过程（即前向过程中信息从最具体到最一般移除）以及论文提出的“漏斗式提问”目标完全一致。这表明模型成功地学习到了这种人类化的对话流程。

6.2. 数据呈现

6.2.1. 提问者与用户模拟器性能对比 (Figure 3)

以下是原文 Figure 3 的结果：

该图像是两个柱状图，展示了使用不同问题设置的平均得分和未回答问题的百分比。在图(a)中，蓝色和红色柱子分别表示Bleu和Rouge得分，显示了Fine-tuned和Non-Fine-tuned问题的比较。图(b)则展示了不同设置下未回答问题的百分比，其中Non-Fine-tuned问题的比例最高，达到0.46。

VLM 描述: 该图像是两个柱状图，展示了使用不同问题设置的平均得分和未回答问题的百分比。在图(a)中，蓝色和红色柱子分别表示Bleu和Rouge得分，显示了Fine-tuned和Non-Fine-tuned问题的比较。图(b)则展示了不同设置下未回答问题的百分比，其中Non-Fine-tuned问题的比例最高，达到0.46。

图 3(a) 解释:
- 横轴: 表示四种不同的提问者-模拟器组合。
  1. non-finetuned questions + Gemini simulation: 未微调提问者与未微调 Gemini 模拟器。
  2. non-finetuned questions + finetuned simulation: 未微调提问者与微调 Gemma 模拟器。
  3. finetuned questions + Gemini simulation: 微调提问者与未微调 Gemini 模拟器。
  4. finetuned questions + finetuned simulation: 微调提问者与微调 Gemma 模拟器。
- 纵轴: 表示 ROUGE 和 BLEU 平均得分。
- 观察: 微调后的提问者和微调后的模拟器都带来了显著的性能提升。最佳组合是两者都微调。
图 3(b) 解释:
- 横轴: 同图 3(a) 的四种组合。
- 纵轴: 表示未回答问题的百分比。
- 观察: 使用微调的 Gemma 模拟器能够显著降低未回答问题的比例，这说明微调后的模拟器能够更有效地从用户档案中找到或推断答案。

6.2.2. BLEU 和 ROUGE 分数随问题数量变化 (Figure 4)

以下是原文 Figure 4 的结果：

Figure 4: BLEU (left) and ROUGE (right) scores vs. number of questions. 该图像是一个图表，展示了BLEU（左图）和ROUGE（右图）分数与问题数量的关系。不同的曲线代表了不同的模型和微调策略，随着问题数量的增加，分数普遍呈现上升趋势。

原文描述: Figure 4: BLEU (left) and ROUGE (right) scores vs. number of questions. VLM 描述: 该图像是一个图表，展示了BLEU（左图）和ROUGE（右图）分数与问题数量的关系。不同的曲线代表了不同的模型和微调策略，随着问题数量的增加，分数普遍呈现上升趋势。

解释:
- X轴: 提问数量 (number of questions)，从 1 到 10。
- Y轴: 左图是 BLEU 分数，右图是 ROUGE 分数。
- 曲线: 四条线分别代表了四种提问者-模拟器组合。
  - 蓝色线: 未微调提问者 + Gemini 模拟器。
  - 橙色线: 未微调提问者 + 微调模拟器。
  - 绿色线: 微调提问者 + Gemini 模拟器。
  - 红色线: 微调提问者 + 微调模拟器。
- 观察: 随着提问数量的增加，所有配置的性能均有所提升。其中，微调提问者与微调模拟器组合（红色线）表现最佳，并在前五轮收集广泛信息，随后转向特定问题。

6.2.3. 添加问题历史的效果 (Figure 5)

以下是原文 Figure 5 的结果：

该图像是一个柱状图，展示了在不同条件下（Finetune与Non-Finetune以及是否使用Q-H）评估模型生成效果的平均得分，包括Bleu和Rouge两种指标。可见，Finetune情况下的得分普遍高于Non-Finetune，且在使用Q-H时效果尤为显著。

VLM 描述: 该图像是一个柱状图，展示了在不同条件下（Finetune与Non-Finetune以及是否使用Q-H）评估模型生成效果的平均得分，包括Bleu和Rouge两种指标。可见，Finetune情况下的得分普遍高于Non-Finetune，且在使用Q-H时效果尤为显著。

解释:
- 横轴: 表示四种场景。
  1. Non-Finetuned (-Q-H): 未微调提问者，不添加问题历史。
  2. Non-Finetuned (+Q-H): 未微调提问者，添加问题历史。
  3. Finetuned (-Q-H): 微调提问者，不添加问题历史。
  4. Finetuned (+Q-H): 微调提问者，添加问题历史。
- 纵轴: 平均 BLEU (蓝色) 和 ROUGE (红色) 分数。
- 观察: 对于微调模型，添加问题历史（Finetuned (+Q-H)）显著提高了性能。然而，对于未微调模型，添加问题历史（Non-Finetuned (+Q-H)）反而导致性能下降。

6.2.4. 微调步数对模型性能的影响 (Figure 6)

以下是原文 Figure 6 的结果：

Figure 6: BLEU and ROUGE scores of the Questioner model at different fine-tuning steps (0, 4000, 28000, and 40000) 该图像是一个柱状图，展示了Questioner模型在不同微调步骤下（未微调、4000步、28000步和40000步）的BLEU和ROUGE评分。蓝色柱表示BLEU评分，红色柱表示ROUGE评分，结果显示随着微调步骤的增加，模型的评分显著提升。

原文描述: Figure 6: BLEU and ROUGE scores of the Questioner model at different fine-tuning steps (0, 4000, 28000, and 40000) VLM 描述: 该图像是一幅柱状图，展示了Questioner模型在不同微调步骤下（未微调、4000步、28000步和40000步）的BLEU和ROUGE评分。蓝色柱表示BLEU评分，红色柱表示ROUGE评分，结果显示随着微调步骤的增加，模型的评分显著提升。

解释:
- 横轴: 微调步数 (0, 4000, 28000, 40000)。
- 纵轴: BLEU (蓝色) 和 ROUGE (红色) 分数。
- 观察: 随着微调步数的增加，模型的 BLEU 和 ROUGE 分数持续提高，表明更长时间的微调有助于提升提问者的性能。

6.2.5. 提问概念的加权排名分析 (Figure 7)

以下是原文 Figure 7 的结果：

该图像是一个条形图，展示了基于加权排名（总和 >= 300）的类别预期值。图中列出了各种偏好的预期价值，如逃避、怀旧、幽默以及视觉效果等，反映了用户在推荐过程中可能关注的不同方面。

VLM 描述: 该图像是一个条形图，展示了基于加权排名（总和 >= 300）的类别预期值。图中列出了各种偏好的预期价值，如逃避、怀旧、幽默以及视觉效果等，反映了用户在推荐过程中可能关注的不同方面。原文描述: rW values correspond to concepts typically addressed later.

解释:
- 横轴: 不同的偏好概念（如 Genre, Film Era, Directors 等）。
- 纵轴: 加权排名 (Weighted Rank, WR) 值。
- 观察: WR 值越低的概念（如 Genre, Film Era, Decade）在对话早期被问及，而 WR 值越高的概念（如 Special Effects, Humor, Atmosphere）则在对话后期被问及。这有力地证明了模型学习到了从一般到具体的“漏斗式”提问策略。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖且高效的方法，旨在提升大型语言模型 (LLM) 在对话式推荐系统中进行用户偏好引导的能力。其核心在于借鉴了扩散模型的思想，设计了一个两阶段的训练框架：

前向过程 (Forward Process): 通过逐步移除用户档案中的信息（从最具体到最一般），并为每次移除生成相应的澄清问题和答案，从而创建了一个“带噪声”的用户档案序列，这为反向过程的训练提供了高质量的数据。
反向过程 (Reverse Process): 训练一个 LLM 作为“提问者 (Questioner)”，使其能够根据部分用户档案（“噪声”）提出有效的澄清问题，从而逐步“去噪”并重建完整的用户偏好档案。

实验结果在 Movielens 数据集上证明了该方法的有效性：

显著性能提升: 微调后的提问者和用户模拟器在 BLEU 和 ROUGE 指标上表现出显著优于未微调基线模型的性能。
漏斗式提问 (Funnel Questioning): 通过对提问概念加权排名的分析，证实了训练后的模型能够以从一般到具体的“漏斗式”方式提问，这提高了对话的自然度和效率。
问题历史的价值: 在用户档案中加入问答历史有助于微调模型避免重复提问，进一步优化了对话流程。

总而言之，该研究成功地将扩散模型范式应用于 LLM 的偏好引导任务，为生成领域特定、上下文相关的序列化澄清问题提供了一个强大且可扩展的解决方案，有望推动个性化用户交互和 LLM 自适应学习的发展。

7.2. 局限性与未来工作

论文虽然未设置专门的“局限性”章节，但在讨论中暗示了一些挑战和未来的研究方向：

用户模拟器的真实性: 论文为了评估方便，使用了 LLM 作为用户模拟器。尽管微调后的模拟器表现良好，但它仍然是真实用户的简化模型。真实用户可能会有更复杂、更微妙的偏好表达，甚至会改变主意，而这些行为是模拟器难以完全捕捉的。因此，在真实用户场景下的表现可能与模拟环境有所差异。
跨领域泛化能力: 论文提到“在各种领域生成有效的序列化澄清问题仍然是一个挑战”。尽管本文提出的方法理论上可以应用于不同领域，但具体效果可能仍依赖于领域特定数据的质量和多样性。模型可能需要在新领域进行进一步的微调或适应。
用户疲劳与最大问题数: 评估过程设置了最大提问数量（10个问题）。在实际应用中，用户可能会在更少的问题后感到疲劳或失去耐心。如何动态地判断何时停止提问，或者在确保用户体验的同时最小化问题数量，是一个值得探索的方向。
“无偏好”的处理: 当用户模拟器在档案中找不到答案时，会回复“无偏好”。这种处理方式相对简单，真实用户可能需要更复杂的交互来表达不确定性或缺乏偏好。
评估指标的局限性: BLEU 和 ROUGE 主要评估文本相似度，虽然能够衡量重建档案的质量，但可能无法直接反映最终推荐质量的提升（例如，用户满意度、点击率等）。
档案转换的质量依赖: 前向过程中将文本档案转换为结构化 JSON 格式的步骤依赖于 LLM 的能力。如果这一步的转换质量不高，可能会影响后续训练数据的质量。

未来工作可以从以下方面展开：

更复杂的行为建模: 探索更高级的用户模拟技术，以更好地捕捉真实用户的复杂行为和动态偏好。
自适应停止策略: 研究动态的提问停止策略，以平衡信息获取和用户体验。
多模态偏好引导: 将方法扩展到多模态领域，如通过图片、语音等方式引导用户偏好。
在线学习与A/B测试: 在真实用户环境中进行在线学习和A/B测试，以验证和进一步优化模型的实际效果。
结合推荐效果评估: 将偏好引导的结果与最终的推荐系统性能指标（如转化率、用户留存率）直接关联进行评估。

7.3. 个人启发与批判

7.3.1. 个人启发

扩散模型的新颖应用: 本文将扩散模型这种强大的生成范式从其传统的图像/文本生成领域扩展到“知识获取”或“信息重建”任务上，提供了非常新颖的视角。将“去噪”类比为“通过提问填充信息”，这一抽象非常巧妙，为解决其他信息缺失问题提供了新的思路。
“漏斗式提问”的实用性: 这种从一般到具体的提问策略在实际对话中非常符合人类直觉，能够有效降低用户的认知负担，并提高信息获取的效率。通过前向过程的精心设计来反向训练出这种行为，是一种优雅的解决方案。
用户模拟器的重要性: 在大规模对话系统研究中，用户模拟器是不可或缺的工具。本文不仅使用了模拟器，还对其进行了微调，显著提升了评估的可靠性，也为类似研究提供了参考。
端到端优化潜力: 整个框架（前向数据生成、反向提问者训练、用户模拟器微调）形成了一个闭环，可以进行端到端的优化，这种系统级的设计对于提升复杂交互系统的性能至关重要。
LLM 作为“智能工具”的潜力: 本文再次强调了 LLM 不仅仅是一个文本生成器，更是一个强大的“智能工具”，能够执行复杂的推理、排序和策略生成任务，而非仅仅依赖其原始的生成能力。

7.3.2. 批判与潜在改进

“真实标注用户档案”的生成: 论文中提到，用户档案本身是由 LLM 基于用户的原始评分历史生成的。虽然经过评估认为具有预测性，但 LLM 在生成用户画像时仍可能存在“幻觉 (hallucination)”或偏差，这可能导致“地面真实 (ground truth)”本身的偏差，并影响后续模型的训练和评估。未来的工作可以探索更严格或多源的用户档案生成与验证方法。
模拟器与真实用户的差距: 尽管微调了用户模拟器，但其行为仍然是基于 LLM 的，可能无法完全模拟真实用户的复杂性和不确定性。例如，真实用户可能会提供模棱两可的答案、改变偏好、表现出疲劳或幽默感，这些是简单 LLM 模拟器难以捕捉的。在未来，可以尝试引入更具人类行为学模型的模拟器，或通过小规模的真实用户研究来校准模拟器。
评估指标的局限性: BLEU 和 ROUGE 主要衡量文本重叠度，对于评估用户偏好引导的“有效性”而言，它们是间接指标。更直接的评估指标可能包括：基于重建档案的推荐系统的实际性能（如点击率、转化率）、用户对推荐的满意度评分，以及用户在对话中的感知体验（如对话流畅度、问题相关性）。
通用性排序的稳健性: 前向过程中使用 LLM 对标签进行通用性排序，这种排序的质量直接影响了漏斗式提问的效果。在不同领域或面对非常规用户偏好时，这种排序的稳健性可能需要进一步验证。
问题删除而非信息概括: 前向过程通过“删除”信息来添加“噪声”。如果能够探索更复杂的“噪声”形式，例如，将具体信息“概括”为更一般的信息，然后要求反向过程“解概括”来恢复细节，这可能更符合人类的认知过程，并可能产生更丰富的训练数据。
“无偏好”的深度理解: 当前对“无偏好”的处理较为简单。未来可以探索让模型能够更深入地理解并响应用户的“无偏好”状态，例如，通过解释为什么某个偏好不重要，或者提供其他替代选项，而非简单的“我不知道”。

总的来说，这是一篇非常有启发性的论文，它巧妙地将现有技术（LLM 和扩散模型）结合起来，为解决对话式推荐系统中的关键挑战——高效偏好引导——提供了一个创新且富有前景的解决方案。同时，也为我们思考 LLM 在更广泛的知识获取和交互任务中的应用开辟了新路径。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。