论文状态：已完成

A Survey of Controllable Learning: Methods and Applications in Information Retrieval

发表：2024/07/04

可控学习方法综述 (1)信息检索中的可控学习应用 (1)动态目标适应策略 (1)多目标优化方法 (1)用户画像与场景适应 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

可控学习已成为可信机器学习的关键，能够帮助学习器动态适应复杂的信息需求。本文正式定义了可控学习，探讨其在信息检索中的应用，分类包括控制内容、控制主体及实施方式等。同时识别了在训练、评估和在线部署中的挑战，并提出未来的研究方向。

摘要

Controllability has become a crucial aspect of trustworthy machine learning, enabling learners to meet predefined targets and adapt dynamically at test time without requiring retraining as the targets shift. We provide a formal definition of controllable learning (CL), and discuss its applications in information retrieval (IR) where information needs are often complex and dynamic. The survey categorizes CL according to what is controllable (e.g., multiple objectives, user portrait, scenario adaptation), who controls (users or platforms), how control is implemented (e.g., rule-based method, Pareto optimization, hypernetwork and others), and where to implement control (e.g., pre-processing, in-processing, post-processing methods). Then, we identify challenges faced by CL across training, evaluation, task setting, and deployment in online environments. Additionally, we outline promising directions for CL in theoretical analysis, efficient computation, empowering large language models, application scenarios and evaluation frameworks.

思维导图

论文精读

中文精读约 51 分钟读完 · 33,751 字

1. 论文基本信息

1.1. 标题

可控学习综述：信息检索中的方法与应用 (A Survey of Controllable Learning: Methods and Applications in Information Retrieval)

1.2. 作者

陈承磊 (Chenglei Shen)：中国人民大学高瓴人工智能学院博士生。研究方向包括可控学习 (controllable learning)、信息检索 (information retrieval) 和大语言模型 (large language models)。
张骁 (Xiao Zhang)：中国人民大学高瓴人工智能学院副教授。研究方向包括在线学习 (online learning)、可信机器学习 (trustworthy machine learning) 和信息检索。
石腾 (Teng Shi)：中国人民大学高瓴人工智能学院博士生。研究方向主要包括信息检索和推荐系统 (recommender systems)。
张常硕 (Changshuo Zhang)：中国人民大学高瓴人工智能学院硕士生。研究方向主要包括信息检索和推荐系统。
谢国富 (Guofu Xie)：中国人民大学高瓴人工智能学院博士生。研究方向主要包括信息检索和大语言模型。
徐君 (Jun Xu)：中国人民大学高瓴人工智能学院教授。研究方向主要包括学习排序 (learning to rank)。
何明 (Ming He)：联想研究院人工智能实验室咨询研究员。研究方向包括推荐系统、AI 智能体 (AI Agent) 和决策智能 (decision intelligence)。
范建平 (Jianping Fan)：研究方向包括图像/视频隐私保护 (image/video privacy protection)、计算机视觉 (computer vision)、统计机器学习 (statistical machine learning) 和深度学习 (deep learning)。

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布于 arXiv，并注明“Higher Education Press 2025”表示计划于 2025 年由高等教育出版社出版。

1.4. 发表年份

2024年 (arXiv 发布时间：2024-07-04T09:50:50.000Z)

1.5. 摘要

可控性 (Controllability) 已成为可信机器学习 (trustworthy machine learning) 的一个关键方面，它使学习器 (learners) 能够满足预定义的目标，并在测试时 (test time) 动态适应不断变化的目标而无需重新训练 (retraining)。本综述对可控学习 (Controllable Learning, CL) 进行了形式化定义，并探讨了其在信息检索 (Information Retrieval, IR) 中的应用，因为信息需求往往复杂且动态。本综述根据“可控什么”（例如，多目标、用户画像、场景适应）、“谁来控制”（用户或平台）、“如何实现控制”（例如，基于规则的方法、帕累托优化、超网络 (hypernetwork) 等）以及“在哪里实现控制”（例如，预处理、内处理、后处理方法）对 CL 进行分类。接着，我们指出了 CL 在训练 (training)、评估 (evaluation)、任务设置 (task setting) 和在线部署 (online environments) 方面面临的挑战。此外，我们还概述了 CL 在理论分析 (theoretical analysis)、高效计算 (efficient computation)、赋能大语言模型 (empowering large language models)、应用场景 (application scenarios) 和评估框架 (evaluation frameworks) 方面的有前景的研究方向。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2407.06083
PDF 链接: https://arxiv.org/pdf/2407.06083v3.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

该论文旨在解决在判别式 (discriminative) 机器学习模型和应用中，可控性 (controllability) 缺乏统一的定义和深入探讨的问题，特别是在信息检索 (Information Retrieval, IR) 领域。现有研究对可控性的理解和实现方式较为零散，未能形成系统性的框架，这限制了可控性在构建可信赖人工智能 (trustworthy AI) 中的作用。

2.1.2. 为什么这个问题在当前领域是重要的

可信机器学习的关键组成部分： 随着机器学习模型在关键领域的广泛应用，可信赖性 (trustworthiness) 变得至关重要，其中可控性与公平性 (fairness)、隐私 (privacy)、可解释性 (interpretability) 并列为核心考量。2023 年的《布莱切利宣言》和《全球人工智能治理倡议》都强调了人工智能应是“安全、可靠、可控和公平”的。
信息检索的复杂性和动态性： 在 IR 应用中，用户的信息需求 (information needs) 往往是复杂且动态变化的。传统的机器学习模型在部署后难以在不重新训练的情况下适应这些变化，导致用户体验不佳或无法满足特定需求。
Model-as-a-Service (MaaS) 的兴起： 从传统的软件即服务 (Software-as-a-Service, SaaS) 向模型即服务 (Model-as-a-Service, MaaS) 的转变，使得用户能够通过 API 访问大型预训练模型。然而，这也带来了新的挑战：如何在不重新训练的情况下，使这些通用模型能够识别不同下游任务的需求并输出个性化结果。可控学习 (Controllable Learning, CL) 正是解决这一问题的关键。
诺伯特·维纳 (Norbert Wiener) 的警示： 控制论 (cybernetics) 创始人诺伯特·维纳早在 60 多年前就预见了学习机器的伦理挑战，强调了对学习机器进行有效干预的重要性，以确保其目标与人类真实意图一致。这奠定了可控性在人工智能发展中的重要地位。

2.1.3. 这篇论文的切入点或创新思路

本论文的创新之处在于：

形式化定义可控学习 (CL)： 首次为可控学习提供了一个统一且形式化的定义，明确了其核心要素，包括任务描述 ( $s_{desc}$ )、上下文 ( $s_{ctx}$ ) 和任务目标 ( $s_{tgt}$ )，以及无需重新训练即可动态适应新任务的能力。
构建全面的分类法： 提出了一个多维度的 CL 分类框架，从“可控什么”、“谁来控制”、“如何实现控制”和“在哪里实现控制”四个维度对现有方法进行系统性梳理和归纳。这为理解和发展 CL 提供了清晰的路线图。
聚焦信息检索领域： 深入探讨了 CL 在 IR 中的具体应用和价值，强调其在满足复杂动态信息需求方面的潜力。
识别挑战并展望未来： 全面分析了 CL 在训练、评估、任务设置和在线部署中面临的挑战，并提出了未来研究的重点方向，为领域发展指明了方向。

2.2. 核心贡献/主要发现

提供了可控学习 (CL) 的形式化定义： 明确了 CL 的核心目标是找到一个学习器 (learner)，使其能够在测试时 (test time) 适应不同的任务要求，而无需进行重新训练 (retraining)，从而满足人工智能用户的期望任务目标。
构建了可控学习在信息检索 (IR) 中的多维度分类法：
- 可控什么 (What is Controllable)： 分为多目标控制 (multi-objective control)、用户画像控制 (user portrait control) 和场景适应控制 (scenario adaptation control)。
- 谁来控制 (Who Controls)： 分为以用户为中心控制 (user-centric control) 和以平台为中心控制 (platform-mediated control)。
- 如何实现控制 (How Control is Implemented)： 总结了基于规则的技术 (rule-based techniques)、帕累托优化 (Pareto optimization)、超网络 (hypernetwork) 以及其他方法（如解耦 (disentanglement)、强化学习 (reinforcement learning)、大语言模型 (LLMs) 和测试时适应 (test-time adaptation)）。
- 在哪里实现控制 (Where to Control)： 分为预处理 (pre-processing)、内处理 (in-processing) 和后处理 (post-processing) 方法。
识别了可控学习面临的关键挑战： 包括训练中的平衡难度、评估标准的缺失、任务描述的设定复杂性以及在线环境中的挑战。
概述了可控学习的未来研究方向： 涵盖理论分析、高效计算、赋能大语言模型、多任务切换以及对专用资源和评估指标的需求。
对比了现有综述： 明确指出本综述在覆盖范围、形式化定义和对现代技术（如超网络、大语言模型）的探讨方面优于现有相关综述。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 可信机器学习 (Trustworthy Machine Learning)

可信机器学习是指构建和部署具有高安全性、可靠性、公平性、隐私保护、可解释性和可控性等特性的机器学习系统。它的目标是确保 AI 系统在实际应用中能够获得用户的信任，并负责任地运行。

可控性 (Controllability): 机器学习模型在部署后，能根据预定义的目标或动态变化的需求进行调整，而无需重新训练，以达到用户期望的输出。
公平性 (Fairness): 模型预测或决策不应基于受保护的属性（如性别、种族、年龄等）对特定群体产生偏见或歧视。
隐私 (Privacy): 保护用户敏感数据不被泄露或滥用，确保模型在训练和推理过程中遵守数据隐私法规。
可解释性 (Interpretability): 使模型的决策过程对人类可理解，能够解释为什么会做出某个预测或推荐，从而增强透明度和信任。

3.1.2. 生成式模型 (Generative Models) 与判别式模型 (Discriminative Models)

生成式模型 (Generative Models): 这类模型旨在学习数据本身的分布 P(X)，或者学习联合分布 P(X, Y)。它们可以生成与训练数据相似的新样本。例如，大语言模型 (Large Language Models, LLMs) 进行文本生成，或扩散模型 (diffusion models) 进行图像生成，都属于生成式模型。
判别式模型 (Discriminative Models): 这类模型主要学习条件概率分布 $P(Y|X)$ ，即给定输入 $X$ 时，预测输出 $Y$ 的概率。它们主要用于分类、回归等任务，侧重于区分不同类别或预测特定值。信息检索中的排序模型、推荐系统中的预测模型通常属于判别式模型。

3.1.3. 信息检索 (Information Retrieval, IR)

信息检索是指从大规模信息集合（如文档、网页、商品等）中找出与用户查询或需求相关的信息的过程。它旨在满足用户的信息需求，提供最相关、最有用的信息。常见的 IR 应用包括搜索引擎、推荐系统、问答系统等。

3.1.4. 软件即服务 (Software-as-a-Service, SaaS) 与模型即服务 (Model-as-a-Service, MaaS)

软件即服务 (SaaS): 是一种通过互联网提供软件应用的模式。用户无需购买、安装和维护软件，而是通过订阅服务来使用。例如，Gmail、Salesforce 等。
模型即服务 (MaaS): 是一种新兴的服务模式，用户通过 API (Application Programming Interface) 访问预训练好的机器学习模型，而无需自己承担模型训练和维护的巨大成本。大型语言模型如 ChatGPT 的部署就体现了 MaaS 的趋势。MaaS 使得强大的 AI 能力更容易被广泛应用，但也对模型的动态适应性 (controllability) 提出了更高要求。

3.1.5. 基于提示的可控生成 (Prompt-based Controllable Generation)

在生成式模型中，用户通过提供文本指令或“提示词” (prompt) 来引导模型生成符合特定要求的内容。例如，在文本生成中，用户可以指定主题、风格、长度等；在图像生成中，用户可以描述图像内容、艺术风格等。这种方式可视为一种预处理 (pre-processing) 的控制方法，通过改变输入特征来影响模型输出。

3.2. 前人工作

3.2.1. 用户控制综述 [78]

这份 2017 年的综述触及了“用户控制”的概念，主要关注用户兴趣的即时性，强调了当系统对用户偏好的假设不准确或过时时，用户需要机制来控制推荐。

局限性： 仅从用户视角考虑可控性，忽略了平台侧控制；仅总结了交互形式，缺乏严格定义和深入技术分析。

3.2.2. 可信信息检索综述 [79]

该综述主要关注推荐系统中隐私保护的安全方面，但也涉及可控性，并将其分为两种类型：

显式可控性 (Explicit Controllability): 允许用户明确编辑或更新用户偏好。
隐式可控性 (Implicit Controllability): 用户通过与推荐系统动态交互（如重新排序、修改历史信息等）间接微调其偏好。
局限性： 缺乏对机器学习中可控性定义和实现方法的系统性总结；未充分探讨更广泛意义上的可控性，如平台侧控制或多目标控制。

3.2.3. 可解释信息检索综述 [80, 81]

这些综述关注可解释性 (explainability)，即让基于嵌入的检索或推荐模型透明和可理解。

区别于可控性：
- 可解释性 (Explainability): 旨在提供理由，解释为什么检索或推荐了某些项目。
- 可控性 (Controllability): 旨在使检索或推荐模型能够根据给定特定要求生成受控的结果。
关系： 可解释性可被视为实现可控性的初步步骤。通过提供解释，可解释 IR 促进了人类对算法决策的理解，从而增强了透明度、说服力、有效性和可控性。

3.2.4. 新兴可控技术

随着技术发展，出现了一些新的可控技术，例如：

超网络 (Hypernetworks) [82]: 一种生成另一个神经网络参数的神经网络，为动态适应模型参数提供了灵活高效的方式，具有显式的控制能力。
大语言模型 (Large Language Models, LLMs) [73]: 具有强大的通用智能和自然语言理解能力，能够通过自然语言提示 (prompt) 实现复杂的控制指令。

3.3. 技术演进

可控性的概念起源于控制论，并在机器学习领域逐渐受到关注。最初，可控性主要体现在用户对推荐系统行为的简单干预，如通过超参数 (hyperparameters) 调整推荐结果的平衡（如准确性与多样性），或通过编辑用户历史数据来影响推荐。随着深度学习和大规模模型的兴起，特别是大语言模型和 MaaS 模式的出现，对模型在测试时动态适应新任务和新需求的能力提出了更高要求。基于提示 (prompt-based) 的可控生成已在生成式模型中得到广泛应用，但判别式模型中的可控性研究相对滞后。超网络等技术为在模型参数层面实现精细化控制提供了新的途径，而强化学习则通过奖励函数 (reward function) 设计来引导模型行为。本论文正是在这一技术演进背景下，试图为判别式模型，尤其是在信息检索领域的可控学习，提供一个统一的定义、分类和未来展望。

3.4. 差异化分析

缺乏综合性与系统性： 现有关于“用户控制”的综述仅从用户视角出发，且缺乏对技术细节和形式化定义的深入分析。可信 IR 综述虽提及可控性，但未能提供系统性的定义和实现方法。可解释 IR 综述则主要关注透明度，与可控性的核心目标不同。
未涵盖现代技术： 许多现有综述发表时间较早，未能涵盖近年来涌现的先进可控技术，如超网络、大语言模型在可控性方面的应用。
缺乏形式化定义： 本综述首次为可控学习提供了形式化定义，统一了不同研究中对可控性的理解，并在此基础上构建了一个全面的分类框架。
聚焦信息检索： 本综述专门针对信息检索领域，深入探讨了 CL 在 IR 中的特定应用、挑战和未来方向，填补了该领域的空白。
多维度分类： 本综述提出了多维度的分类法（“什么可控”、“谁控制”、“如何控制”、“在哪里控制”），使得对 CL 的理解更加全面和深入，有助于研究人员更好地定位和发展相关技术。

4. 方法论

4.1. 方法原理

可控学习 (Controllable Learning, CL) 的核心思想是实现机器学习模型在部署后，能够在不进行重新训练的情况下，根据新的任务要求动态调整其行为或输出，以达到用户或平台预期的目标。这与传统的领域适应 (domain adaptation) 或迁移学习 (transfer learning) 不同，后者通常需要针对新任务进行模型微调或重新训练。CL 强调的是在测试时 (test time) 的即时适应能力。

其背后的直觉在于，现实世界中的用户需求、平台策略或环境场景是动态变化的。一个在训练时固定参数的模型很难适应这种持续的变化。通过引入一个“控制函数” (control function)，CL 旨在将原始学习器 (learner) 及其参数化，使得通过输入特定的“任务描述” (task description) 和“上下文” (context)，模型能够生成或调整为一个满足特定“任务目标” (task target) 的新学习器。这个过程应尽可能高效，避免耗时的模型重训练。

4.2. 核心方法详解 (逐层深入)

4.2.1. 可控学习的形式化定义

论文首先给出了可控学习 (CL) 的形式化定义，这是理解整个框架的基础。

定义 1 (可控学习 (CL))： 定义一个任务要求三元组 $\mathcal { T } = \{ s _ { \mathrm { d e s c } } , s _ { \mathrm { c t x } } , s _ { \mathrm { t g t } } \} \in \Gamma$ ，其中：

$s _ { \mathrm { d e s c } } \in \mathcal { D } _ { \mathrm { d e s c } }$ 代表任务描述 (task description)。
$s _ { \mathrm { c t x } } \in \mathcal { D } _ { \mathrm { c t x } }$ 代表与任务相关的上下文 (context)。
$s _ { \mathrm { t g t } } \in \mathcal { D } _ { \mathrm { t g t } }$ 代表任务目标 (task target)。

给定一个输入空间 $\mathcal{X}$ 和一个输出空间 $\mathcal{Y}$ ，对于一个学习器 $f : \mathcal{X} \to \mathcal{Y}$ ，可控学习 (CL) 旨在找到一个控制函数 $h$ ，将学习器 $f$ 、任务描述 $s _ { \mathrm { d e s c } } \in \mathcal { T }$ 和上下文 $s _ { \mathrm { c t x } } \in \mathcal { T }$ 映射到一个新的学习器 $f _ { \mathcal { T } }$ ，该学习器能够实现任务目标 $s _ { \mathrm { t g t } } \in \mathcal { T }$ ，即： $f _ { \mathcal { T } } = h ( f , s _ { \mathrm { d e s c } } , s _ { \mathrm { c t x } } )$ 学习器 $f$ 和控制函数 $h$ 的整合被称为可控学习器 (controllable learner)。此外，当在测试时接收到新的任务要求 $\mathcal { T } ^ { \prime } \in \Gamma$ 时，控制函数 $h$ 应该能够在无需模型重新训练的情况下，输出一个新的学习器 $f _ { \mathcal { T } } ^ { \prime }$ ，确保 $f _ { \mathcal { T } } ^ { \prime }$ 满足任务目标 $s _ { \mathrm { t g t } } ^ { \prime } \in \mathcal T ^ { \prime }$ 。
符号解释：
- $\mathcal{T}$ : 任务要求三元组。
- $s_{desc}$ : 任务描述，是控制函数可感知的任务目标具体表示。
- $\mathcal{D}_{desc}$ : 任务描述的域。
- $s_{ctx}$ : 上下文，提供额外的背景知识，如历史数据、用户画像。
- $\mathcal{D}_{ctx}$ : 上下文的域。
- $s_{tgt}$ : 任务目标，是可控学习器旨在实现理想的量化指标。
- $\mathcal{D}_{tgt}$ : 任务目标的域。
- $\Gamma$ : 所有可能的任务要求三元组的集合。
- $\mathcal{X}$ : 输入空间。
- $\mathcal{Y}$ : 输出空间。
- $f$ : 原始学习器，一个从输入空间到输出空间的映射函数。
- $h$ : 控制函数，将原始学习器、任务描述和上下文映射到新的学习器。
- $f_{\mathcal{T}}$ : 根据任务要求 $\mathcal{T}$ 产生的新学习器。
- $f_{\mathcal{T}}'$ : 在测试时接收到新的任务要求 $\mathcal{T}'$ 后，由控制函数生成的新学习器。
  
  这个定义强调了 CL 的两个关键特征：动态适应性和无需重新训练。任务描述 ( $s_{desc}$ ) 作为用户或平台表达意图的载体，上下文 ( $s_{ctx}$ ) 提供额外背景信息，而任务目标 ( $s_{tgt}$ ) 则明确了期望的性能指标。

下图 (原文 Figure 2) 展示了可控学习的流程图：

该图像是一个示意图，展示了可控学习的框架，包括上下文、可控学习者和输出。图中涵盖了历史数据、用户画像等要素，并且强调了多目标控制、用户画像控制和场景适应控制等目标。该图形有助于理解可控学习在信息检索中的应用。

**VLM 描述**: 该图像是一个示意图，展示了可控学习的框架，包括上下文、可控学习者和输出。图中涵盖了历史数据、用户画像等要素，并且强调了多目标控制、用户画像控制和场景适应控制等目标。该图形有助于理解可控学习在信息检索中的应用。

4.2.2. 分类法：可控什么 (What is Controllable)

本节从“任务目标 $s_{tgt}$ 可以是什么”的角度，将可控学习在信息检索中的应用分为三类：

4.2.2.1. 多目标控制 (Multi-Objective Control)

目标： 在实际业务场景中，平台和用户的兴趣会动态变化，尤其是在多目标设置下（如准确性 (accuracy)、多样性 (diversity)、新颖性 (novelty)）。多目标控制旨在使模型能够适应这些不断变化的目标要求。
$s_{tgt}$ ： 期望的性能目标，涉及多个相互冲突的指标（例如，平台希望兼顾准确性和多样性，并能调整其侧重）。
$s_{desc}$ ： 对每个目标偏好的表示，可以是显式的权重向量（如 [0.4, 0.6] 表示准确性 0.4、多样性 0.6）、自然语言描述，或隐式的交互行为。
示例：
- ComiRec [1]：通过聚合模块中的超参数 $\lambda$ 平衡准确性 (accuracy) 和多样性 (diversity)，实现多兴趣推荐。
- UCRS [2]：通过控制系数 $\alpha, \beta$ 调节准确性、隔离度和多样性，帮助用户减少过滤气泡 (filter bubbles)。
- CMR [3]：利用超网络 (hypernetwork) 接收动态偏好权重作为输入，调整推荐模型最后几层参数，实现对准确性和多样性的动态控制。
- PadiRec [4]：将不同偏好权重下的多目标模型作为学习目标，通过扩散模型 (diffusion model) 捕捉偏好权重与模型参数之间的关系，在测试时根据期望权重定制模型。
  
  下图 (原文 Figure 3) 示例了多目标控制的必要性：
  
  该图像是示意图，展示了多目标控制的必要性。在测试阶段，用户的临时偏好可能会从'爱情'和'悬疑'转向'小说'，而平台则更关注输出的多样性。图中说明了用户与平台在测试阶段目标动态变化的重要性。

**VLM 描述**: 该图像是示意图，展示了多目标控制的必要性。在测试阶段，用户的临时偏好可能会从'爱情'和'悬疑'转向'小说'，而平台则更关注输出的多样性。图中说明了用户与平台在测试阶段目标动态变化的重要性。

4.2.2.2. 用户画像控制 (User Portrait Control)

目标： 允许用户编辑或管理其个人画像 (user profile) 或历史数据 (history data)，以符合隐私规则或更精确地表达自身偏好，从而影响推荐输出。
$s_{ctx}$ ： 用户画像或交互历史数据，是可编辑的。
控制函数 $h$ ： 在此情况下，控制函数 $h$ 可能是一个投影映射 (projection mapping)，不改变学习器 $f$ 本身，而是通过编辑学习器 $f$ 的输入来实现任务目标。
示例：
- LACE [6]：允许用户通过选择或取消选择概念 (concepts) 来编辑其画像，直接影响推荐。
- IFRQE [7]：允许用户删除或修改过去的交互记录，以优化推荐体验。
- TEARS [9]：将用户偏好总结为文本形式，允许用户编辑文本摘要来控制推荐。
- UCR [11]：提出了具有回顾性可控性 (retrospective controllability) 和前瞻性可控性 (prospective controllability) 的框架，使用户能够理解并控制历史行为和未来交互对推荐的影响。
  
  下图 (原文 Figure 4) 展示了用户画像控制的示例：
  
  该图像是示意图，展示了用户偏好控制的示例。用户的偏好摘要显示其过去对小说类电影的喜好，以及最近向情节驱动影片（如爱情和悬疑）转变的趋势。交互历史部分清晰列出了用户观看的电影，同时右侧的评分部分包括不同电影的评分情况，体现了用户对动作类电影的潜在偏好。

**VLM 描述**: 该图像是示意图，展示了用户偏好控制的示例。用户的偏好摘要显示其过去对小说类电影的喜好，以及最近向情节驱动影片（如爱情和悬疑）转变的趋势。交互历史部分清晰列出了用户观看的电影，同时右侧的评分部分包括不同电影的评分情况，体现了用户对动作类电影的潜在偏好。

4.2.2.3. 场景适应控制 (Scenario Adaptation Control)

目标： 在真实世界的推荐系统中，平台通常包含多个内容页面（即多个场景），或用户的行为在时间维度上存在特定模式（如不同时间段）。场景适应控制旨在通过显式利用场景信息，使模型能够适应不同的场景。
$s_{desc}$ ： 包含场景特定的附加信息 (side information)。
控制函数 $h$ ： 将通用学习器 $f$ 映射到一个场景特定的学习器 $f_{\mathcal{T}}$ 。
示例：
- Hamur [13]：提出共享超网络 (shared hypernetwork)，动态生成适配器 (adapters) 参数以捕捉跨域的隐式信息。
- HyperBandit [12]：利用超网络显式建模周期性外部环境与用户兴趣的二元关系，在测试时根据时间特征动态调整推荐模型参数。
- PEPNet [14]：引入门控机制 (gating mechanism)，通过处理个性化语义的先验信息 (prior information) 来生成个性化门控分数，自适应控制先验信息的重要性。
  
  下图 (原文 Figure 5) 描述了场景适应控制的工作流程：
  
  该图像是示意图，展示了场景适应控制的工作流程。在这一过程中，控制函数将普通学习者根据任务描述映射到特定场景的学习者，支持在不同场景下的动态适应，无需重训练。

**VLM 描述**: 该图像是示意图，展示了场景适应控制的工作流程。在这一过程中，控制函数将普通学习者根据任务描述映射到特定场景的学习者，支持在不同场景下的动态适应，无需重训练。

4.2.3. 分类法：谁来控制 (Who Controls)

本节从“谁提出任务描述 $s_{desc}$ ”的角度，将可控学习分为两类：

4.2.3.1. 以用户为中心控制 (User-Centric Control)

控制主体： 用户。用户有明确的兴趣 (即 $s_{tgt}$ )，并通过特定格式（如问卷、权重按钮、自然语言）将信息提供给推荐系统 (即 $s_{desc}$ )。有时用户通过行为（如与推荐结果的交互）隐式表达偏好。
目标： 满足用户多样化的需求，如保护隐私、过滤无关互动、探索新颖项目、消除噪声、表达兴趣等。
类型：
- 显式控制 (Explicit Control)： 用户明确定义偏好。例如，Supervised $\beta$ -VAE [15] 通过显式分配隐维度 (latent dimensions) 给用户偏好属性实现可解释和可控的推荐；LP [16] 允许用户通过迭代批评 (iterative critiques) 明确控制推荐结果；LangPTune [17] 通过自然语言画像实现显式用户控制。
- 隐式控制 (Implicit Control)： 用户通过修改上下文 (context) 来表达偏好，例如交互历史、通用用户画像或项目描述。例如，UCRS [2] 提供了四种控制命令来减少过滤气泡；IFRQE [7] 允许用户决定哪些交互参与模型训练；LACE [6] 允许用户编辑基于概念的画像。
  
  下图 (原文 Figure 6) 展示了以用户为中心和以平台为中心控制的对象：
  
  该图像是示意图，展示了以用户为中心和以平台为中心的控制对象。左侧包含与用户相关的偏好、隐私、多样性、探索和数据过滤等概念，右侧则涉及到与平台相关的适应性、效率和准确性等方面。

**VLM 描述**: 该图像是示意图，展示了以用户为中心和以平台为中心的控制对象。左侧包含与用户相关的偏好、隐私、多样性、探索和数据过滤等概念，右侧则涉及到与平台相关的适应性、效率和准确性等方面。

4.2.3.2. 以平台为中心控制 (Platform-Mediated Control)

控制主体： 平台。平台通过算法调整和基于策略的约束来影响推荐过程。控制需求仍以 $s_{desc}$ 形式表达。
目标： 优化推荐策略以满足特定业务目标，如增加多样性以促进冷门项目曝光、平衡多目标（如准确性与多样性）、利用多场景适应性提升性能、以及通过统一可控模型降低成本（效率）。
示例：
- CCDF [21]：通过超参数控制推荐中类别多样性，以缓解回声室效应 (echo chamber effects)。
- CMR [3] 和 PadiRec [4]：通过参数生成实现基于不同目标权重 (objective weights) 的下游模型，使平台能够适应不同的用户群体或环境变化。
- ComiRec [1]：在聚合模块中捕捉用户多重兴趣并生成平台可控的 Top-N 推荐。
- SAMD [23]：提供了一种跨多场景的场景感知 (scenario-aware) 和模型无关 (model-agnostic) 的知识传播方法。
- HyperBandit [12]：考虑时间特征与用户偏好的相关性，实现动态适应随时间演变的用户偏好。

4.2.4. 分类法：如何实现控制 (How Control is Implemented)

本节总结实现控制函数 $h(\cdot)$ 的常见技术。

4.2.4.1. 基于规则的技术 (Rule-Based Techniques)

原理： 应用预定义规则来处理推荐系统的输入或输出。控制函数 $h$ 可以被定义为 $f \to f \circ g_{rule}$ (预处理) 或 $f \to g_{rule} \circ f$ (后处理)，其中 $g_{rule}$ 是基于规则的控制机制。
$s_{tgt}$ ： 通常是期望达到的系统性能，如安全性、公平性等。
$s_{desc}$ ： 通常是隐式的。
预处理 (Pre-processing)： 处理上下文信息（如用户画像、交互历史），以满足特定要求（如隐私保护、公平性）。例如，用户可以指定 $g_{rule}$ 过滤掉不必要的历史交互。
后处理 (Post-processing)： 直接作用于模型输出，如移除过时项目或推广冷门项目以增加多样性。例如，MMR [47] 迭代选择兼顾相关性和非冗余性的项目。
示例：
- 隐私保护：通过修改和合成输入数据实现 [90-92]。
- 多样性：MMR [47] 算法通过最大化相关性和最小化冗余的组合准则来平衡推荐列表。
- 公平性：Nandy et al. [28] 通过后处理调整来减轻推荐系统中的偏见。
- 可解释性：Le et al. [29] 通过规则生成解释。

4.2.4.2. 帕累托优化 (Pareto Optimization)

原理： 在机器学习中，当存在多个相互冲突的目标时，帕累托优化旨在找到一组非劣解 (non-inferior solutions)，即帕累托最优解 (Pareto optimal solutions)，这些解在不牺牲一个目标的情况下无法改善另一个目标。
$s_{tgt}$ ： 通常代表同时满足多个目标的一个帕累托最优解。
$s_{desc}$ ： 通常由一组多目标权重或约束组成，指导系统达到目标。
$s_{ctx}$ ： 通常取决于场景，在信息检索中可能包括候选文档、用户画像等。
挑战： 如何在给定约束下，引导学习器 $f$ 实现帕累托最优。
示例：
- Pareto MTL [94]：将多任务学习问题分解为一系列子问题，每个子问题代表独特的权衡偏好，从而获得一组帕累托最优解。
- Controllable Pareto MTL [34]：在此基础上引入框架，允许实时调整权衡。
- PHN-HVI [31] 和 PHNs [32]：利用超网络生成多样化解，并通过优化超体积指标 (Hypervolume indicator) 来改进帕累托前沿 (Pareto front) 的质量。
- PAPERec [95]：在多目标推荐中引入个性化帕累托最优，实现对个性化目标权重的自适应控制。
- MoFIR [96]：利用多目标强化学习提供在效用 (utility) 和公平性 (fairness) 之间权衡的可控性。
局限性： 大多数现有研究并未专注于测试时控制，即学习器 $f$ 仍需重新训练才能适应新需求并实现帕累托最优。

下图 (原文 Figure 7) 描绘了可控帕累托优化：

该图像是示意图，展示了可控帕累托优化的影响。左侧显示了在没有控制的情况下的帕累托前沿，而右侧则展示了在控制目标1的情况下的帕累托前沿变化。图中用不同颜色和标记区分了各个目标，强调了控制在优化过程中的重要性。

**VLM 描述**: 该图像是示意图，展示了可控帕累托优化的影响。左侧显示了在没有控制的情况下的帕累托前沿，而右侧则展示了在控制目标1的情况下的帕累托前沿变化。图中用不同颜色和标记区分了各个目标，强调了控制在优化过程中的重要性。

4.2.4.3. 超网络 (Hypernetwork)

原理： 超网络是一种特殊的神经网络，其输出是另一个神经网络（称为“主网络” (main network) 或“目标网络” (target network)）的参数。它提供了一种动态管理和适应模型参数的灵活高效方式，从而增强模型的可控性。
$s_{desc}$ ： 通常代表任务或领域的描述，作为超网络的输入。
控制函数 $h$ ： 超网络本身充当控制函数 $h$ ，接收 $s_{desc}$ 作为输入，并通过生成参数来映射学习器 $f$ ，从而使映射后的学习器实现对应的 $s_{tgt}$ 。
示例：
- Galanti and Wolf [41]：讨论了超网络的模块化 (modularity)，强调其将复杂任务分解为子任务的能力。
- Hyperprompt [39]：引入基于提示 (prompt-based) 的任务条件化 (task-conditioning) 方法，利用超网络动态生成提示来适应不同的检索任务。
- Hamur [13]：为多域推荐 (multi-domain recommendation) 设计超适配器 (hyper adapter)，利用超网络自适应生成域特定参数。
- CMR [3]：探索使用策略超网络 (policy hypernetworks) 实现可控多目标重排序 (re-ranking)。
- HyperBandit [12]：通过超网络生成参数，估计时变奖励 (time-varying rewards)，以适应随时间演变的用户偏好。
- Hypencoder [40]：使用超网络为每个查询生成一个专用的轻量级神经网络来评分文档。

4.2.4.4. 其他方法 (Other Methods)

解耦 (Disentanglement)： 将用户兴趣解耦到潜在空间 (latent space) 中的特定维度，以便于控制。
- 示例：Multi-VAE 和 Supervised $\beta$ -VAE [15, 99] 提供了“旋钮” (knobs)，每个旋钮对应一个项目方面；LP [16] 在线性空间中建模用户-项目交互；CGIR [100] 学习解耦的项目表示。
强化学习 (Reinforcement Learning, RL)： 通过专门设计的奖励函数 (reward function)，使算法能够从与环境的交互中学习，从而实现可控性。
- 示例：LangPTune [17] 利用强化学习使编码器更好地将隐式用户交互序列编码为可解释文本；RecLM-gen [5] 采用强化学习设计细粒度奖励函数；GOMMIR [18] 将用户语言作为奖励信号融入强化学习。
大语言模型 (Large Language Models, LLMs)： 利用 LLM 的通用智能和自然语言能力实现可控性。
- 示例：GOMMIR [18] 增强了用户对推荐过程的控制；MocDT [103] 利用决策 Transformer (Decision Transformer) 表示和优先化多个目标；RecLM-gen [5] 构建监督微调 (Supervised Fine-Tuning, SFT) 任务以提高 LLM 遵循推荐指令的能力；DLCRec [104] 提出框架增强 LLM-based 推荐系统中的多样性控制；LACE [6]、TEARS [9] 和 LangPTune [17] 利用 LLM 实现可解释和可控的自然语言兴趣编辑 (Natural Language Interest Editing, NLIE)。
测试时适应 (Test-Time Adaptation, TTA)： 算法在测试阶段利用无标签数据直接调整模型，而无需重新训练。
- 示例： $T^2ARec$ [105] 将测试时训练 (Test-Time Training) 引入序列推荐；HyperBandit [12] 利用超网络根据测试数据的时间特征动态调整模型；Hamur [13] 通过域共享超网络适应域偏移 (domain shifts)。需要注意的是，并非所有基于超网络的算法都属于此类，因为超网络通常支持主动控制，而 TTA 更多是基于测试数据的反应性调整。

4.2.5. 分类法：在哪里实现控制 (Where to Control)

本节根据控制功能在推理过程中的应用阶段，将方法分为三类：

4.2.5.1. 预处理方法 (Pre-Processing Methods)

原理： 仅通过转换模型输入来实现任务目标，不调整模型本身。对模型输入的转换包括将任务描述直接拼接到原始特征向量，类似于大语言模型中的上下文学习 (in-context learning) 或提示 (prompt)。
示例：
- LACE [6]：通过从用户文档交互中提取可理解的概念来构建用户画像，允许用户修改画像以影响推荐。
- Wang et al. [7] (IFRQE)：允许用户决定哪些交互数据可用于训练，平衡推荐效果和用户隐私。
- UCRS [2]：通过丢弃过时用户表示并估计其反事实效应，或通过修改用户/项目特征（如将年龄从“中年”改为“青少年”）来控制推荐。
- 指令式信息检索：TART [43] 和 Instructor [44] 采用简单的任务前缀 (task prefixes)；FollowIR [45] 和 InstructIR [46] 明确评估检索器 (retrievers) 的指令遵循能力。

4.2.5.2. 内处理方法 (In-Processing Methods)

原理： 在接收到任务描述和上下文后，自适应地调整模型的参数 (parameters) 或隐藏状态 (hidden states)，以实现任务目标。
示例：
- CMR [3]：利用输入偏好向量引导超网络，生成定制化的网络参数以平衡多个目标，从而在测试阶段实现控制。
- HyperBandit [12]：利用周期性时间信息注入超网络，建模用户偏好与时间块之间的关系，实现用户偏好的高效适应。
- CCDF [21]：通过超参数 $\lambda$ 直接操纵 Top-k 推荐中呈现的类别数量，实现对推荐内容多样性的精确控制。

4.2.5.3. 后处理方法 (Post-Processing Methods)

原理： 在推理完成后，对模型输出进行操作，如重新排序 (re-ranking) 和结果多样化 (result diversification)。
示例：
- ComiRec [1]：利用最终聚合模块，通过加权求和平衡准确性与多样性，确定 Top-k 推荐。
- MMR [47]：一种在推荐系统中平衡相关性和多样性的后处理技术，通过迭代选择最大化相关性和最小化冗余的项目。

4.2.6. 方法总结表格

以下是原文 Table 1 的内容，总结了不同可控学习方法的属性：

Method Information		Paradigm of Controllable Learning
Method	Year	What	Who	CL Tech.	Where
MocDT [103]	2025	multi-objective control	user-centric control	RL	in-processing
PadiRec [4]	2024	multi-objective control	platform-mediated control	hypernetwork	in-processing
FollowIR [45]	2024	user portrait control	user-centric control	SFT	pre-processing
InstructIR [46]	2024	user portrait control	user-centric control	SFT	pre-processing
RecLM-gen [5]	2024	multi-objective control	platform-mediated control	SFT, RL	in-processing
IFRQE [7]	2024	user portrait control	user-centric control	others	pre-processing
TEARS [9]	2024	user portrait control	user-centric control	RL, NLIE	in-processing
CMBR [10]	2024	user portrait control	user-centric control	SFT, RL	in-processing
LangPTune [17]	2024	user portrait control	user-centric control	RL, NLIE	in-processing
CCDF [21]	2024	multi-objective control	platform-mediated control	others	in-processing
CMR [3]	2023	multi-objective control	platform-mediated control	hypernetwork	in-processing
LACE [6]	2023	user portrait control	user-centric control	NLIE	pre-processing
UCR [11]	2023	user portrait control	user-centric control	others	pre-processing
Hamur [13]	2023	scenario adaptation control	platform-mediated control	hypernetwork, TTA	in-processing
HyperBandit [12]	2023	scenario adaptation control	platform-mediated control	hypernetwork, TTA	in-processing
PEPNet [14]	2023	scenario adaptation control	user-centric control	hypernetwork	in-processing
SAMD [23]	2023	scenario adaptation control	platform-mediated control	hypernetwork	in-processing
DTRN [24]	2023	scenario adaptation control	user-centric control	hypernetwork	in-processing
MoFIR [96]	2022	multi-objective control	user-centric control	pareto optimization	in-processing
UCRS [2]	2022	multi-objective control	user-centric control	others	pre-processing
PAPERec [95]	2021	multi-objective control	user-centric control	pareto optimization	in-processing
Supervised β-VAE [15]	2021	user portrait control	user-centric control	Disentanglement	in-processing
ComiRec [1]	2020	multi-objective control	platform-mediated control	others	post-processing
LP [16]	2020	user portrait control	user-centric control	Disentanglement	in-processing
MMR [47]	1998	multi-objective control	platform-mediated control	rule-based	post-processing

表头解释：
- Method Information (方法信息): 包含方法名称和发表年份。
- Paradigm of Controllable Learning (可控学习范式): 描述了该方法在可控学习分类中的位置。
- What (可控什么): 指该方法主要关注的可控目标，如多目标控制 (multi-objective control)、用户画像控制 (user portrait control) 或场景适应控制 (scenario adaptation control)。
- Who (谁来控制): 指控制的来源，是以用户为中心控制 (user-centric control) 还是以平台为中心控制 (platform-mediated control)。
- CL Tech. (可控学习技术): 指实现控制所采用的主要技术，如强化学习 (RL)、超网络 (hypernetwork)、监督微调 (SFT)、自然语言兴趣编辑 (NLIE)、测试时适应 (TTA)、帕累托优化 (pareto optimization)、解耦 (Disentanglement) 或基于规则 (rule-based) 的方法。
- Where (在哪里实现控制): 指控制功能在模型推理阶段的应用位置，如预处理 (pre-processing)、内处理 (in-processing) 或后处理 (post-processing)。

5. 实验设置

本节主要讨论可控学习在信息检索应用中的评估方法和常用数据集。由于可控学习是一个相对较新的概念，其评估标准和专用数据集仍在发展中。

5.1. 评估指标

在可控学习的定义中，我们期望控制函数 $h$ 能够输出一个新的学习器 $f_{\mathcal{T}}$ ，以满足任务要求 $\mathcal{T}$ 。因此，评估阶段需要衡量 $h$ 是否能有效控制 $f_{\mathcal{T}}$ 的输出，即 $f_{\mathcal{T}}$ 的性能是否满足任务要求。

5.1.1. 通用可控性度量

一个简单的思路是，如果存在一个参数 $\alpha$ 来表示对输出 $f_{\mathcal{T}}$ 的性能 $s$ （如 NDCG、多样性、MAP 等）的控制程度，那么 $\alpha$ 和 $s$ 之间应存在近似线性关系 [1, 3]。

皮尔逊相关系数 (Pearson Correlation Coefficient) [106]：
- 概念定义： 量化两个变量之间线性关系的强度和方向。值范围在 -1 到 1 之间，1 表示完全正相关，-1 表示完全负相关，0 表示无线性相关。在可控学习中，可用于衡量控制参数 $\alpha$ 和目标性能 $s$ 之间的线性关系强度。
- 数学公式： $\rho_{X,Y} = \frac{\mathrm{cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y}$
- 符号解释：
  - $\rho_{X,Y}$ : 变量 $X$ 和 $Y$ 之间的皮尔逊相关系数。
  - $\mathrm{cov}(X,Y)$ : $X$ 和 $Y$ 的协方差。
  - $\sigma_X$ : $X$ 的标准差。
  - $\sigma_Y$ : $Y$ 的标准差。
  - $E[\cdot]$ : 期望运算符。
  - $\mu_X$ : $X$ 的均值。
  - $\mu_Y$ : $Y$ 的均值。
斯皮尔曼等级相关系数 (Spearman Rank Correlation Coefficient) [107]：
- 概念定义： 量化两个变量之间单调关系的强度和方向。它首先将数据转换为等级，然后计算这些等级之间的皮尔逊相关系数。适用于衡量控制参数 $\alpha$ 和目标性能 $s$ 之间的非线性单调关系。
- 数学公式： $\rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)}$
- 符号解释：
  - $\rho$ : 斯皮尔曼等级相关系数。
  - $d_i$ : 第 $i$ 个观测值中两个变量等级之间的差异。
  - $n$ : 观测值的数量。

5.1.2. 单目标指标 (Single-Objective Metrics)

在信息检索领域，平台和用户追求的目标多种多样。以下是常用的单目标推荐评估指标：

5.1.2.1. 准确性 (Accuracy)

准确性衡量推荐系统提供的项目与用户实际偏好或兴趣的匹配程度。

归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG) [48]：
- 概念定义： 评估信息检索系统有效性的指标，同时考虑了检索文档的相关性和排名位置。它对排名较低的项目给予对数折扣，并与理想排名进行归一化处理。
- 数学公式： $\mathrm { NDCG } @ k = \displaystyle \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \mathrm { DCG } _ { i } @ k } { \mathrm { IDCG } _ { i } @ k } \\ \mathrm { DCG } _ { i } @ k = \displaystyle \sum _ { j = 1 } ^ { k } \frac { 2 ^ { y _ { i j } } - 1 } { \log _ { 2 } ( j + 1 ) }$
- 符号解释：
  - $\mathrm{NDCG}@k$ : 在前 $k$ 个结果上的归一化折损累积增益。
  - $N$ : 测试样本的数量。
  - $\mathrm{DCG}_i@k$ : 第 $i$ 个查询在前 $k$ 个结果上的折损累积增益。
  - $\mathrm{IDCG}_i@k$ : 第 $i$ 个查询在前 $k$ 个结果上的理想折损累积增益（即最优排名下的 DCG）。
  - $y_{ij} \in \{0, 1\}$ : 第 $i$ 个查询的第 $j$ 个项目是否相关（通常为二元标签，也可以是多级相关性评分）。
精确率 (Precision) [48]：
- 概念定义： 衡量检索到的文档中有多少是相关的。计算方式是检索到的相关文档数量除以检索到的总文档数量。高精确率意味着系统主要推荐相关项目。
- 数学公式： $\mathrm { Precision } @ k = \sum _ { i = 1 } ^ { N } \frac { |\widehat { L } _ { i } ^ { k } \cap L _ { i } ^ { k } | } { |\widehat { L } _ { i } ^ { k } | }$
- 符号解释：
  - $\mathrm{Precision}@k$ : 在前 $k$ 个结果上的精确率。
  - $N$ : 测试样本的数量。
  - $\widehat{L}_i^k$ : 第 $i$ 个查询由 IR 模型输出的 Top $k$ 列表。
  - $L_i^k$ : 第 $i$ 个查询的真实 Top $k$ 列表。
召回率 (Recall) [48]：
- 概念定义： 衡量所有相关文档中有多少被检索到了。计算方式是检索到的相关文档数量除以所有相关文档的总数。高召回率意味着系统能够发现大多数相关项目。
- 数学公式： $\mathrm { Recall } @ k = \sum _ { i = 1 } ^ { N } \frac { |\widehat { L } _ { i } ^ { k } \cap L _ { i } ^ { k } | } { |L _ { i } ^ { k } | }$
- 符号解释：
  - $\mathrm{Recall}@k$ : 在前 $k$ 个结果上的召回率。
  - $N$ : 测试样本的数量。
  - $\widehat{L}_i^k$ : 第 $i$ 个查询由 IR 模型输出的 Top $k$ 列表。
  - $L_i^k$ : 第 $i$ 个查询的真实 Top $k$ 列表。
命中率 (Hit Rate) [48]：
- 概念定义： 评估推荐系统性能的指标，衡量有多少用户在前 $N$ 个推荐中至少有一个相关项目。它对于理解在电商或流媒体平台等场景中，提供至少一个相关选项对用户满意度的影响至关重要。
- 数学公式： $\mathrm { Hit } @ k = \sum _ { i = 1 } ^ { N } \mathbb { I } ( \widehat { L } _ { i } ^ { k } \cap L _ { i } ^ { k } \neq \varnothing )$
- 符号解释：
  - $\mathrm{Hit}@k$ : 在前 $k$ 个结果上的命中率。
  - $N$ : 测试样本的数量。
  - $\mathbb{I}(\cdot)$ : 指示函数 (indicator function)，当括号内的条件为真时为 1，否则为 0。
  - $\widehat{L}_i^k$ : 第 $i$ 个查询由 IR 模型输出的 Top $k$ 列表。
  - $L_i^k$ : 第 $i$ 个查询的真实 Top $k$ 列表。

5.1.2.2. 多样性 (Diversity)

多样性指推荐给用户的项目列表的种类丰富程度，避免冗余并提供广泛的选择。

$\alpha$ -NDCG [49]：
- 概念定义： 扩展了 NDCG 指标，用于评估信息检索系统中的多样性。通过引入参数 $\alpha$ ，它惩罚冗余并奖励检索多样化、相关的文档。
- 数学公式： $\alpha \mathrm { - N D C G } @ k = \displaystyle \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \alpha \mathrm { - D C G } _ { i } @ k } { \alpha \mathrm { - I D C G } _ { i } @ k } \\ \alpha \mathrm { - D C G } _ { i } @ k = \displaystyle \sum _ { j = 1 } ^ { k } \sum _ { l = 1 } ^ { m } \frac { t _ { j , l } ( 1 - \alpha ) ^ { c _ { j , l } } } { \log _ { 2 } ( j + 1 ) }$
- 符号解释：
  - $\alpha \mathrm{-NDCG}@k$ : 在前 $k$ 个结果上的 $\alpha$ -归一化折损累积增益。
  - $N$ : 测试样本的数量。
  - $\alpha \mathrm{-DCG}_i@k$ : 第 $i$ 个查询在前 $k$ 个结果上的 $\alpha$ -折损累积增益。
  - $\alpha \mathrm{-IDCG}_i@k$ : 第 $i$ 个查询在前 $k$ 个结果上的理想 $\alpha$ -折损累积增益。
  - $m$ : 子主题 (subtopic) 的数量。
  - $t_{j,l}$ : 如果第 $j$ 个项目覆盖子主题 $l$ 则为 1，否则为 0。
  - $c_{j,l}$ : 子主题 $l$ 在第 $j$ 个项目之前被项目覆盖的次数。
ERR-IA (Expected Reciprocal Rank - Intent Aware) [50]：
- 概念定义： 通过在评估过程中考虑用户意图 (user intent) 来评估信息检索系统的有效性。它扩展了期望倒数排名 (Expected Reciprocal Rank, ERR) 指标，通过概率方法处理用户意图，确保评估反映用户需求的多样性。
- 数学公式： $\mathrm { ERR-IA } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \sum _ { j = 1 } ^ { k } \frac { 1 } { j } \sum _ { l = 1 } ^ { m } \frac { 1 } { m } \frac { t _ { i l } } { 2 ^ { c _ { j , l } } + 1 }$
- 符号解释：
  - $\mathrm{ERR-IA}$ : 意图感知期望倒数排名。
  - $N$ : 测试样本的数量。
  - $k$ : 评估的深度。
  - $j$ : 项目在排名列表中的位置。
  - $m$ : 用户意图的数量。
  - $t_{il}$ : 如果第 $i$ 个查询的第 $l$ 个意图被满足，则为 1。
  - $c_{j,l}$ : 子主题 $l$ 在第 $j$ 个项目之前被项目覆盖的次数。
覆盖率 (Coverage) [48]：
- 概念定义： 评估信息检索系统的全面性，衡量在所有相关项目中，有多少独特的项目被检索到。
- 数学公式： $\mathrm { Coverage } @ k = \frac { |\cup _ { i = 1 } ^ { N } \widehat { L } _ { i } ^ { k } | } { |\varDelta | }$
- 符号解释：
  - $\mathrm{Coverage}@k$ : 在前 $k$ 个结果上的覆盖率。
  - $N$ : 测试样本的数量。
  - $\cup _ { i = 1 } ^ { N } \widehat { L } _ { i } ^ { k }$ : 所有用户 Top $k$ 推荐列表的并集，即所有推荐过的唯一项目。
  - $|\varDelta|$ : 所有项目的总数。

5.1.2.3. 公平性 (Fairness) [108, 109]

公平性旨在确保所有用户，无论其人口统计学或社会群体，在接收推荐时都受到公平对待。

人口统计学平等 (Demographic Parity, DP) [108]：
- 概念定义： 确保不同群体（不考虑其过去的交互或偏好）获得相似比例的推荐。
- 数学公式： $\mathrm { DP } = \left| \frac { \sum _ { i = 1 } ^ { | S _ { 0 } | } \hat { y } _ { i } } { | S _ { 0 } | } - \frac { \sum _ { i = 1 } ^ { | S _ { 1 } | } \hat { y } _ { i } } { | S _ { 1 } | } \right|$
- 符号解释：
  - $\mathrm{DP}$ : 人口统计学平等。
  - $S_0$ 和 $S_1$ : 根据敏感特征（如性别）划分的不同群体。
  - $\hat{y}_i$ : 推荐模型对第 $i$ 个用户的预测分数或推荐结果（通常为二元，如是否被推荐）。
机会均等 (Equal Opportunity, EO) [108]：
- 概念定义： 确保具有相同反馈（如点击、购买）的群体同样有可能收到相关的推荐。
- 数学公式： $\mathrm { EO } = \sum _ { y \in \{ 0 , 1 \} } \left. \frac { \sum _ { i = 1 } ^ { \vert S _ { 0 } ^ { y } \vert } \hat { y } _ { i } } { \vert S _ { 0 } ^ { y } \vert } - \frac { \sum _ { i = 1 } ^ { \vert S _ { 1 } ^ { y } \vert } \hat { y } _ { i } } { \vert S _ { 1 } ^ { y } \vert } \right.$
- 符号解释：
  - $\mathrm{EO}$ : 机会均等。
  - $y \in \{0, 1\}$ : 真实标签，表示用户是否与项目交互。
  - $S_0^y$ 和 $S_1^y$ : 根据敏感特征和真实标签 $y$ 划分的不同群体。
  - $\hat{y}_i$ : 推荐模型对第 $i$ 个用户的预测分数或推荐结果。
隔离指数 (Iso-Index) [109]：
- 概念定义： 评估信息检索系统公平性的指标，衡量检索结果中某些群体的隔离程度。较低的值表示较少的隔离，即信息在不同群体间更公平的分布。
- 数学公式： $\mathrm { ISO-index } = \lambda \cdot \mathrm { Diversity } + ( 1 - \lambda ) \cdot \mathrm { Fairness }$
- 符号解释：
  - $\mathrm{ISO-index}$ : 隔离指数。
  - $\lambda$ : 超参数，用于平衡多样性 (Diversity) 和公平性 (Fairness) 的权重。
  - $\mathrm{Diversity}$ : 多样性指标。
  - $\mathrm{Fairness}$ : 公平性指标。

5.1.2.4. 新颖性 (Novelty) [110]

新颖性指标偏爱推荐用户尚未遇到过或不熟悉的项目，而非重复推荐相似或已交互过的项目。

数学公式： $\mathrm { Novelty } @ k = \sum _ { i = 1 } ^ { N } \sum _ { j = 1 } ^ { | \widehat { L } _ { i } ^ { k } | } \frac { \log ( \mathrm { Pop } ( \hat { l } _ { i , j } ) + 1 ) } { | \widehat { L } _ { i } ^ { k } | }$
符号解释：
- $\mathrm{Novelty}@k$ : 在前 $k$ 个结果上的新颖性。
- $N$ : 测试样本的数量。
- $|\widehat{L}_i^k|$ : 第 $i$ 个用户的 Top $k$ 推荐列表的长度。
- $\hat{l}_{i,j}$ : 排名列表 $\widehat{L}_i^k$ 中的第 $j$ 个项目。
- $\mathrm{Pop}(\hat{l}_{i,j})$ : 项目 $\hat{l}_{i,j}$ 的流行度 (popularity)，通常是该项目被用户交互的总次数。

5.1.3. 多目标优化指标 (Multi-Objective Optimization Metrics)

当任务要求涉及多目标或多任务场景时，优化目标可能相互冲突，最优解通常不是一个单点，而是一个帕累托前沿 (Pareto front) 或曲面。

超体积 (Hypervolume, HV) [111]：
- 概念定义： 衡量由一组解在目标空间中主导的体积，并由一个参考点 $z$ 限制。它同时评估解集的收敛性 (convergence) 和多样性 (diversity)。较大的 HV 值表示更好的性能。
- 数学公式： $\mathrm { H } \mathbf { V } = \lambda \left( \bigcup _ { i = 1 } ^ { | S | } \prod _ { j = 1 } ^ { m } \left[ f _ { j } ^ { ( i ) } , z _ { j } \right] \right)$
- 符号解释：
  - $\mathrm{HV}$ : 超体积。
  - $S$ : 解集。
  - $|S|$ : 解集中的解的数量。
  - $f_j^{(i)}$ : 第 $i$ 个解在第 $j$ 个目标上的值。
  - $m$ : 目标的数量。
  - $z_j$ : 第 $j$ 个目标上的参考点。
  - $\lambda(\cdot)$ : 勒贝格测度 (Lebesgue measure)。
R2 指标 [112]：
- 概念定义： 一种基于标量化 (scalarization-based) 的指标，用于评估多目标优化中解集的质量。它通过预定义的权重向量衡量解集与理想解集的接近程度，不需要真实的帕累托前沿。
- 数学公式： ${ \mathrm R } 2 = { \frac { 1 } { | W | } } \sum _ { w \in W } \operatorname* { m i n } _ { x \in P } \sum _ { i = 1 } ^ { m } w _ { i } f _ { i } ( x )$
- 符号解释：
  - $\mathrm{R2}$ : R2 指标。
  - $W$ : 一组权重向量，代表目标空间中用户定义的偏好。
  - $|W|$ : 权重向量的数量。
  - $w$ : $W$ 中的一个权重向量。
  - $P$ : 正在评估的解集。
  - $x$ : $P$ 中的一个解。
  - $f_i(x)$ : 解 $x$ 在第 $i$ 个目标函数上的值。
  - $m$ : 目标的数量。
生成距离 (Generational Distance, GD) [113]：
- 概念定义： 量化所得解集 $P$ 与真实帕累托前沿 $P^*$ 之间的收敛性。它计算 $P$ 中每个解与 $P^*$ 中最近点之间的平均欧几里得距离。
- 数学公式： $\mathrm { G D } = \left( \frac { 1 } { | P | } \sum _ { i = 1 } ^ { | P | } d _ { i } ^ { p } \right) ^ { \frac { 1 } { p } }$
- 符号解释：
  - $\mathrm{GD}$ : 生成距离。
  - $|P|$ : 解集 $P$ 中解的数量。
  - $d_i$ : 解集 $P$ 中第 $i$ 个解到真实帕累托前沿 $P^*$ 中最近点的欧几里得距离。
  - $p$ : 通常设置为 2。
反向生成距离 (Inverted Generational Distance, IGD) [114]：
- 概念定义： 通过计算真实帕累托前沿 $P^*$ 中每个点到所得解集 $P$ 中最近解的平均距离，来评估收敛性 (convergence) 和多样性 (diversity)。
- 数学公式： $\mathrm { I G D } = \frac { 1 } { | P ^ { * } | } \sum _ { j = 1 } ^ { | P ^ { * } | } d _ { j }$
- 符号解释：
  - $\mathrm{IGD}$ : 反向生成距离。
  - $|P^*|$ : 真实帕累托前沿 $P^*$ 中点的数量。
  - $d_j$ : $P^*$ 中第 $j$ 个点到所得解集 $P$ 中最近解的欧几里得距离。

5.2. 数据集

为了满足可控学习中多样化的控制要求（如多目标控制、用户画像控制、场景适应控制），数据集需要包含相应的特征（如项目类别信息、用户画像、交互历史、时间信息等）。

Amazon [53, 54]：
- 特点： 包含来自亚马逊不同类别的 1.428 亿条商品评论，以及用户和商品画像信息。包含商品的类别信息，可用于多样性、公平性等多目标控制。包含时间信息，可用于提取和控制用户的历史序列。
- 适用场景： 多目标推荐、用户画像控制、隐私保护研究。
Ali Display_Ad_Click [55]：
- 特点： 包含 100 万用户和 2600 万条广告展示/点击日志记录。具有 8 个用户画像属性（如 ID、年龄、职业）和 6 个商品特征（如 ID、广告活动、品牌）。
- 适用场景： 用户画像控制、行为预测、多目标优化。
UserBehavior (Taobao) [1]：
- 特点： 收集自淘宝推荐系统，包含约 100 万随机选择用户在 2017 年 11 月 25 日至 12 月 3 日期间的所有行为（如点击、购买、加购、收藏）。
- 适用场景： 序列推荐、行为模式分析、用户兴趣演变。
MovieLens [52]：
- 特点： 经典的电影推荐数据集，有 100k、1M、10M 和 20M 等不同规模版本。包含用户性别、年龄、职业以及电影类别信息。
- 适用场景： 多目标推荐（如多样性）、用户画像控制、冷启动问题。
MS MARCO (Microsoft Machine Reading Comprehension) [56]：
- 特点： 大型阅读理解、检索和问答数据集，用于网页搜索场景。包含文档排名和段落排名两个基准，共 320 万文档和 880 万段落。查询来自微软 Bing 的真实用户日志，并配有相关文档标注。
- 适用场景： 搜索场景下的可控性研究、问答系统、指令遵循检索。
  
  当前挑战： 目前还没有专门为可控学习设计的领域特定数据集。开发更具针对性的数据集仍然是未来的一个开放挑战。

5.3. 对比基线

由于这是一篇综述论文，其本身不提出新的模型，因此没有直接进行与其他模型在特定任务上的比较实验。相反，该论文通过系统性地分类和讨论现有方法来评估可控学习领域的发展状况。论文中提及的每个具体的可控学习方法（如 ComiRec、CMR、LACE 等）在其各自的原始论文中会与该领域的其他基线模型进行性能比较。

在本综述的语境中，可以认为其“对比基线”是：

非可控的传统机器学习模型： 这些模型在部署后难以在不重新训练的情况下适应新的任务要求。
早期或不完整的可控性研究： 例如，仅关注用户控制但缺乏技术深度、未提供形式化定义、未涵盖现代技术的现有综述。
与可控性相关的其他可信 AI 维度： 如可解释性、公平性等，论文阐明了可控性与它们的关系和区别。

论文通过对这些现有工作进行分类和分析，间接展示了不同可控学习技术在解决特定问题方面的优势和局限性。

6. 实验结果与分析

由于本论文是一篇综述，其主要目的是对可控学习在信息检索领域的方法和应用进行系统性梳理、定义、分类、挑战分析和未来展望，而不是提出新的算法并进行实证实验。因此，本节将聚焦于论文对现有方法“结果”的分析和总结，而非具体的实验数据。

6.1. 核心结果分析

本综述的核心分析结果可以总结为：

可控学习的必要性与潜力： 论文通过引用《布莱切利宣言》、《全球人工智能治理倡议》和诺伯特·维纳的洞见，强调了可控性作为可信机器学习关键组成部分的重要性。特别是在信息检索领域，面对复杂动态的用户需求和 MaaS 模式的兴起，可控学习能够使模型在无需重新训练的情况下动态适应，从而显著提升用户满意度和平台效率。
可控学习范式的多样性： 论文通过其提出的多维度分类法，展示了实现可控学习的多种途径和策略：
- “可控什么”的多样性：现有研究已经能够实现对多目标（如准确性与多样性）、用户画像（如隐私保护、偏好编辑）和场景适应的控制。这表明 CL 能够应对 IR 中不同层面的需求。例如，ComiRec 和 UCRS 成功平衡了准确性和多样性，LACE 和 IFRQE 赋予用户编辑个人数据的能力，而 Hamur 和 HyperBandit 则实现了跨场景或时变偏好的适应。
- “谁来控制”的双主体：控制权可以来自用户（如通过显式偏好设置或隐式行为反馈）和平台（如通过算法策略调整业务目标）。这反映了现实世界中 IR 系统中两类主要参与者的不同需求和控制意图。
- “如何实现控制”的技术丰富性：从传统的规则基方法到先进的帕累托优化、超网络，再到解耦、强化学习、大语言模型和测试时适应，各种技术都在为 CL 提供解决方案。超网络尤其被视为动态参数生成和模型适应的关键技术。
- “在哪里实现控制”的灵活性：控制可以在数据预处理、模型内处理和结果后处理三个阶段进行，这为研究人员和实践者提供了不同的干预点，可以根据具体任务和系统架构选择最合适的控制策略。
当前挑战突出： 论文并未回避 CL 领域存在的显著问题。例如，在训练阶段，实现可控性往往意味着在性能（如准确性）上的权衡，这要求精妙的平衡设计。更重要的是，缺乏统一的评估基准和指标严重阻碍了不同 CL 方法之间的直接比较和领域的发展。如何将抽象的任务目标转化为模型可理解的精确任务描述，以及在要求高实时性的在线环境中实现高效可控，都是亟待解决的问题。
未来发展方向明确： 论文最后指出了 CL 在理论分析、高效计算、与大语言模型结合、多任务切换以及专用数据集和评估框架建设等方面的巨大潜力。这为后续研究提供了清晰的路线图。

总而言之，本综述的分析结果表明，可控学习是可信机器学习在信息检索领域的重要发展方向，已取得初步进展，并展现出强大的潜力，但仍面临诸多挑战，需要学术界和工业界共同努力。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的内容，总结了不同可控学习方法的属性：

Method Information		Paradigm of Controllable Learning
Method	Year	What	Who	CL Tech.	Where
MocDT [103]	2025	multi-objective control	user-centric control	RL	in-processing
PadiRec [4]	2024	multi-objective control	platform-mediated control	hypernetwork	in-processing
FollowIR [45]	2024	user portrait control	user-centric control	SFT	pre-processing
InstructIR [46]	2024	user portrait control	user-centric control	SFT	pre-processing
RecLM-gen [5]	2024	multi-objective control	platform-mediated control	SFT, RL	in-processing
IFRQE [7]	2024	user portrait control	user-centric control	others	pre-processing
TEARS [9]	2024	user portrait control	user-centric control	RL, NLIE	in-processing
CMBR [10]	2024	user portrait control	user-centric control	SFT, RL	in-processing
LangPTune [17]	2024	user portrait control	user-centric control	RL, NLIE	in-processing
CCDF [21]	2024	multi-objective control	platform-mediated control	others	in-processing
CMR [3]	2023	multi-objective control	platform-mediated control	hypernetwork	in-processing
LACE [6]	2023	user portrait control	user-centric control	NLIE	pre-processing
UCR [11]	2023	user portrait control	user-centric control	others	pre-processing
Hamur [13]	2023	scenario adaptation control	platform-mediated control	hypernetwork, TTA	in-processing
HyperBandit [12]	2023	scenario adaptation control	platform-mediated control	hypernetwork, TTA	in-processing
PEPNet [14]	2023	scenario adaptation control	user-centric control	hypernetwork	in-processing
SAMD [23]	2023	scenario adaptation control	platform-mediated control	hypernetwork	in-processing
DTRN [24]	2023	scenario adaptation control	user-centric control	hypernetwork	in-processing
MoFIR [96]	2022	multi-objective control	user-centric control	pareto optimization	in-processing
UCRS [2]	2022	multi-objective control	user-centric control	others	pre-processing
PAPERec [95]	2021	multi-objective control	user-centric control	pareto optimization	in-processing
Supervised β-VAE [15]	2021	user portrait control	user-centric control	Disentanglement	in-processing
ComiRec [1]	2020	multi-objective control	platform-mediated control	others	post-processing
LP [16]	2020	user portrait control	user-centric control	Disentanglement	in-processing
MMR [47]	1998	multi-objective control	platform-mediated control	rule-based	post-processing

分析：
- 该表格清晰地展示了近年来（从 1998 年到 2025 年）可控学习相关研究的发展趋势和多样性。
- 时间趋势： 绝大多数列出的工作集中在 2020 年以后，尤其是在 2023 和 2024 年，这表明可控学习在近期受到了极大的关注和研究。其中一些方法甚至在 2025 年发布，暗示了该领域的活跃度和前瞻性。
- 可控目标 (What)： “多目标控制”和“用户画像控制”是研究热点，有大量工作集中于此。特别是平衡推荐的准确性与多样性，以及允许用户管理自身偏好以保护隐私或定制推荐，是实际应用中的核心需求。“场景适应控制”虽然工作数量稍少，但作为应对动态环境的关键，也逐渐受到重视。
- 控制主体 (Who)： “以用户为中心控制”和“以平台为中心控制”并存，反映了 IR 系统中用户体验和平台策略优化的双重需求。
- 技术多样性 (CL Tech.)： 超网络 (hypernetwork)、强化学习 (RL)、监督微调 (SFT) 和自然语言兴趣编辑 (NLIE) 是当前实现可控性的主要技术手段。传统的“基于规则”方法（如 MMR）在早期就已出现，并作为后处理手段延续至今。帕累托优化和解耦 (Disentanglement) 也是重要的技术方向。
- 控制阶段 (Where)： “内处理”方法占据主导地位，这与超网络等技术能够动态调整模型参数的特性相符，实现了在推理过程中对模型的精细化控制。“预处理”方法（如提示工程、用户数据编辑）也很多，尤其在与 SFT 和 NLIE 结合时。“后处理”方法相对较少，但仍在多样性等领域发挥作用。
- LLM 的影响： 2024 年的多项工作（如 RecLM-gen、FollowIR、InstructIR、TEARS、LangPTune、CMBR）开始将 LLM 相关技术（SFT, RL, NLIE）应用于可控学习，凸显了 LLM 在赋能 CL 方面的巨大潜力。

6.3. 消融实验/参数分析

本综述没有进行消融实验或参数分析，因为其目的在于综述现有研究而非提出新方法。然而，论文在挑战部分指出，在可控学习中，平衡可控性与性能和效率是一个关键难题。例如，ComiRec [1] 通过调整聚合模块中的平衡因子来增强多样性，但经验证据表明，多样性提高的同时可能会在一定程度上损害准确性。这间接说明了参数调整对性能的影响，并凸显了未来研究中进行此类分析的重要性。

7. 总结与思考

7.1. 结论总结

本综述对可控学习 (Controllable Learning, CL) 进行了全面而深入的探讨，将其定义为一种能够在测试时 (test time) 动态适应新任务要求、而无需重新训练 (retraining) 的机器学习范式。论文强调了可控性在构建可信机器学习 (trustworthy machine learning) 系统中的核心地位，并特别关注其在信息检索 (Information Retrieval, IR) 领域的应用。通过构建一个多维度的分类框架，论文从“可控什么”（多目标、用户画像、场景适应）、“谁来控制”（用户或平台）、“如何实现控制”（基于规则、帕累托优化、超网络等）以及“在哪里实现控制”（预处理、内处理、后处理）等角度，系统性地梳理了现有研究。尽管 CL 领域已取得显著进展，但仍面临训练平衡、评估缺失、任务描述设定和在线环境适应等挑战。最后，综述为 CL 的未来发展指明了方向，包括理论分析、计算效率、大语言模型赋能、多任务切换以及专用数据集和评估框架的建设。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性

论文主要指出了可控学习在当前阶段面临的四大挑战，这些挑战也构成了现有方法的局限性：

训练中的平衡难度 (Balancing Difficulty in Training)： 追求可控性往往导致与模型性能（如准确性）和效率之间的权衡。例如，增加多样性可能牺牲准确性，这要求在训练阶段进行复杂的设计以寻找最佳平衡点。
评估标准的缺失 (Absence of Evaluation)： 缺乏标准化的基准和评估指标阻碍了不同 CL 方法之间的直接比较和领域的发展。现有方法采用不同的评估方式，导致难以进行公正的横向对比。
任务描述的设定复杂性 (Setting Task Descriptions in Controllable Learning)： 如何将人类抽象的任务目标 (task target) 转化为模型可理解且精确的任务描述 (task description) 是一个关键问题。任务描述不仅限于向量或文本，还可能涉及图像、图、规则等复杂形式。
在线环境中的挑战 (Challenges in Online Environments)： 在真实世界的在线信息检索系统（特别是涉及流数据和在线学习的系统）中，可控性的可伸缩性 (scalability) 是一个巨大挑战。许多离线研究成果难以直接应用于高实时性、高动态性的在线环境，例如，模型在面对快速变化的用户偏好时，若需重新训练则不切实际。

7.2.2. 未来可能的研究方向

基于上述挑战和新兴技术，论文提出了以下有前景的未来研究方向：

可控学习的理论分析 (Theoretical analyses of controllable learning)： 深入理解可控学习背后的理论机制，特别是在深度学习模型的巨大参数空间中，如何建立任务目标与模型参数之间的映射关系，并揭示其结构信息和因果关联，需要严谨的理论分析和有效的训练方法。
可控序列决策模型 (Controllable sequential decision-making models)： 针对流式应用（如流式推荐系统）中存在的土匪反馈 (bandit feedback) 问题，研究如何在平衡探索与利用 (exploration and exploitation) 的同时，实现对任务要求的自适应控制。
赋能基于 LLM 的 AIGC (Empowering LLM-based AIGC through controllable learning)： 探索如何利用可控学习技术，不仅通过自然语言提示，更进一步地通过操纵模型参数或输出来实现更具体的任务目标（例如，跨多个目标的偏好），以提升 LLM 生成内容的精确可控性。
成本效益高的控制学习机制 (Cost-effective control learning mechanisms)： 考虑到大规模模型巨大的计算成本，研究如何开发高效且低成本的控制机制，以减少引入控制功能所带来的额外计算开销。
多任务切换的可控学习 (Controllable learning for multi-task switching)： 拓展可控学习方法在搜索领域的应用，并研究如何利用一套可控匹配模型在搜索和推荐任务之间自适应切换，甚至解决多任务、多目标和多场景的复杂切换挑战。
对资源和指标的需求 (Demand for resource and metrics)： 呼吁开发专用数据集和标准化评估指标，特别是包含多目标或多样化任务要求的标签和用户反馈数据，以促进可控学习的训练和测试。

7.3. 个人启发与批判

7.3.1. 个人启发

统一框架的价值： 本综述最显著的贡献在于为可控学习提供了一个形式化的定义和全面的分类法。这对于一个新兴领域至关重要，它能帮助研究者清晰地理解概念边界、定位研究方向，并促进不同技术之间的对话与比较。这种结构化的思考方式，对于任何复杂领域的研究都有很强的指导意义。
“无需重新训练”的核心洞察：强调在测试时“无需重新训练”是可控学习与迁移学习、领域适应等概念的关键区分点。这抓住了现实世界应用中对实时性、低成本部署的迫切需求，特别是在 MaaS 这种模型即服务的模式下，这一特性具有巨大的商业价值和技术挑战。
可控性与可信赖 AI 的深度融合： 论文将可控性置于可信机器学习的大框架下，并阐明了它与公平性、隐私、可解释性等其他维度之间的关系。这种多维度的视角，促使我们不仅关注模型性能，更要关注其社会影响和伦理责任，这对于人工智能的负责任发展具有重要意义。
LLM 在可控学习中的潜力： 论文清晰地指出了 LLM 在可控学习中的巨大潜力，尤其是在将自然语言指令转化为模型可控行为方面。这启发了将 LLM 作为“智能体”或“桥梁”，连接复杂用户意图与底层模型控制机制的研究方向。

7.3.2. 批判与潜在改进

理论分析的缺失： 尽管论文将“可控学习的理论分析”列为未来方向，但在现有方法论的介绍中，对各种控制机制（如超网络如何保证控制的有效性、帕累托优化如何在没有重训练的情况下收敛到理想前沿）的理论基础和保证鲜有深入讨论。对于初学者来说，仅仅知道“How”而缺乏“Why”的理论支撑，可能会觉得理解不够深入。未来的综述可以尝试引入更深入的理论探讨。
评估指标的实践差距： 论文虽然列举了大量单目标和多目标评估指标，但同时也承认了“评估标准的缺失”和“实践中指标不统一”的挑战。这种矛盾提示我们，现有指标可能仍未完全捕捉到可控性的复杂本质。未来的工作需要思考如何设计更具代表性、更易于标准化且能有效衡量“控制效果”的评估指标。例如，可以探索基于用户感知的可控性评估，或构建包含明确可控性维度的基准任务。
LLM 赋能的具体路径仍待细化： 论文提及了 LLM 赋能 CL 的方向，但具体如何操作，除了“提示”和“SFT”外，还有哪些更深层次的结合点？例如，LLM 能否作为复杂的控制函数 $h$ 来生成适配器参数，或者作为动态的奖励塑造器 (reward shaper) 引导强化学习代理的控制行为？这部分可以有更多具体的技术路径展望。
应用场景的广度： 尽管论文聚焦信息检索，但可控学习的潜力远不止于此（如医疗、金融、工业控制）。未来的综述可以考虑拓展到其他领域，进行跨领域的可控性技术迁移和挑战分析。
“成本效益”的量化： “成本效益高的控制学习机制”是一个重要的未来方向，但如何量化“成本”和“效益”？除了计算资源，部署复杂控制机制可能还会引入额外的模型复杂性、维护成本和潜在的故障点。对这些多维度成本的量化和权衡，是实践中需要深入研究的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。