Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
TL;DR 精炼摘要
本文提出Parrot框架,结合多目标优化和批次级帕累托最优选择策略,实现文本到图像生成中多奖励的自动权衡。该方法联合优化生成模型和提示扩展网络,提升图像质量和文本一致性,实验显示在美学和人类偏好等多指标上优于多种基线。
摘要
Recent works have demonstrated that using reinforcement learning (RL) with multiple quality rewards can improve the quality of generated images in text-to-image (T2I) generation. However, manually adjusting reward weights poses challenges and may cause over-optimization in certain metrics. To solve this, we propose Parrot, which addresses the issue through multi-objective optimization and introduces an effective multi-reward optimization strategy to approximate Pareto optimal. Utilizing batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards. We use the novel multi-reward optimization algorithm to jointly optimize the T2I model and a prompt expansion network, resulting in significant improvement of image quality and also allow to control the trade-off of different rewards using a reward related prompt during inference. Furthermore, we introduce original prompt-centered guidance at inference time, ensuring fidelity to user input after prompt expansion. Extensive experiments and a user study validate the superiority of Parrot over several baselines across various quality criteria, including aesthetics, human preference, text-image alignment, and image sentiment.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation (Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架)
- 作者 (Authors): Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang.
- 隶属机构 (Affiliations): 作者来自 Google Research, Google, Google DeepMind, OpenAI, Rutgers University, 和 Korea University,这是一个由顶级工业界研究实验室和学术机构组成的强大研究团队。
- 发表期刊/会议 (Journal/Conference): 这篇论文发布在 arXiv 上,通常是提交到顶级人工智能或计算机视觉会议(如 NeurIPS, CVPR, ICLR)之前的预印本。
- 发表年份 (Publication Year): 2024
- 摘要 (Abstract): 近期研究表明,在文本到图像 (T2I) 生成任务中,使用强化学习 (RL) 结合多种质量奖励可以提升生成图像的质量。然而,手动调整奖励权重充满挑战,且可能导致在某些指标上过度优化。为解决此问题,本文提出了
Parrot框架。Parrot通过多目标优化的视角处理该问题,并引入一种有效的多奖励优化策略来逼近帕累托最优。通过利用批次级帕累托最优选择 (batch-wise Pareto optimal selection),Parrot能够自动识别不同奖励之间的最佳权衡。研究者使用这种新颖的多奖励优化算法联合优化 T2I 模型和一个提示扩展网络,显著提升了图像质量,并允许在推理时使用与奖励相关的提示来控制不同奖励的权衡。此外,本文在推理时引入了原始提示中心引导 (original prompt-centered guidance),以确保在提示扩展后仍能忠实于用户输入。大量的实验和用户研究验证了Parrot在美学、人类偏好、文本-图像对齐和图像情感等多个质量标准上优于多种基线方法。 - 原文链接 (Source Link):
- arXiv 链接: https://arxiv.org/abs/2401.05675
- PDF 链接: http://arxiv.org/pdf/2401.05675v2
- 发布状态: 预印本 (Preprint)。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 尽管现有的文本到图像 (T2I) 模型(如
Stable Diffusion)取得了巨大成功,但生成的图像仍普遍存在质量问题,例如构图不佳(如裁剪不当)、与文本提示不符(如丢失物体)或整体美学吸引力不足。 - 现有挑战与空白 (Gap): 先前的研究尝试使用强化学习 (RL) 并结合多种奖励信号(如美学、文本对齐度)来微调 T2I 模型。然而,这些方法通常采用加权求和 (
weighted sum) 的方式将多个奖励合并为单一目标。这种方法的缺陷是:- 权重难以调整: 随着奖励数量的增加,手动寻找最优的权重组合变得不切实际。
- 牺牲与过优化: 优化一个指标(如美学)可能会损害另一个指标(如文本对齐度),导致模型在某个方面过分“讨好”奖励模型而偏离用户初衷。
- 缺乏灵活性: 训练完成后,不同奖励之间的权衡关系被固定,用户无法在推理时进行调整。
- 创新思路: 本文提出,不应将多奖励优化问题强行简化为单目标问题,而应将其视为一个真正的多目标优化 (
Multi-objective Optimization) 问题。其核心思路是,在每个训练批次中,总有一些生成样本在所有奖励指标的权衡上优于其他样本,这些样本构成了“帕累托最优集”。模型应该专注于从这些“最优权衡”的样本中学习,而不是从所有样本(包括那些权衡很差的样本)中学习。
- 核心问题: 尽管现有的文本到图像 (T2I) 模型(如
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出
Parrot框架: 提出了一个新颖的多奖励优化算法,该算法利用批次级帕累托最优选择 (batch-wise Pareto-optimal selection) 来代替传统的加权求和,从而自动、有效地平衡美学、人类偏好、文本-图像对齐和图像情感等多种奖励。 - 提出联合优化策略: 首次探索并证明了联合优化提示扩展网络 (PEN) 和 T2I 扩散模型的优势。这种协同优化使得 PEN 能够生成更丰富的细节,同时 T2I 模型也能更好地利用这些细节提升图像质量。
- 提出原始提示中心引导: 在推理阶段引入
original prompt-centered guidance,通过同时引导原始提示和扩展提示,确保生成图像在增加细节的同时,仍忠实于用户的核心意图。 - 实现可控的权衡: 通过引入与奖励相关的特殊提示词(如
<reward_aesthetic>),Parrot允许用户在推理时控制不同质量维度之间的权衡,增强了模型的灵活性和实用性。
- 提出
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 文本到图像生成 (Text-to-Image Generation, T2I): 这是一项根据自然语言描述(即“提示”,
prompt)来创造图像的任务。代表性模型有DALL-E、Imagen和Stable Diffusion。 - 扩散概率模型 (Diffusion Probabilistic Models): 一类强大的生成模型。其工作原理分为两个过程:1) 前向过程:逐步向一张真实图像中添加高斯噪声,直到其变为完全的随机噪声。2) 反向过程:训练一个神经网络(通常是
U-Net架构)来学习逆转这个过程,即从随机噪声开始,逐步去除噪声,最终生成一张清晰的图像。通过将文本提示作为条件输入,模型可以生成与文本匹配的图像。 - 无分类器引导 (Classifier-Free Guidance): 一种在扩散模型中增强条件控制(如文本提示)影响力的技术。它通过在预测噪声时,将有条件预测的噪声和无条件预测的噪声进行线性组合,从而在生成图像的“创意性”和“忠实度”之间取得平衡。
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,其中一个智能体 (Agent) 通过与环境交互来学习如何做出决策。智能体执行一个动作 (Action),环境返回一个奖励 (Reward) 和一个新的状态 (State)。智能体的目标是学习一个策略 (Policy),以最大化累积奖励。在本文中,T2I 模型是智能体,生成图像是动作,图像质量评估分数(如美学分)是奖励。
- 多目标优化 (Multi-Objective Optimization, MOO): 同时优化两个或多个相互冲突的目标函数的问题。例如,在汽车设计中,我们希望同时最大化速度并最小化油耗,但这两者通常是矛盾的。
- 帕累托最优 (Pareto Optimality): 在多目标优化中,一个解被称为帕累托最优的,如果不存在另一个解可以在不损害任何一个目标的情况下,至少改进一个目标。换句话说,对于一个帕累托最优解,任何一个目标的提升都必须以牺牲至少另一个目标为代价。所有帕累托最优解的集合构成了帕累托前沿 (
Pareto Front)。本文中的“非支配点” (non-dominated point) 就是指帕累托最优解。
- 文本到图像生成 (Text-to-Image Generation, T2I): 这是一项根据自然语言描述(即“提示”,
-
前人工作 (Previous Works):
- 用于 T2I 微调的强化学习:
DPOK等工作直接用 RL 微调 T2I 扩散模型,使用单一奖励(如人类偏好分)或简单的奖励加权和。Promptist则冻结 T2I 模型,仅用 RL 微调一个提示扩展网络 (PEN),其奖励是美学分和文本对齐分的简单求和。DRaFT也使用了多奖励的线性求和方式。- 局限性: 这些工作都将问题简化为单目标优化,需要手动调权重,且无法在推理时灵活控制。此外,它们要么只调整 T2I 模型,要么只调整 PEN,没有探索两者协同优化的潜力。
- 多目标优化:
- 标量化 (Scalarization): 即加权求和法,是最传统的方法,但需要预先定义权重。
Lin et al. [30]的工作启发了本文,他们提出学习一个模型来映射权衡偏好向量到对应的帕累托解。Parrot借鉴此思想,构造了基于语言的偏好向量(即 标识符)。
- 用于 T2I 微调的强化学习:
-
差异化分析 (Differentiation):
- 优化范式不同:
Parrot采用真正的多目标优化范式(基于帕累托选择),而之前的工作采用的是单目标优化范式(基于加权求和)。 - 优化对象不同:
Parrot联合优化了提示扩展网络 (PEN) 和 T2I 模型,而之前的工作只优化其中之一。 - 推理灵活性不同:
Parrot提供了推理时的可控性,用户可以通过奖励标识符来调整生成图像的风格偏好,这是之前方法不具备的。
- 优化范式不同:
4. 方法论 (Methodology - Core Technology & Implementation Details)
Parrot 框架的核心在于其新颖的多奖励优化策略,以及对 T2I 系统各组件的协同设计。
该图像是图10,展示了五组不同参数 和 下的视觉对比,包括多幅包含鹿、茶壶、鹦鹉、钟表和机器人的生成图像。第四组参数 和 (第三行)表现最佳,验证了原始提示居中引导的有效性。
如上图 Fig. 2 所示,Parrot 的工作流程分为训练和推理两个阶段。
4.1. 方法原理与步骤 (Methodology Principles & Steps)
训练流程:
- 输入: 给定一个原始的用户提示 。
- 提示扩展: 提示扩展网络 (PEN) 接收 并生成一个更详细的扩展提示 。
- 偏好注入: 在 前面加上一个特定的奖励标识符,如 ,形成最终的条件输入 。这一步是为了让模型学会在特定奖励偏好下的生成模式。
- 图像生成: T2I 扩散模型 使用 生成一个批次 (batch) 的 张图像 。
- 多奖励评估: 使用 个不同的奖励模型(如美学、人类偏好等),为批次中的每一张图像计算一个奖励向量 。
- 帕累托最优选择: 在该批次内,应用非支配排序算法 (
non-dominated sorting),找出所有不受批次内任何其他样本支配的图像。这些图像构成了批次级帕累托最优集 。 - 联合梯度更新: 仅使用帕累托最优集 中的样本来计算策略梯度,并用此梯度同时更新 PEN 的参数 和 T2I 模型的参数 。
推理流程:
- 输入: 给定一个原始的用户提示 。
- 提示扩展: PEN 生成扩展提示 。
- 原始提示中心引导: 在生成图像时,不只使用 ,而是将原始提示 和扩展提示 的引导信息进行线性组合,以确保最终图像既有丰富的细节,又不偏离原始意图。
4.2. 批次级帕累托最优选择 (Batch-wise Pareto-optimal Selection)
这是 Parrot 的核心机制。
-
核心思想: 在一个随机生成的图像批次中,总有一些样本在多维度的奖励指标上取得了比其他样本更优的“权衡”。
Parrot的目标就是识别出这些“权衡赢家”,并只从它们身上学习。 -
非支配排序 (Non-dominated Sorting):
- 支配关系定义: 对于两个图像 和 ,我们说 支配 (
dominates) (记作 ),当且仅当:- 对于所有的奖励指标 ,都有 。
- 至少存在一个奖励指标 ,使得 。
- 非支配点: 如果批次中没有任何一个点能够支配图像 ,那么 就是一个非支配点,即批次内的帕累托最优解。
- 支配关系定义: 对于两个图像 和 ,我们说 支配 (
-
策略梯度更新 (Policy Gradient Update): 传统 RL 微调会对批次中所有样本的奖励进行梯度更新。
Parrot进行了修改,只对非支配集 中的样本进行更新,其他样本的奖励被视为零。这引导模型向着生成帕累托最优样本的方向优化。
4.3. 数学公式与关键细节 (Mathematical Formulas & Key Details)
-
策略梯度更新公式 (T2I 模型):
- 符号解释:
- : 目标函数关于 T2I 模型参数 的梯度。
- : 奖励模型的总数。
- : 批次内的非支配点(帕累托最优集)。
- : 非支配点的数量。
- : 核心创新点,求和只针对帕累托最优集 中的样本 。
- : 扩散采样总步数。
- : 第 个奖励模型对第 张图像(在提示 下生成)的评分。
- : 扩散模型一步去噪的对数似然梯度,这是策略梯度在扩散模型中的具体形式。
- 符号解释:
-
原始提示中心引导公式 (推理时):
- 符号解释:
- : 最终预测的噪声。
- : 以原始提示 为条件预测的噪声。
- : 以扩展提示 为条件预测的噪声。
- : 无条件预测的噪声。
- : 分别是原始提示和扩展提示的引导权重(guidance scale),用于控制它们各自的影响力。
- 符号解释:
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- 训练:
- PEN 监督微调: 使用
Promptist数据集,包含 36 万对“原始提示-扩展提示”对。 - RL 联合微调: 使用
Promptist数据集中的 120 万个提示进行 RL 训练。
- PEN 监督微调: 使用
- 评估:
- PartiPrompts: 一个包含 1632 个具有挑战性的提示的数据集,用于定量评估和用户研究。
- 训练:
-
模型与配置:
- T2I 模型: 基于 JAX 实现的
Stable Diffusion 1.5。 - PEN 模型:
PaLM 2-L-IT,一个大型语言模型。在 RL 微调时使用LoRA进行高效优化。 - 奖励模型:
- 美学 (Aesthetics):
VILA-R模型。 - 人类偏好 (Human Preference): 在
Pick-a-Pic数据集上训练的ViT-B/16模型。 - 文本-图像对齐 (Text-Image Alignment):
CLIP ViT-B/32模型。 - 图像情感 (Image Sentiment): Serra et al. [44] 提出的预训练模型,使用其“积极”分数值。
- 美学 (Aesthetics):
- T2I 模型: 基于 JAX 实现的
-
评估指标 (Evaluation Metrics):
- 文本-图像对齐 (Text-Image Alignment, TIA):
- 概念定义: 该指标用于量化生成图像与输入文本提示在语义上的一致性。分数越高,表示图像内容越符合文本描述。通常使用 CLIP 模型来计算。
- 数学公式:
- 符号解释:
- : 由 CLIP 的图像编码器提取的生成图像的特征向量。
- : 由 CLIP 的文本编码器提取的文本提示的特征向量。
- 美学 (Aesthetics, Aesth.):
- 概念定义: 该指标评估图像的视觉美感,如构图、色彩、光影等。它通过一个在大量带有美学评分的图像上预训练的模型来预测一个分数。
- 数学公式: 该指标由一个深度学习模型
VILA-R直接输出,没有简单的数学公式,可表示为: - 符号解释:
- : 一个预训练的美学评估模型,输入一张图像,输出一个美学分数。
- 人类偏好 (Human Preference, HP):
- 概念定义: 该指标预测人类用户在多个选项中更倾向于选择某张生成图像的可能性。它通过在一个大规模的人类成对比较数据集(如
Pick-a-Pic)上训练的模型来获得。 - 数学公式: 类似于美学,该指标由一个预训练模型直接输出,可表示为:
- 符号解释:
- : 一个在人类偏好数据上训练的模型,输入一张图像,输出一个偏好分数。
- 概念定义: 该指标预测人类用户在多个选项中更倾向于选择某张生成图像的可能性。它通过在一个大规模的人类成对比较数据集(如
- 图像情感 (Image Sentiment, Sent.):
- 概念定义: 该指标评估图像所能引发的观众的积极情绪(如愉悦、兴奋、满足)。
- 数学公式: 该指标是预训练模型输出的“积极”类别的概率或分数,可表示为:
- 符号解释:
- : 模型预测给定图像引发积极情绪的概率分数。
- 文本-图像对齐 (Text-Image Alignment, TIA):
-
对比基线 (Baselines):
Stable Diffusion 1.5(SD 1.5): 未经微调的原始模型。DPOK(WS): 使用加权求和(Weighted Sum)方式进行多奖励 RL 微调的代表。Promptist: 只微调 PEN,冻结 T2I 模型的代表。
6. 实验结果与分析 (Results & Analysis)
6.1. 核心结果分析
-
定量比较 (Table 1):
(由于系统未提供表格图像,此处为原文数据的手动转录)
模型 TIA (↑) Aesth. (↑) HP (↑) Sent. (↑) 平均分 (↑) SD 1.5 [39] 0.2322 0.5755 0.1930 0.3010 0.3254 DPOK [12] (WS) 0.2337 0.5813 0.1932 0.3013 0.3273 (+0.58%) Parrot w/o PE 0.2355 0.6034 0.2009 0.3018 0.3354 (+3.07%) Parrot T2I Model Tuning Only 0.2509 0.7073 0.3337 0.3052 0.3992 (+22.6%) Promptist [15] 0.1449 0.6783 0.2759 0.2518 0.3377 (+3.77 %) Parrot with HP Only 0.1543 0.5961 0.3528 0.2562 0.3398 (+4.42 %) Parrot PEN Tuning Only 0.1659 0.6492 0.2617 0.3131 0.3474 (+6.76 %) Parrot w/o Joint Optimization 0.1661 0.6308 0.2566 0.3084 0.3404 (+4.60 %) Parrot w/o ori prompt guidance 0.1623 0.7156 0.3425 0.3130 0.3833 (+17.8 %) Parrot 0.1667 0.7396 0.3411 0.3132 0.3901 (+19.8 %) - 分析:
Parrot的全面优势: 完整的Parrot模型在美学 (Aesth.)、人类偏好 (HP) 和情感 (Sent.) 指标上均取得了最高分,平均分相比原始SD 1.5提升了近 20%。- TIA 分数:
Parrot的 TIA 分数(0.1667)低于不使用提示扩展的模型(如SD 1.5的 0.2322),这是预料之中的。因为 TIA 是用原始提示来评估的,而Parrot为了提升图像质量扩展了提示,引入了更多细节,可能与原始提示的精确措辞略有偏差。但在所有使用提示扩展的模型中,Parrot的 TIA 是最高的,表明其在提升质量和保持忠实度之间取得了最佳平衡。 - 对比基线:
Parrot显著优于DPOK(加权求和法)和Promptist(仅优化PEN),证明了帕累托优化和联合优化的有效性。
- 分析:
-
用户研究 (Fig. 5/6, 论文中为 Fig. 5):
该图像是论文中图14的示意图,展示了Parrot方法相比Stable Diffusion 1.5在文本-图像对齐上的改进。每组上下排列的图像分别对应相同文本提示,Parrot生成的图像在语义表达和细节一致性上更优。- 分析: 在与真人用户的盲测中,
Parrot生成的图像在美学、人类偏好、文本-图像对齐和图像情感四个维度上被选为最佳的比例远超所有对手,包括SD 1.5、DPOK和Promptist。这强有力地证明了Parrot的提升是真实且符合人类感知的。
- 分析: 在与真人用户的盲测中,
6.2. 消融实验/参数分析
-
加权求和 vs. 帕累托优化 (Fig. 4):
该图像是文本提示下由Stable Diffusion 1.5和Parrot生成的四组图像示例对比,展示了Parrot在图像美学提升方面的效果,如改善构图、增强细节与文本对应性。- 分析:
Fig. 4显示,使用加权求和法(WS1和WS2)时,尽管美学分数上升,但情感分数却出现下降,表明不同目标之间存在冲突,简单的加权和无法妥善处理。相比之下,Parrot在所有四个奖励指标上都呈现出稳定、同步的提升,证明了帕累托选择策略在自动平衡多目标上的优越性。
- 分析:
-
联合优化的重要性 (Table 1 & Fig. 11):
- 分析: 从
Table 1中对比Parrot(0.3901),Parrot T2I Model Tuning Only(0.3992,但 TIA 极高,其他指标一般), 和Parrot PEN Tuning Only(0.3474) 可以看出,只优化其中一部分效果远不如联合优化。Fig. 11的视觉对比也表明,联合优化能够生成纹理和构图都更佳的图像。
- 分析: 从
-
帕累托最优选择的效果 (Fig. 7 & Fig. 8):
- 分析:
Fig. 7展示了通过使用不同的奖励特定提示(如 代表美学),可以控制生成图像的属性偏好,且使用了帕累托选择后,这种控制效果更好,权衡更优。Fig. 8直观地对比了使用单一奖励微调和Parrot的结果。例如,只用人类偏好奖励微调的模型,在生成“戴着大礼帽的柴犬”时,丢失了“大礼帽”。而Parrot则能在提升美感和情感的同时,准确地保留所有文本元素。
- 分析:
-
原始提示中心引导的效果 (Fig. 9):
该图像是图17,展示了Parrot模型与多个基线模型(Stable Diffusion 1.5,DPOK加权和,Promptist,未扩展提示的Parrot)在不同语义描述下生成的图像对比,涵盖迷宫、红地毯、未来机器人及树屋场景等多样风格和细节表现。- 分析: 当原始提示是“一只柴犬”时,仅使用扩展后的长提示生成的图像可能是一个包含柴犬的广角风景照,主体变得很小。而加入了原始提示引导后,生成的图像能聚焦于柴犬本身,同时享受扩展提示带来的高质量背景和细节。这证明了该引导机制在保持主题焦点上的关键作用。
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
- 本文成功地将文本到图像生成中的多奖励优化问题从传统的单目标加权求和范式,提升到了更先进、更合理的多目标帕累托优化范式。
- 提出的
Parrot框架,通过批次级帕累托最优选择,实现了在美学、人类偏好、文本对齐和情感等多个冲突目标间的自动、有效平衡。 - 创新的联合优化策略(同时微调 PEN 和 T2I 模型)和原始提示中心引导机制,共同显著提升了生成图像的质量和对用户意图的忠实度。
- 实验和用户研究充分证实,
Parrot在多个维度上全面超越了现有的主流基线方法。
-
局限性与未来工作 (Limitations & Future Work):
- 依赖奖励模型质量:
Parrot的性能上限受限于其所依赖的奖励模型的质量和准确性。如果奖励模型本身存在偏见或缺陷,这些问题也会被放大并传递给生成模型。 - 可扩展性: 框架可以轻松扩展以包含更多维度的奖励,只要有相应的质量评估模型。
- 社会影响: 作者提到了伦理风险,即该技术可能被用于生成不道德或有害内容,特别是当奖励模型本身可能继承了数据集中的偏见时。
- 依赖奖励模型质量:
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- 范式转变的价值:
Parrot最重要的启发是将问题重新定义。从“如何加权多个目标”转变为“如何从多个目标中选择最优权衡”,这是一个非常深刻的转变,该思想可以广泛应用于其他需要平衡多个奖励的强化学习任务中。 - 系统性优化的力量: 联合优化 PEN 和 T2I 模型展示了系统性思维的重要性。与其孤立地优化系统的某个部分(如只做提示工程或只改模型),不如将它们视为一个整体进行协同优化,往往能取得 1+1>2 的效果。
- 范式转变的价值:
- 批判与思考:
- 计算成本: 该方法的计算开销相当大。每个训练步骤都需要:1) PEN 生成提示;2) T2I 模型生成一个大批次(如256张)的图像;3) 多个奖励模型对所有图像进行评估;4) 执行非支配排序。这使得训练成本非常高昂。
- 对批次大小的敏感性: 批次内的帕累托最优集的大小和分布可能对批次大小(batch size)非常敏感。较小的批次可能导致帕累托集不稳定,而过大的批次则计算成本高。论文提到非支配点约占 20-30%,但未深入探讨其随训练变化的动态以及对稳定性的影响。
- 对“最优”的逼近程度: 论文声称其方法是“逼近帕累托最优”,但并未提供定量分析来说明这种逼近与真实帕累托前沿的差距。这在理论上是一个可以进一步探讨的点。
- 奖励标识符的优雅性: 使用 这样的硬编码文本标识符来引导偏好虽然有效,但略显“粗糙”。未来的工作或许可以探索更平滑、更连续的偏好向量表示,让用户能进行更细粒度的控制。
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。