ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
TL;DR 精炼摘要
本研究提出了ImageReward,一个通用目的的文本到图像生成的人类偏好奖励模型,基于系统化的注释流程训练,已收集137,000条专家比较数据。ImageReward在自动评估中表现优于现有模型,并引入了奖励反馈学习算法(ReFL),直接优化扩散模型,实现更高效的生成。
摘要
We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward -- the first general-purpose text-to-image human preference reward model -- to effectively encode human preferences. Its training is based on our systematic annotation pipeline including rating and ranking, which collects 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring models and metrics, making it a promising automatic metric for evaluating text-to-image synthesis. On top of it, we propose Reward Feedback Learning (ReFL), a direct tuning algorithm to optimize diffusion models against a scorer. Both automatic and human evaluation support ReFL's advantages over compared methods. All code and datasets are provided at \url{https://github.com/THUDM/ImageReward}.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation (ImageReward:学习和评估文本到图像生成中的人类偏好)
1.2. 作者
Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong。他们主要来自清华大学 (Tsinghua University),部分作者也隶属于 Zhipu AI 和北京邮电大学 (Beijing U. of Posts and Telecommunications)。
1.3. 发表期刊/会议
arXiv 预印本。arXiv 是一个广泛使用的开放获取预印本库,在机器学习和人工智能领域具有重要影响力,允许研究者在正式同行评审发表前分享最新工作。
1.4. 发表年份
2023年。
1.5. 摘要
本研究提出了一套全面的解决方案,旨在通过人类偏好反馈来学习和改进文本到图像 (Text-to-Image, T2I) 模型。首先,我们构建了 ImageReward (图像奖励模型),这是第一个通用目的的 T2I 人类偏好奖励模型 (Reward Model, RM),旨在有效编码人类偏好。其训练基于我们系统化的标注流水线 (annotation pipeline),包括评分 (rating) 和排名 (ranking) 环节,迄今已收集了 13.7 万条专家比较数据。在人类评估中,ImageReward 表现优于现有的评分模型和指标,使其成为评估 T2I 合成的一种有前景的自动指标。在此基础上,我们提出了 Reward Feedback Learning (ReFL) (奖励反馈学习),这是一种直接调优算法,用于根据一个评分器 (scorer) 来优化扩散模型 (diffusion models)。自动评估和人类评估均支持 ReFL 相较于其他对比方法的优势。所有代码和数据集均已开源。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2304.05977
PDF 链接: https://arxiv.org/pdf/2304.05977v4.pdf
发布状态: arXiv 预印本。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 尽管文本到图像 (Text-to-Image, T2I) 生成模型 (Generative Models) 在近年来取得了显著进展,能够根据文本提示 (prompts) 生成高保真且语义相关的图像,但现有的自监督 (self-supervised) 预训练 (pre-trained) 生成器远非完美。一个主要挑战在于模型与人类偏好 (human preference) 的对齐。预训练数据的噪声和与实际用户提示分布的差异,导致生成的图像存在一些常见问题。
- 问题重要性与现有挑战: 这些在生成图像中普遍存在的问题,不仅影响用户体验,也限制了 T2I 模型的实际应用,包括但不限于:
Text-image Alignment(文本-图像对齐): 模型未能准确描绘文本提示中所有数字、属性、特性和对象关系,导致图像与文本描述不符。例如,Figure 1 (a)(b) 展示了未能准确描绘的案例。Body Problem(身体问题): 生成扭曲、不完整、重复或异常的人类或动物身体部位,如 Figure 1 (e)(f) 所示。Human Aesthetic(人类美学): 生成的图像偏离了平均或主流的人类美学偏好,如 Figure 1 (c)(d) 所示。Toxicity and Biases(毒性和偏见): 图像包含有害、暴力、色情、歧视性、非法内容或引起心理不适的内容,如 Figure 1 (f) 所示。 这些挑战仅通过改进模型架构和预训练数据难以有效解决。
- 切入点/创新思路: 受自然语言处理 (Natural Language Processing, NLP) 领域中通过人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 来引导大型语言模型 (Large Language Models, LLMs) 与人类偏好和价值观对齐的成功经验启发,本文旨在为 T2I 领域提供一个全面的解决方案。具体而言,它旨在构建一个通用的奖励模型 (Reward Model, RM) 来编码人类偏好,并利用其反馈来直接优化生成模型。
2.2. 核心贡献/主要发现
- 主要贡献:
- 提出了
ImageReward(图像奖励模型): 作为第一个通用目的的文本到图像人类偏好奖励模型,它基于作者团队精心设计的系统化标注流水线进行训练,该流水线包括评分和排名,并收集了迄今为止最大规模的 13.7 万条专家比较数据。 - 设计了系统化的标注流水线: 识别并解决了文本到图像人类偏好标注的挑战,设计了专门的流程,建立了定量评估标准、标注员培训机制,优化了标注体验并确保了数据质量。
- 证明了
ImageReward的卓越性能: 通过广泛分析和实验,ImageReward在理解人类对文本到图像合成的偏好方面,显著优于现有文本-图像评分方法,如CLIP(38.6%)、Aesthetic(39.6%) 和BLIP(31.6%),并能有效缓解上述生成图像中存在的问题。 - 将
ImageReward确立为有前景的自动评估指标: 相比于FID(Fréchet Inception Distance) 和CLIP score(CLIP 分数),ImageReward与人类偏好排名高度一致,并在模型和样本之间表现出更高的可区分性,有望成为评估文本到图像生成模型的优秀自动评估指标。 - 提出了
Reward Feedback Learning (ReFL)(奖励反馈学习): 这是一种直接调优算法,旨在根据人类偏好评分器来优化扩散模型 (diffusion models)。ReFL解决了扩散模型无法提供似然 (likelihood) 从而不能直接采用传统RLHF算法的挑战,通过在去噪 (denoising) 过程的后期提供反馈来实现优化。
- 提出了
- 关键结论/发现:
- 系统性、高质量的人类偏好标注是构建有效文本到图像奖励模型的基石。
ImageReward能够准确、全面地捕获人类对 T2I 图像的质量、文本对齐和美学偏好,超越了传统的单一指标。ReFL算法能够有效利用ImageReward的反馈,直接提升扩散模型生成图像的质量和人类偏好,在自动和人类评估中均优于间接的数据增强或损失重加权方法。- 扩散模型在去噪过程的后期阶段,其生成的图像质量已足够稳定,奖励模型可以在这些中间步骤提供可靠的反馈。
3. 预备知识与相关工作
3.1. 基础概念
Text-to-Image (T2I) Generative Models(文本到图像生成模型): 一类人工智能模型,能够根据给定的文本描述(即prompt,提示)生成对应的图像。这些模型极大地推动了计算机视觉和自然语言处理的交叉研究。Diffusion Models(扩散模型): 一种强大的生成模型,其核心思想是通过模拟一个逐步向数据添加噪声(前向扩散过程)再逐步去除噪声(逆向去噪过程)的过程来生成数据。在 T2I 任务中,它通常从随机噪声开始,逐步将其转化为符合文本描述的图像。Reward Model (RM)(奖励模型): 在强化学习 (Reinforcement Learning, RL) 框架中,奖励模型用于预测一个智能体 (agent) 行为(如生成文本或图像)的“好坏”程度,通常通过人类偏好数据进行训练。其输出是一个标量score(分数),表示对人类偏好的匹配程度。Reinforcement Learning from Human Feedback (RLHF)(人类反馈强化学习): 一种训练机器学习模型(特别是大型语言模型)的技术。其过程通常包括:1) 收集人类对模型输出的偏好反馈;2) 使用这些反馈训练一个奖励模型;3) 使用这个奖励模型作为强化学习的奖励函数来优化原始模型。该方法已在NLP领域取得巨大成功。CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练): 由OpenAI提出的一种模型,通过在大规模图像-文本对上进行对比学习 (contrastive learning),学习图像和文本的联合嵌入空间。它可以计算图像和文本之间的相似度,常用于 T2I 模型的评估。BLIP(Bootstrapping Language-Image Pre-training,自举语言-图像预训练): 一种统一的视觉-语言模型,通过自举 (bootstrapping) 机制和多任务学习 (multi-task learning) 在图像-文本数据上进行预训练。它旨在克服传统视觉-语言模型对噪声数据的敏感性,通常在各种视觉-语言任务上表现出色,包括图像-文本检索和生成。FID(Fréchet Inception Distance,Fréchet Inception 距离): 一个衡量生成图像质量和多样性的指标。它计算生成图像分布和真实图像分布之间在Inception网络的特征空间中的Fréchet距离。FID值越低表示生成图像的质量越高且多样性越好。它通常用于评估生成模型整体性能,而非单个图像质量。Latent Diffusion Models (LDMs)(潜在扩散模型): 一种特殊的扩散模型,它不直接在像素空间 (pixel space) 而是选择在更紧凑的潜在空间 (latent space) 进行扩散过程,从而显著降低了计算成本,提高了生成效率。Stable Diffusion就是一个著名的LDM。Likert Scale(李克特量表): 一种常用的心理测量量表,用于测量人们对某种陈述或概念的态度、意见或感知。通常以 5 点或 7 点量表的形式呈现,例如从“非常不同意”到“非常同意”。
3.2. 前人工作
- T2I 生成模型的发展: 论文提到了 T2I 生成模型在近年来的快速发展,包括早期的自回归 (auto-regressive) 模型 (
DALL-E,CogView) 和当前流行的扩散模型 (Stable Diffusion,DALL-E 2,GLIDE,Imagen等)。这些模型能够根据文本提示生成高保真图像,极大地吸引了公众的兴趣。 - NLP 中的
RLHF: 论文强调了RLHF在NLP领域(如InstructGPT,ChatGPT等大型语言模型)中引导模型与人类偏好对齐的成功。这一方法依赖于从大量专家标注的模型输出比较中学习一个奖励模型。然而,RLHF的标注过程成本高昂且复杂。 - T2I 模型的评估方法: 现有 T2I 模型的评估通常依赖于
FID(主要用于衡量整体生成质量) 和CLIP score(用于衡量文本-图像相似度)。此外,LAION提供的Aesthetic(美学) 预测器也部分解决了对图像美学进行评估的需求。然而,这些指标未能全面捕捉人类对 T2I 生成图像的综合偏好,尤其是对单个图像的细致评价。 RLHF在 T2I 领域的初步探索: 论文指出,在 T2I 领域,关于RLHF的研究相对较少。它提到了一些同期工作:Lee et al., 2023的工作专注于封闭领域 (closed domain) 的文本-图像连贯性,并提出通过损失重加权 (loss re-weighing) 来改进模型。Wu et al., 2023、Kirstain et al., 2023和Dong et al., 2023的工作通过收集在线用户点击数据(1-of-n 选择)来获取反馈,但这些数据可能缺乏一致的标准和提示多样性,其优化方法也主要基于间接的数据过滤 (data filtering) 和增强 (augmentation)。
3.3. 技术演进
T2I 技术从早期的 GANs (Generative Adversarial Networks) 发展到自回归模型,再到当前占据主导地位的扩散模型,生成图像的质量、多样性和对文本的理解能力都得到了显著提升。评估方法也从最初的 Inception Score (IS) 和 FID 等仅关注图像质量的指标,逐步发展到引入 CLIP score 来衡量文本-图像对齐,并加入了 Aesthetic 预测器来评估美学因素。然而,这些方法通常是独立的,未能像 RLHF 在 NLP 领域那样,将人类多维度偏好系统性地整合到模型的评估和优化循环中。本文的工作代表了将 RLHF 范式全面引入 T2I 领域的关键一步,旨在通过构建一个综合性的奖励模型来更准确地评估人类偏好,并利用其反馈直接优化生成模型。
3.4. 差异化分析
- 与现有 T2I 评估指标的对比:
ImageReward的核心创新在于其综合性和人类偏好对齐度。与仅关注文本-图像相似度 (CLIP score,BLIP score) 或单一美学因素 (Aesthetic score) 的现有指标不同,ImageReward通过其精心设计的人类标注流水线,综合考虑了文本-图像对齐、图像保真度、美学和无害性等多个维度的人类偏好。这使得ImageReward能够提供一个更全面、更细致的评估,并且在区分不同模型性能和单个图像质量方面表现出更高的可区分性,与人类排名高度一致。 - 与现有 T2I 优化方法的对比: 现有的 T2I 模型优化方法(如数据过滤、损失重加权等)大多是间接的,它们通过对训练数据进行筛选或调整损失权重来实现对人类偏好的近似对齐。这些方法可能过度依赖特定的数据集分布,且对生成模型的改进可能有限。
ReFL则代表了一种直接调优的范式。它利用ImageReward作为得分器,直接将人类偏好信号转化为梯度,反向传播到扩散模型中。这种直接反馈机制克服了扩散模型无法提供似然的挑战,实现了更高效和有针对性的优化。 - 与同期奖励模型的对比: 论文提到了一些同期工作也尝试构建 T2I 奖励模型,如
HPS和PickScore。然而,这些模型的训练数据可能依赖于噪声较大的在线用户点击数据或简单的合成提示,缺乏一致的标准和提示多样性。相比之下,ImageReward的优势在于其严谨的标注流水线:它基于来自DiffusionDB的真实用户提示,通过专业的专家团队进行系统化、高质量的评分和排名标注,并提供了详细的标注标准和权衡指导,从而确保了奖励模型的通用性和可靠性。
4. 方法论
本文的核心贡献在于提出了 ImageReward 奖励模型及其训练方法,并在此基础上设计了 ReFL (奖励反馈学习) 算法来优化扩散模型。
4.1. ImageReward: 学习和评估人类偏好
ImageReward 的构建涉及系统化的数据收集和专家人类标注,旨在有效地编码人类偏好。
4.1.1. 标注流水线设计 (Annotation Pipeline Design)
为了构建一个能有效编码人类偏好的奖励模型,作者设计了一个详细的标注流水线,确保了数据的多样性、代表性和高质量。
-
提示选择和图像收集 (Prompt Selection and Image Collection):
- 来源: 标注数据集使用了来自
DiffusionDB(一个开源数据集) 的多样化真实用户提示 (real user prompts)。选择真实用户提示是为了确保数据集的实践相关性和多样性。 - 多样性保证: 为了确保选择的提示在主题和风格上具有多样性和代表性,作者采用了基于语言模型 (Language Model) 提示相似度 (prompt similarity) 的图算法 (graph-based algorithm)。这种方法通过计算提示的
Sentence-BERT嵌入并构建 近邻图 (k-nearest neighbors graph),然后选择得分高的节点(代表未被选择的近邻最多的提示),从而在语义空间中选择分布广泛的提示。 - 数量: 初始选择了 10,000 个候选提示,每个提示附带 4 到 9 张来自
DiffusionDB的采样图像,总计 177,304 个候选文本-图像对用于标注。
- 来源: 标注数据集使用了来自
-
人类标注设计 (Human Annotation Design): 标注流水线分为三个主要阶段:
- 提示标注 (Prompt Annotation):
- 分类: 标注员首先根据
Parti模型 (Yu et al., 2022) 的提示类别模式对每个提示进行分类(如Abstract,Animals,Arts等)。这有助于后续分析不同类别提示下的模型表现和问题。 - 问题识别: 标注员需识别提示中存在的潜在问题,例如,模糊不清、含糊其辞或包含有害内容(如色情、暴力、歧视性词语等),尽管
DiffusionDB已经过初步过滤。
- 分类: 标注员首先根据
- 文本-图像评分 (Text-Image Rating):
在此阶段,标注员对每个文本-图像对进行详细评分,主要关注以下三个维度:
Alignment(对齐): 衡量生成图像是否忠实地展示了文本描述的对象、属性、关系和事件。Fidelity(保真度): 关注图像本身的质量,包括对象是否真实、美观,以及图像是否存在结构性错误(例如,身体部位扭曲、不完整)。Harmlessness(无害性): 评估图像是否不包含有毒、非法、偏见内容或引起心理不适的内容。- 量化指标: 标注员使用三个七级
Likert scale(李克特量表) 对Overall Rating(总体评分)、Image-Text Alignment(文本-图像对齐) 和Fidelity(保真度) 进行评分(1 最差,7 最佳)。此外,还提供了针对七种图像问题(如重复生成、身体问题、模糊、有毒、色情、暴力、歧视)的二元复选框,供标注员识别。
- 图像排名 (Image Ranking):
在评分每个文本-图像对后,标注员将进入排名阶段。他们需要根据个人偏好,将同一提示下的所有生成图像从最好到最差进行排序。
- 权衡指导 (Trade-offs): 考虑到不同评分标准之间可能存在冲突(例如,一个图像对齐度高但有毒,另一个对齐度低但无害),标注文档提供了详细的权衡指导。例如,通常情况下,
harmlessness(无害性) 和fidelity(保真度) 比alignment(对齐) 更重要。如果两个图像难以区分优劣,允许打平,但每个排名槽位最多只能放置两张图像,以鼓励更细致的区分。
- 权衡指导 (Trade-offs): 考虑到不同评分标准之间可能存在冲突(例如,一个图像对齐度高但有毒,另一个对齐度低但无害),标注文档提供了详细的权衡指导。例如,通常情况下,
- 提示标注 (Prompt Annotation):
-
标注员招聘与培训: 作者与专业数据标注公司合作招聘标注员。这些标注员多数具有大学学历,并接受了基于详细文档的培训,熟悉标注流程和标准。
-
质量控制: 设立了质量检查员机制,对每个标注进行双重检查,确保数据质量。无效标注会被重新分配。
-
标注系统截图: 原文 Figure 8 展示了标注系统的截图,包括文本-图像评分界面和图像排名界面。
该图像是一个饼图,展示了在标注数据中提示的分布情况,共包含12个类别和8,878条提示信息。具体而言,艺术类占比最大,达到27.11%,而人在所有类别中占比最高,达到37.85%。
该图像是一个插图,展示了待排序的风景画,分为五个等级,从最佳到最差。每幅画的整体颜色和构图各有不同,排列在用户评分界面中,显示出人类对图像的偏好。- Figure 8 (a) 展示了文本-图像评分界面,标注员需对“Overall Rating”、“Image-Text Alignment”和“Fidelity”进行 1-7 分的评分,并勾选是否存在特定问题(如重复生成、身体问题、色情等)。
- Figure 8 (b) 展示了图像排名界面,标注员将 4-9 张生成的图像拖动到 5 个排名槽位中,从最佳到最差进行排序,允许打平。
-
人类标注分析 (Human Annotation Analysis):
-
数据量: 经过 2 个月的努力,最终收集了 8,878 个有效提示,构成了总计 136,892 对比较数据。
-
提示类别分布: 根据
Parti模型 (Yu et al., 2022) 的分类标准,标注数据涵盖 12 个类别。Figure 9 展示了这些类别的分布:
该图像是示意图,展示了ImageReward模型如何通过人类偏好反馈来改进文本到图像生成的过程。图中可能包含与训练和评估流程相关的框架或算法,展示了系统注解和评分机制的关联。- 分析:分布多样且具有代表性,主要集中在
People(3,360)、Arts(2,407) 和Outdoor Scenes(1,189) 等常见主题,同时也涵盖了Plants,Illustrations,World Knowledge等稀有类别。
- 分析:分布多样且具有代表性,主要集中在
-
不同提示类别下的平均评分分布: Figure 10 展示了不同类别图像在文本图像对齐、保真度和总体满意度三个维度的平均评分:
该图像是图表,展示了各类图像在文本图像一致性、图像保真度和整体满意度三个方面的平均评分。图表分为三部分,分别表示整体满意度、文本图像一致性和图像保真度,各类别的平均评分用柱状图展示,并显示所有图像的整体平均评分。图例中每个类别旁边的数字表示对应提示的数量。- 分析:
Abstract(抽象) 提示生成的图像得分最低,可能因为Stable Diffusion不擅长理解抽象概念。Plants,Outdoor Scenes,Indoor Scenes等描述具体事物的提示得分较高。
- 分析:
-
不同提示类别下的问题分布: Figure 11 展示了不同类别中各种问题的频率:
该图像是一个图表,展示了不同类别中问题频率的分布,包括重复生成、身体问题、模糊图像、有毒、色情和暴力问题。每个类别的百分比显示了相应问题的发生率,特别是没有发现任何违反保护群体的问题,因此该部分被省略。图中还标示了所有图像中这些问题的频率。- 分析:
Body problem(身体问题) 是最严重的问题,平均频率为 21.14%,在People和Arts类别中尤为突出。Repeated generation(重复生成) 问题平均频率为 3.16%。Fuzzy images(模糊图像) 在Abstract类别中多见。毒性、色情和暴力内容也存在于部分图像中。
- 分析:
-
功能词分布与影响 ("Function" words distribution): 作者还分析了提示中“功能词”(如 "8k", "highly detailed")对生成图像质量的影响。Figure 12 和 Figure 13 展示了其影响:
该图像是一个图表,展示了不同功能词比例对应的总体满意度、图像保真度和文本-图像一致性。图表中明确标注了各比例下的样本数量及对应的平均分数,揭示了功能词比例增加对评价的影响。
该图像是一个柱状图,展示了不同类别(如重复生成、身体问题、模糊图像等)中图像问题的频率。每个子图以百分比表示,不同色调的蓝色代表不同的功能短语组,数值显示在柱状图上方。- 分析:适当的功能词比例可以提高文本-图像对齐、保真度和总体满意度。然而,功能词过多也可能导致问题频率增加。
-
4.1.2. 奖励模型训练 (RM Training)
ImageReward 的训练将人类偏好标注建模为排名任务。
-
损失函数 (Loss Function): 给定一个提示 和 张已由人类标注员排名的图像 (其中 最好, 最差)。这会生成至多 对比较,如果图像之间没有打平。对于每个比较对,如果 被认为优于 ,则
ImageReward的损失函数被公式化为: 其中:- : 是一个标量值函数,代表奖励模型 (preference model) 对提示 和生成图像 给出的偏好分数。
- : 是奖励模型的参数。
- : 是包含所有收集到的比较对 的数据集。
- : 是
sigmoid激活函数,用于将两个图像的分数差转换为一个介于 0 和 1 之间的概率值,表示 优于 的可能性。 - : 表示对所有比较对的负对数似然 (negative log-likelihood) 进行期望。训练目标是最小化此损失,从而最大化奖励模型正确预测人类偏好的概率。
-
训练技术 (Training Techniques):
- 主干网络 (Backbone):
ImageReward使用BLIP(Bootstrapping Language-Image Pre-training) 作为其主干网络,因为它在初步实验中表现优于传统的CLIP。BLIP模型的图像编码器 (ViT-L) 和文本编码器 (12 层transformer) 用于提取图像和文本特征,并通过交叉注意力 (cross-attention) 机制进行结合。之后,一个MLP(多层感知机) 用于将结合后的特征映射为最终的标量偏好分数。 - 过拟合 (Overfitting) 问题: 作者观察到模型在训练过程中会出现快速收敛,但随后出现过拟合,这损害了模型性能。
- 解决方案:
- 冻结部分层 (Freezing layers): 通过冻结主干网络中一部分
transformer层的参数来缓解过拟合。实验发现,冻结 70% 的transformer层能取得最佳性能。 - 超参数调优 (Hyperparameter tuning): 对学习率 (learning rate) 和批大小 (batch size) 进行仔细的网格搜索 (grid search),以确定最优的训练超参数。
- 冻结部分层 (Freezing layers): 通过冻结主干网络中一部分
- 硬件:
ImageReward在 4 块 40GBNVIDIA A100 GPU上训练,每个GPU的批大小为 16。
- 主干网络 (Backbone):
4.2. ReFL: 奖励反馈学习改进文本到图像扩散模型
尽管 ImageReward 能够从多个生成图像中选出高质量的图像,但“生成-然后-过滤” (generate-and-then-filter) 的范式在实际应用中成本高昂且效率低下。因此,作者寻求一种方法来直接改进生成模型,特别是流行的潜在扩散模型 (Latent Diffusion Models, LDMs),以实现单次或极少数次生成就能得到高质量图像。
-
挑战 (Challenge):
- RLHF 在 NLP 中的成功与局限: 在
NLP领域,研究人员已成功利用强化学习算法(如PPO)结合RLHF来引导语言模型 (Language Models) 与人类偏好对齐。这些方法通常依赖于模型生成完整序列的似然 (likelihood) 来计算梯度并更新模型。 - 扩散模型的似然问题: 然而,潜在扩散模型 (LDMs) 的多步去噪生成过程无法直接提供其生成的似然。这意味着传统的
RLHF算法无法直接应用于LDMs。 - 现有 T2I 优化方法的间接性: 现有的针对
LDMs的类似方法通常是间接的:Classifier-guidance(分类器引导) 仅用于推理 (inference) 阶段,且其分类器通常在噪声中间潜在变量 (noisy intermediate latents) 上训练,这与奖励模型在完全去噪图像上标注的特性相悖。- 一些同期工作提出的替代方案,例如使用奖励模型过滤数据集进行微调 (
Wu et al., 2023; Dong et al., 2023) 或根据质量重新加权训练样本的损失 (Lee et al., 2023),这些都是数据导向的间接方法。它们可能过度依赖于特定的微调数据分布,且对LDMs的改进可能有限。
- RLHF 在 NLP 中的成功与局限: 在
-
ReFL:洞察与解决方案 (ReFL: Insight and Solution): 作者通过对
ImageReward评分在扩散模型的去噪 (denoising) 过程中的变化进行深入观察,获得了一个关键洞察 (Figure 4):
该图像是一个示意图,展示了不同去噪步数下的 ImageReward 值变化及其对应生成图像。在去噪步骤为 30 时,ImageReward 值为 0.35,在步骤为 40 时,ImageReward 值为 0.59,显示出人类偏好的改进趋势。-
Figure 4 展示了在不同去噪步长下,同一提示生成的图像的
ImageReward评分。 -
洞察结果:
- 当 步时:所有生成的图像的
ImageReward评分普遍较低,且难以区分不同生成图像的最终质量。 - 当 步时:高质量生成开始显现,但整体上仍难以根据当前
ImageReward评分明确判断所有生成的最终质量。 - 当 步时:不同
ImageReward评分的生成图像普遍可区分。
- 当 步时:所有生成的图像的
-
核心结论: 这一观察表明,即使图像还未完全去噪到最终状态,在去噪过程的后期(例如 30 步之后),
ImageReward也能提供可靠的质量反馈。基于此洞察,作者提出了
ReFL算法,旨在直接微调LDMs。 -
算法概述 (Algorithm 1):
ReFL的训练过程结合了原始的LDM预训练损失 (pre-training loss) 和基于奖励模型的ReFL损失。其核心思想是将奖励模型的分数视为人类偏好损失 (human preference losses),并将其梯度反向传播 (back-propagate gradients) 到扩散模型。 算法 1 奖励反馈学习 (ReFL) 用于LDMs- 数据集 (Dataset): 提示集
- 预训练数据集 (Pre-training Dataset): 文本-图像对数据集
- 输入 (Input):
LDM: 带有预训练参数 的潜在扩散模型。- : 奖励模型 (
ImageReward)。 - : 奖励到损失映射函数 (reward-to-loss map function)。
- :
LDM预训练损失函数。 - : 奖励重加权比例 (reward re-weight scale)。
- 初始化 (Initialization):
- : 噪声调度器 (noise scheduler) 的总时间步数。
- : 用于微调的时间步范围。
- 循环 for (从提示集中采样) 和 (从预训练数据集中采样) do:
6. 计算预训练损失: 。
7. 更新
LDM参数 使用预训练损失。这一步是常规的LDM训练,旨在保持模型基本的生成能力。 8. 随机选择时间步 (Pick a random time step): 。从预定义的时间步范围 中随机选择一个时间步 。在ReFL的实验中,这个范围是[1, 10](注:正文中说 ,此处与算法描述有出入,但核心思想一致,即选择一个“后期”步骤)。 9. 采样噪声作为潜在变量 (Sample noise as latent): 。从标准正态分布中采样初始噪声作为潜在变量。 10. 去噪至 步 (Denoise to step ): for do: 11. 无梯度 (no grad): 。这一循环通过LDM逐步去噪,但不计算梯度,目的是快速将潜在变量从 转换到 。 12. end for 13. 有梯度地去噪一步 (with grad): 。这一步是关键,它使用LDM模型从 去噪到 ,并且保留了梯度信息,使得LDM参数 能够接收后续的梯度。 14. 预测原始潜在变量 (Predict the original latent): 。根据去噪后的潜在变量 ,通过噪声调度器预测出原始的无噪声潜在变量 。 15. 从潜在变量转换为图像 (From latent to image): 。将潜在变量 转换为实际图像 。 16. 计算 ReFL 损失 (ReFL loss): 。奖励模型 对生成的图像 和提示 进行评分,然后通过映射函数 和重加权比例 转换为ReFL损失。 17. 更新LDM参数 (Update LDM): 。使用ReFL损失的梯度来更新LDM参数。 - end for
-
损失函数形式: 为了避免快速过拟合和稳定微调过程,
ReFL结合了ReFL损失 和LDM预训练损失 。最终的损失函数形式如下: 其中:- : 表示
LDM的参数。 - : 表示
LDM根据提示 生成的图像。 - : 是
ReFL损失。- : 奖励重加权比例,用于平衡
ReFL损失在总损失中的重要性。 - : 奖励到损失的映射函数,在实验中设置为
ReLU(整流线性单元) 函数。其作用是将奖励模型 输出的分数转换为一个损失值。如果奖励模型给出的分数越高(越符合偏好),则 后的损失越低,反之亦然。 - : 奖励模型 (
ImageReward) 对根据提示 生成的图像 给出的偏好分数。
- : 奖励重加权比例,用于平衡
- : 是
LDM的预训练损失,其形式取自Latent Diffusion Models论文 (Rombach et al., 2022)。它是一个去噪分数匹配损失 (denoising score matching loss),旨在训练LDM准确预测添加到潜在变量中的噪声 。- : 图像编码器 (image encoder),用于将图像 编码为潜在表示。
- : 文本提示。
- : 从标准正态分布中采样的噪声。
- : 噪声时间步。
- : 在时间步 被噪声化的潜在变量。
- :
LDM预测的噪声,其中 是文本编码器 (text encoder) 对提示 的编码。 - : L2 范数平方,衡量预测噪声与真实噪声之间的差异。
- : 表示
-
随机选择 的原因: 随机选择 (在实验中为 ) 而不是仅仅使用最后一步,是为了避免训练不稳定和快速过拟合。只保留最后一个去噪步骤的梯度被证明训练非常不稳定且结果不佳。
-
5. 实验设置
5.1. 数据集
-
ImageReward 训练数据集:
- 来源: 采用来自
DiffusionDB的多样化真实用户提示 (real user prompts)。 - 图像: 针对每个提示,从
DiffusionDB中收集 4 到 9 张由各种 T2I 模型生成的图像。 - 规模: 8,878 个提示,总计 136,892 对专家比较数据。
- 划分: 根据不同标注员标注的提示进行划分。选择 466 个提示(来自标注了超过 8k 提示的标注员)用于训练
ImageReward的测试集。
- 来源: 采用来自
-
ImageReward 评估数据集:
- 模型间人类对齐评估: 100 个真实用户测试提示,每个流行 T2I 模型(
CogView 2,Versatile Diffusion,Stable Diffusion 1.4/2.1-base,DALL-E 2,Openjourney)生成 10 个输出。 - Preference Accuracy 评估: 一个包含 466 个提示的测试集,共 6,399 对比较。
- Recall/Filter 评估: 另一个包含 371 个提示的测试集,每个提示有 8 张图像,用于评估模型选择最佳图像或过滤最差图像的能力。
- 模型间人类对齐评估: 100 个真实用户测试提示,每个流行 T2I 模型(
-
ReFL 训练数据集:
- 基线模型:
Stable Diffusion v1.4。 - 预训练数据集: 从
LAION-5B中通过aesthetic score筛选出的 625k 子集。 - ReFL 提示集: 从
DiffusionDB采样。 - 训练配置: 模型在 8 块 40GB
NVIDIA A100 GPU上以半精度 (half-precision) 训练。总批大小为 128 (预训练 64,ReFL64),学习率为 1e-5。ReFL算法中,,,总时间步 ,微调时间步范围 (注:正文 3.1 节中图 4 的描述是[30, 40])。
- 基线模型:
-
ReFL 评估数据集:
- 测试提示: 466 个来自
DiffusionDB的真实用户提示,以及 90 个来自MT Bench(多任务基准测试,Petsiuk et al., 2022) 的设计挑战性提示。 - 公平比较: 所有微调方法使用相同的预训练数据集或生成的 20,000 个样本的数据集,并以相同的训练设置(学习率、批大小)训练一个
epoch。
- 测试提示: 466 个来自
5.2. 评估指标
对论文中出现的每一个评估指标,进行完整说明:
-
人类评估 (Human Evaluation):
- Win Count (胜场数):
- 概念定义:
Win Count统计在人类对模型输出进行两两比较或排名时,某个模型被判定为优于其他模型的总次数。它直接量化了模型输出对人类偏好的匹配程度。 - 数学公式: 假设在一个对比评估中,模型 A 与其他模型进行了 次比较,其中模型 A 在 次比较中获胜,则
Win Count为 。 - 符号解释: 表示模型 A 获胜的次数。
- 概念定义:
- Win Rate (胜率):
- 概念定义:
Win Rate是胜场数占总比较次数的比例,通常用于衡量模型相对于基线或其他竞争模型的相对优势。 - 数学公式:
- 符号解释:
- : 模型 A 获胜的次数。
- : 模型 A 参与的总比较次数。
- 概念定义:
- Ranking (排名):
- 概念定义: 标注员根据对图像质量、对齐和美学的偏好,对同一提示下的多张图像进行排序。这提供了一个顺序层面的评估,而非简单的二元胜负。
- 数学公式: 无通用公式,结果通常以排名顺序或排名相关的统计量(如平均排名)呈现。
- 符号解释: 无。
- Win Count (胜场数):
-
ImageReward 作为评估指标:
- Preference Accuracy (偏好准确率):
- 概念定义: 衡量奖励模型预测的偏好与人类标注的偏好一致的准确性。如果奖励模型对一对图像 的评分与人类偏好一致(即如果人类认为 优于 ,奖励模型也给出 ),则计数为正确。
- 数学公式:
- 符号解释:
- : 测试集中所有由人类专家标注的图像比较对。
- : 指示函数,当括号内条件为真时其值为 1,否则为 0。
- : 奖励模型 (
ImageReward) 对图像 和提示 给出的偏好评分。 H(x): 人类对图像 的偏好。如果人类认为 优于 ,则 。- : 测试集中比较对的总数量。
- Recall@k (召回率@k):
- 概念定义: 衡量模型在前 个选定图像中包含人类标注的“最佳”图像的频率。该指标用于评估模型识别和保留高质量图像的能力。
- 数学公式:
- 符号解释: 是一个整数,表示在模型输出中选择的图像数量。
- Filter@k (过滤率@k):
- 概念定义: 衡量模型在前 个选定图像中不包含人类标注的“最差”图像的频率。该指标用于评估模型过滤掉低质量图像的能力。
- 数学公式:
- 符号解释: 是一个整数,表示在模型输出中选择的图像数量。
- Preference Accuracy (偏好准确率):
-
其他自动指标:
CLIP Score(CLIP 分数):- 概念定义: 通过计算
CLIP模型输出的图像嵌入和文本嵌入之间的余弦相似度来量化文本-图像对齐程度。值越高表示文本-图像对齐度越高。 - 数学公式:
- 符号解释:
- : 图像的
CLIP嵌入向量。 - : 文本的
CLIP嵌入向量。 - : 向量点积。
- : 向量的 L2 范数(模长)。
- : 图像的
- 概念定义: 通过计算
Aesthetic Score(美学分数):- 概念定义: 由
LAION(Large-scale Artificial Intelligence Open Network) 提供,通常是一个基于CLIP架构训练的预测器,专门用于预测图像的美学质量。值越高表示美学质量越高。 - 数学公式: 无公开标准数学公式,通常是一个回归模型 。
- 符号解释: 是图像的嵌入向量。
- 概念定义: 由
BLIP Score(BLIP 分数):- 概念定义: 类似于
CLIP Score,但使用BLIP模型而不是CLIP模型计算图像和文本嵌入之间的余弦相似度。 - 数学公式:
- 符号解释:
- : 图像的
BLIP嵌入向量。 - : 文本的
BLIP嵌入向量。
- : 图像的
- 概念定义: 类似于
Zero-shot FID(零样本 FID):- 概念定义: 在没有对 T2I 模型进行特定目标数据集微调的情况下,计算模型生成图像与真实图像分布之间的
Fréchet Inception Distance。FID值越低表示生成图像的质量越高且多样性越好,越接近真实图像分布。 - 数学公式:
- 符号解释:
- : 分别是生成图像和真实图像在
Inception网络的某个中间层特征空间中的均值向量。 - : 分别是生成图像和真实图像特征的协方差矩阵。
- : L2 范数平方。
- : 矩阵的迹。
- : 矩阵乘积的平方根。
- : 分别是生成图像和真实图像在
- 概念定义: 在没有对 T2I 模型进行特定目标数据集微调的情况下,计算模型生成图像与真实图像分布之间的
5.3. 对比基线
- ImageReward 作为评估指标的基线:
CLIP ScoreAesthetic Score(由LAION提供)BLIP Score
- ReFL 作为优化方法的基线:
Stable Diffusion v1.4(基线模型): 这是未经过任何RLHF调优的原始LDM。Dataset Filtering(数据集过滤) (Wu et al., 2023): 该方法利用奖励模型对生成图像进行评分,然后筛选出高分图像和低分图像(后者被标记为“Weird image.”),用这些筛选后的数据来微调LDM。Reward Weighted(奖励加权) (Lee et al., 2023): 该方法在LDM微调过程中,使用奖励模型对损失函数进行加权,给予高奖励图像更大的权重,低奖励图像较小的权重。RAFT(Reward Ranked Fine-tuning,奖励排序微调) (Dong et al., 2023): 这是一个迭代式微调方法,通过生成大量图像,使用奖励模型对其进行排序,然后选择高奖励的图像来微调LDM,重复该过程。
6. 实验结果与分析
6.1. ImageReward: 人类偏好预测实验结果
6.1.1. 协议分析 (Agreement Analysis)
该部分评估了不同标注者、研究者和模型之间对图像偏好的一致性。 以下是原文 Table 2a 的结果:
| researcher annotator | annotator ensemble | CLIP Score | Aesthetic | BLIP Score | Ours | ||
| researcher | 71.2% ± 11.1% | 65.3% ± 8.5% | 73.4% ± 6.2% | 57.8% ± 3.6% | 55.6% ± 3.1% | 57.0% ± 3.0% | 64.5% ± 2.5% |
| annotator | 65.3% ± 8.5% | 65.3% ± 5.6% | 53.9% ± 5.8% | 54.3% ± 3.2% | 55.9% ± 3.1% | 57.4% ± 2.7% | 65.3% ± 3.7% |
| annotator ensemble | 73.4% ± 6.2% | 53.9% ± 5.8% | - | 54.4% ± 21.1% | 57.5% ± 15.9% | 62.0% ± 16.1% ± 18.6% | 70.5% |
- 分析: 表格显示了研究者、标注员以及不同模型之间偏好判断的一致性百分比。
researcher(研究者) 与annotator ensemble(标注员整体) 之间的一致性为 73.4% ± 6.2%,这代表了人类专家之间相对较高的共识水平。ImageReward(Ours) 与研究者的一致性为 64.5% ± 2.5%,与标注员的一致性为 65.3% ± 3.7%。这表明ImageReward能够较好地学习和模拟人类的偏好判断,其性能显著优于其他基线模型 (CLIP Score,Aesthetic,BLIP Score),后者的一致性百分比普遍较低。例如,ImageReward与研究者的一致性比BLIP Score高出 7.5%。
6.1.2. 主要结果:偏好准确率 (Main Results: Preference Accuracy)
偏好准确率衡量了评分器 (scorer) 在给定两个图像时,与人类选择相同偏好图像的正确性。 以下是原文 Table 3 的结果:
| Model | Preference Acc. | @1 | Recall @2 | @4 | @1 | Filter @2 | @4 |
| CLIP Score | 54.82 | 27.22 | 48.52 | 78.17 | 29.65 | 51.75 | 76.82 |
| Aesthetic Score | 57.35 | 30.73 | 53.91 | 75.74 | 32.08 | 54.45 | 76.55 |
| BLIP Score | 57.76 | 30.73 | 50.67 | 77.63 | 33.42 | 56.33 | 80.59 |
| ImageReward (Ours) | 65.14 | 39.62 | 63.07 | 90.84 | 49.06 | 70.89 | 88.95 |
- 分析:
ImageReward的偏好准确率 (Preference Acc.) 达到 65.14%,显著高于所有基线模型(CLIP Score54.82%,Aesthetic Score57.35%,BLIP Score57.76%)。这表明ImageReward在判断哪张图像更受人类偏爱时,具有最高的准确率。- 在
Recall@k(召回率@k) 和Filter@k(过滤率@k) 指标上,ImageReward也表现最佳。例如,Recall@4达到 90.84% (远超BLIP Score的 77.63%),Filter@4达到 88.95% (远超BLIP Score的 80.59%)。这说明ImageReward在识别高质量图像和有效过滤掉低质量图像方面的能力都更强。
6.1.3. 主要结果:人类评估 (Main Results: Human Evaluation)
为了评估 ImageReward 在大量生成图像中选择最受偏好图像的能力,作者生成了一个新数据集,并让人类标注员进行评估。
Figure 5 展示了 ImageReward 与其他模型的胜率对比:
该图像是一个图表,显示了ImageReward与其他模型的胜率比较。根据数据,ImageReward在大多数对比中获胜,平均胜率分别为77.1%(随机)、69.3%(CLIP)、69.8%(Aesthetic)和65.8%(BLIP)。
- 分析: Figure 5 清晰地表明,
ImageReward在与随机选择、CLIP、Aesthetic和BLIP的对比中,其图像胜率 (win rates) 均最高。平均而言,ImageReward相对于随机选择的胜率为 77.1%,相对于CLIP为 69.3%,相对于Aesthetic为 69.8%,相对于BLIP为 65.8%。这进一步验证了ImageReward能够有效选择出更符合人类偏好的图像。
6.1.4. 跨模型更好地与人类对齐 (Better Human Alignment Across Models)
该部分通过研究者标注,对比了 6 种流行的 T2I 模型(CogView 2, Versatile Diffusion, Stable Diffusion 1.4/2.1-base, DALL-E 2, Openjourney)在真实用户提示上的表现,并评估了不同指标与人类偏好排名的对齐程度。
以下是原文 Table 1 的结果:
| Dataset & Model | Real User Prompts | MS-COCO 2014 | ||||||||
| Human Eval. | ImageReward | CLIP | ImageReward | Zero-shot FID* | ||||||
| Rank | #Win | Rank | Score | Rank | Score | | Rank | Score | Rank | Score | |
| Openjourney | 1 | 507 | 2 | 0.2614 | 2 | 0.2726 | -0.0455 | 5 | 20.7 | |
| Stable Diffusion 2.1-base | 463 | 0.2458 | 4 | 0.2683 | 3 | 0.1553 | 4 | 18.8 | ||
| DALL-E 2 | 390 | 0.2114 | 3 | 0.2684 | 1 | 0.5387 | 1 | 10.9* | ||
| Stable Diffusion 1.4 | 362 | 0.1344 | 1 | 0.2763 | 4 | -0.0857 | 17.9 | |||
| Versatile Diffusion | 340 | -0.2470 | 5 | 0.2606 | n6 | -0.5485 | 2 | 18.4 | ||
| CogView 2 | 6 | 74 | -1.2376 | 6 | 0.2044 | -0.8510 | 6 | 26.2 | ||
| Spearman ρ to Human Eval. | - | 1.00 | 0.60 | 0.77 | 0.09 | |||||
- 分析: 表格底部列出了 (斯皮尔曼相关系数) 与人类评估的对比结果。
- 在真实用户提示 (Real User Prompts) 上,
ImageReward与人类评估的 达到了 1.00,这意味着ImageReward的排名与人类专家对 T2I 模型的偏好排名完美一致。 - 相比之下,
CLIP的相关性为 0.60,而Zero-shot FID(在MS-COCO 2014上) 仅为 0.09。这有力地证明了ImageReward在评估 T2I 模型时能更准确、更全面地反映人类偏好,而传统的FID和CLIP score则不然。
- 在真实用户提示 (Real User Prompts) 上,
6.1.5. 跨模型和样本更好的可区分性 (Better Distinguishability Across Models and Samples)
该部分通过 ImageReward 和 CLIP 在不同生成模型上的分数分布,评估它们区分图像质量的能力。
Figure 3 展示了 ImageReward 和 CLIP 分数的标准化分布:
该图像是图表,展示了不同生成模型的ImageReward和CLIP评分的规范化分布(已去除异常值)。ImageReward的评分与人类偏好高度一致,并表现出更高的可区分性。
- 分析:
- Figure 3 中的箱线图 (box plot) 显示,
ImageReward在每个模型(如DALL-E 2,SD 2.1-base,SD 1.4等)中的分数分布具有更大的四分位数范围 (interquartile range)。这表明ImageReward能够更好地区分同一模型生成图像的质量差异,即对于同一个模型,其生成的不同图像ImageReward会给出明显不同的分数,从而能更精细地识别好坏。 - 此外,
ImageReward分数的中位数 (medians) 也与 Table 1 中的人类排名大致一致,进一步印证了其与人类偏好对齐。 - 相反,
CLIP分数的分布非常集中,四分位数范围很小,表明其在区分不同图像质量方面的能力较弱,且其中位数未能反映人类偏好排名。
- Figure 3 中的箱线图 (box plot) 显示,
6.1.6. 消融研究:训练数据集大小 (Ablation Study: Training dataset size)
为了探究训练数据集规模对模型性能的影响,进行了对比实验。 以下是原文 Table 2b 的结果:
| Backbone | | TrainingSet Size | PreferenceAcc. |
| CLIP | 4k8k | 61.8762.98 |
| BLIP | 1k2k4k8k | 63.0763.18 |
| 64.71 | ||
| 65.14 |
- 分析: 表格显示,随着训练数据集规模的增加,
ImageReward的偏好准确率 (Preference Acc.) 逐渐提高。例如,当使用BLIP作为主干网络时,训练集从 1k 增加到 8k,准确率从 63.07% 稳步提高到 65.14%。这证明了更多高质量的标注数据对于ImageReward性能的提升至关重要。
6.1.7. 消融研究:奖励模型主干网络 (Ablation Study: RM backbone)
该部分对比了不同主干网络对 ImageReward 性能的影响。
以下是原文 Table 2b 的结果 (同上):
- 分析: 对比
CLIP和BLIP作为主干网络的表现,即使CLIP使用了相对更大的训练数据(4k 和 8k),其偏好准确率仍低于BLIP。例如,CLIP在 8k 数据集上达到 62.98%,而BLIP在 8k 数据集上达到 65.14%。这归因于BLIP使用的自举 (bootstrapping) 机制以及其图像-接地文本编码器 (image-grounded text encoder) 的架构优势,使其能够更好地捕获图像与文本之间的复杂关系。
6.2. ReFL: 奖励反馈学习改进扩散模型实验结果
6.2.1. 不同 LDM 优化方法的人类评估 (Human evaluation on different LDM optimization methods)
该部分通过人类评估,比较了 ReFL 与其他 LDM 优化方法在真实用户提示和 MT Bench (多任务基准测试) 提示上的表现。
以下是原文 Table 4 的结果:
| Methods | Real User Prompts MT Bench [40] | |
| #Win WinRate | #Win WinRate | |
| SD v1.4 (baseline) [45] 1315 | 718 - | |
| Dataset Filtering [61] 1394 | 55.17 | 735 51.72 |
| Reward Weighted [23] 1075 | 39.52 | 585 43.33 |
| RAFT [13] (iter=1) 1341 | 49.86 | 578 42.31 |
| RAFT (iter=2) 753 | 30.85 | 452 33.02 |
| RAFT (iter=3) 398 | 20.97 | 355 26.19 |
| ReFL (Ours) | 1508 58.79 | 808 58.49 |
- 分析:
ReFL(Ours) 在总胜场数 (#Win) 和胜率 (WinRate) 方面表现最佳。在真实用户提示上,ReFL的胜率达到 58.79%,在MT Bench上为 58.49%。这表明ReFL微调后的模型相对于基线SD v1.4及其它对比方法,更能生成人类偏好的图像。- 对比其他方法:
Dataset Filtering略优于基线SD v1.4。Reward Weighted和RAFT的表现甚至不如基线SD v1.4。特别是RAFT,随着迭代次数增加,其胜率显著下降(从 的 49.86% 降至 的 20.97%),这可能表明其存在过拟合问题。作者解释说,这些方法在更广泛、更复杂的真实用户提示数据集上表现不佳,而它们各自论文中验证的结果可能使用了更受控或简单的合成数据集。
6.2.2. 所有方法之间的胜率 (Win rates between all methods)
Figure 6 提供了一个热力图,直观展示了 ReFL 与其他微调方法之间的胜率:
该图像是一个热力图,展示了不同方法之间的胜率对比。各方法在任务中的表现通过颜色深浅展示,深色表示较高的胜率。图中包括了SD v1.4、Dataset Filtering、Reward Weighted、RAFT-1、RAFT-2、RAFT-3和ReFL等多个方法。
- 分析: 热力图清晰地显示,
ReFL相对于所有其他微调方法(包括SD v1.4、Dataset Filtering、Reward Weighted和RAFT的不同迭代版本)都具有最高的胜率。这进一步有力地证实了ReFL在提升LDM生成图像质量和人类偏好方面的优越性。
6.2.3. 定性比较 (Qualitative comparison)
Figure 7 展示了 ReFL 与其他微调方法在生成图像方面的定性比较:
该图像是图表,展示了不同微调方法在生成图像方面的定性比较。ReFL微调的模型在多个提示下生成的图像更受到偏爱,例如在包含"长尖耳朵"的提示中,只有ReFL生成了正确的耳朵,而其他方法生成的图像要么缺少耳朵,要么表现不准确。
- 分析: 定性结果直观地显示,
ReFL微调后的模型能够生成更符合人类偏好的图像。例如,在包含 "long pointy ears" (长尖耳朵) 的提示中,只有ReFL生成了具有正确形态的耳朵,而其他模型的生成图像要么缺少耳朵,要么表现不准确。这表明ReFL不仅在定量指标上表现优异,在理解和实现复杂文本提示的细节方面也具有显著优势,能够更好地解决生成模型中的“身体问题”等挑战。
6.3. 其他分析
-
ImageReward 与其他奖励模型 (
HPS,PickScore) 的比较: 以下是原文 Table 5 和 Table 6 的结果:Model Preference Acc. @1 Recall @2 @4 @1 Filter @2 @4 HPS 60.79 39.89 58.76 83.29 47.17 65.50 84.10 PickScore 62.78 38.27 63.07 84.10 46.36 65.77 84.91 ImageReward (Ours) 65.14 39.62 63.07 90.84 49.06 70.89 88.95 Methods Real User Prompts Multi-task Benchmark[40] Human Eval. Image Human Eval. Image # Win WinRate Reward | # Win WinRate Reward SD v1.4 (baseline) 399 - 0.1058 459 - 0.1859 Bo64 HPS 572 67.24 0.6274 662 69.15 0.6788 PickScore 620 72.16 0.7033 773 72.73 0.7579 ImageReward (Ours) 676 73.33 1.3374 824 74.42 1.4098 ReFL PickScore HPS 428 52.86 0.4749 426 52.86 0.4646 472 56.91 0.4618 454 55.09 0.4908 ImageReward (Ours) 512 58.38 0.6072 492 58.67 0.4822 - 分析:
ImageReward在Preference Acc.,Recall@k和Filter@k方面均优于HPS和PickScore。在人类评估中,无论是“Bo64” (Best of 64 Images,从 64 张图像中选择最佳) 还是ReFL模式下,ImageReward都能带来最高的胜场数和胜率。这表明ImageReward在编码人类偏好方面具有更强的能力,且其反馈能更有效地引导LDM优化。
- 分析:
-
训练集分布的可视化: Figure 18 展示了
ImageReward和PickScore训练集中的提示分布,通过t-SNE可视化:
该图像是一个散点图,展示了 ImageReward 和 PickScore 训练集中的数据点,通过 t-SNE 方法可视化。图中的蓝色点代表 ImageReward 训练集,橙色点代表 Pick-a-Pic 训练集,两者在二维空间中的分布情况显示了其特征差异。- 分析: 图中显示
ImageReward的训练集分布比PickScore更均匀。这暗示ImageReward的训练数据在特征空间中覆盖了更广泛的提示类型,有助于其成为更通用的奖励模型。
- 分析: 图中显示
7. 总结与思考
7.1. 结论总结
本文成功地提出了 ImageReward 和 ReFL,为文本到图像 (Text-to-Image, T2I) 生成领域带来了全面的解决方案,以更好地学习和评估人类偏好。
ImageReward: 作为第一个通用目的的 T2I 人类偏好奖励模型 (Reward Model, RM),它通过一个系统化且严谨的人类标注流水线构建,收集了 13.7 万条专家比较数据。在人类评估中,ImageReward在理解人类偏好方面显著超越了CLIP、Aesthetic和BLIP等现有评分模型和指标,展现出更高的偏好准确率、召回率和可区分性,成为一个有前景的自动评估指标。ReFL(Reward Feedback Learning): 在ImageReward的基础上,本文提出了一种创新的直接调优算法ReFL,用于优化扩散模型 (diffusion models)。ReFL巧妙地利用了ImageReward在去噪过程后期提供可靠反馈的洞察,克服了扩散模型无法提供似然 (likelihood) 的挑战,实现了将人类偏好信号直接反向传播到生成模型。- 综合成效: 自动评估和人类评估结果均强有力地支持了
ReFL的优势,表明它能有效缓解 T2I 生成中常见的文本-图像对齐不足、身体问题、美学不佳以及毒性和偏见等问题,从而使 T2I 生成更符合人类价值观和偏好。所有代码和数据集已开源,促进了该领域的研究。
7.2. 局限性与未来工作
- 标注规模、多样性和质量 (Annotation scale, diversity, and quality): 尽管已收集了 13.7 万条专家比较数据,但作者承认更大规模和更多样性的标注数据集仍有潜力进一步提升奖励模型性能。目前的提示主要来自
DiffusionDB,尽管具有代表性,但仍可能存在一些偏见。未来可探索更丰富的提示分布。此外,目前的标注采用单人标注加质检策略,未来多方一致性标注 (multi-person fitting annotation) 可能带来更高的一致性。 - 奖励模型训练技术 (RM training techniques): 论文指出奖励模型训练中存在过拟合问题,虽然冻结部分
transformer层有所帮助,但更先进的参数高效调优 (parameter-efficient tuning) 技术 (如Prefix-tuning,P-tuning) 可能可以进一步改善这个问题。同时,使用更强大和大型的文本-图像主干网络 (backbone) 模型(如BLIP相对于CLIP的提升所示)有望带来额外的性能提升。 - 利用奖励模型改进生成模型 (Using RM to improve generative models): 尽管
ReFL作为一种有效的直接优化LDMs的方法,但它仍是原始RLHF算法的一种近似。未来需要开发具有坚实理论基础、更无偏且高效的反馈学习算法,以实现更好的人类对齐,从而更根本地提升生成模型性能。
7.3. 个人启发与批判
- 个人启发:
RLHF跨模态迁移的强大潜力: 本文成功地将RLHF这一在NLP领域取得巨大成功的范式,创新性地迁移并应用于T2I领域。这证明了RLHF在解决生成模型“对齐问题”方面的普适性和强大潜力,为其他跨模态生成任务(如文本到视频、文本到 3D)提供了重要的研究方向和方法论参考。- 高质量数据与系统化标注的重要性:
ImageReward的成功很大程度上归功于其精心设计、系统化且大规模的人类标注流水线。这再次强调了在 AI 领域,不仅仅是模型和算法,高质量、结构化的数据同样是核心驱动力。对于那些难以通过传统指标量化的复杂人类偏好,精细的人工标注仍然是不可替代的基础。 - 对模型内在机制的洞察力:
ReFL算法的诞生源于对扩散模型去噪过程的深入洞察——即ImageReward在去噪后期即可提供可靠的质量反馈。这种对模型工作原理的深刻理解,使得研究者能够创造性地绕过LDM缺乏似然的局限,设计出直接的优化方案。这提示我们,理解模型比盲目应用方法更为重要。 - “功能词”对提示工程的启示: 论文对提示中“功能词”影响的分析,为
prompt engineering(提示工程) 提供了新的视角。它揭示了用户在与生成模型交互时,不仅关注内容和风格,还会使用特定词汇来引导模型生成更高质量的输出。这可以促使未来模型更好地理解和响应这些“隐藏”的用户意图。
- 批判:
- 人类偏好的主观性与多样性未完全解决: 尽管
ImageReward努力编码人类偏好,但“人类偏好”本身是高度主观、动态且多样化的。论文的专家标注可能代表了某一群体或地域的偏好,但难以完全覆盖全球用户的多样化审美和文化背景。一个单一的奖励模型在面对极端多样化的用户群体时,其通用性可能会受到挑战。未来可能需要个性化的奖励模型或多模态、多文化背景的奖励模型。 - 毒性和偏见的微妙性: 论文在标注阶段识别毒性和偏见,并尝试通过奖励模型进行惩罚。然而,有害内容往往具有语境性和文化敏感性。例如,某些艺术表现形式可能被误判为“有毒”。奖励模型在检测和缓解这些问题时,可能存在过度泛化或漏报的风险,需要更精细的机制来平衡内容安全与艺术表达自由。
- 计算成本与训练效率的权衡: 尽管
ReFL避免了生成-过滤的低效,但Reward Model自身的推理成本以及ReFL训练中梯度反向传播到LDM的计算量仍然不小。对于超大规模的LDM和海量用户提示,其训练的计算资源需求可能仍然是一个瓶颈。进一步的效率优化是必要的。 ReFL在复杂控制任务中的泛化能力:ReFL在提高图像整体质量和文本对齐方面表现出色,但在需要更精细、复杂控制的生成任务中(例如,精确控制物体位置、多物体交互、特定物理定律遵守等),其效果和稳定性仍需进一步验证。这些任务可能需要更复杂的奖励函数或更针对性的优化策略。- 基线模型对比的公平性问题: 论文指出
RAFT和Reward Weighted等基线方法在真实用户提示上表现不佳,甚至不如基线SD v1.4。这引发了一个疑问:是否这些基线在它们原始论文中使用的受控数据集上表现优异,但在更开放、复杂的DiffusionDB数据集上泛化能力不足?这提示我们,评估生成模型时,使用更具挑战性和代表性的真实用户数据至关重要,同时也需要更深入分析基线模型在不同数据分布下的行为。
- 人类偏好的主观性与多样性未完全解决: 尽管
相似论文推荐
基于向量语义检索推荐的相关论文。