Personalized Generation In Large Model Era: A Survey
TL;DR 精炼摘要
这篇综述首次全面调查了个性化生成(PGen)在大型模型时代的发展,概念化了PGen的关键组成、核心目标和工作流程。提出的多层次分类法深入评审了技术进展、数据集和评估指标,并展望了PGen的应用及未来挑战,促进跨学科合作。
摘要
In the era of large models, content generation is gradually shifting to Personalized Generation (PGen), tailoring content to individual preferences and needs. This paper presents the first comprehensive survey on PGen, investigating existing research in this rapidly growing field. We conceptualize PGen from a unified perspective, systematically formalizing its key components, core objectives, and abstract workflows. Based on this unified perspective, we propose a multi-level taxonomy, offering an in-depth review of technical advancements, commonly used datasets, and evaluation metrics across multiple modalities, personalized contexts, and tasks. Moreover, we envision the potential applications of PGen and highlight open challenges and promising directions for future exploration. By bridging PGen research across multiple modalities, this survey serves as a valuable resource for fostering knowledge sharing and interdisciplinary collaboration, ultimately contributing to a more personalized digital landscape.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
个性化生成在大模型时代:一项综述 (Personalized Generation In Large Model Era: A Survey)
1.2. 作者
Yiyan Xu, Jinghao Zhang, Alireza Salemi, Xinting Hu, Wenjie Wang, Fuli Feng, Hamed Zamani, Xiangnan He, Tat-Seng Chua。 作者来自多个知名研究机构:中国科学技术大学、中国科学院大学、马萨诸塞大学阿默斯特分校、南洋理工大学、新加坡国立大学。
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台。arXiv 是一个开放获取的预印本服务器,主要收录物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和系统科学以及经济学领域的学术论文。在计算机科学领域,arXiv 是研究人员分享最新研究成果和进行同行评审前讨论的重要平台。
1.4. 发表年份
2025年
1.5. 摘要
在大模型时代,内容生成正逐渐向个性化生成(PGen)转变,旨在根据个人偏好和需求定制内容。这篇论文首次对 PGen 进行了全面的综述,调查了这一快速发展领域中的现有研究。论文从统一的视角概念化了 PGen,系统地形式化了其关键组件、核心目标和抽象工作流程。基于这一统一视角,论文提出了一个多层次分类法,对跨多种模态、个性化上下文和任务的技术进展、常用数据集和评估指标进行了深入回顾。此外,论文展望了 PGen 的潜在应用,并强调了未来探索中存在的开放挑战和有前景的方向。通过连接跨多种模态的 PGen 研究,这篇综述为促进知识共享和跨学科合作提供了宝贵资源,最终有助于构建一个更加个性化的数字景观。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2503.02614v2 PDF 链接: https://arxiv.org/pdf/2503.02614v2.pdf 发布状态:预印本 (v2 版本于 2025-03-04T13:34:19.000Z 发布)。
2. 整体概括
2.1. 研究背景与动机
核心问题: 随着大型生成模型 (Large Generative Models) 的飞速发展,内容生成正从“一刀切”的通用生成转向“个性化生成” (Personalized Generation, PGen)。PGen 的目标是根据用户的个人偏好和特定需求定制内容,从而在电商、广告、AI 助手等多个领域提供更具吸引力和沉浸感的体验。然而,尽管 PGen 领域取得了显著进展,但相关的研究工作在不同社区(如自然语言处理 (NLP)、计算机视觉 (CV)、信息检索 (IR))中各自独立发展,缺乏一个统一的框架来全面概述 PGen 研究。现有的综述要么以模型为中心,要么以任务为中心,只能提供部分总结。
为什么重要:
- 增强用户体验: 个性化内容能更好地满足用户需求,提升用户满意度和参与度。
- 促进跨社区交流: 缺乏统一框架阻碍了不同研究社区之间的沟通、知识共享和协作,而这对于推动 PGen 领域的发展至关重要。
- 技术挑战: 不同模态(文本、图像、视频、音频、3D)的数据结构和挑战各异,导致技术路线存在差异,难以统一研究。
切入点或创新思路: 为了解决这些挑战,这篇综述首次尝试从高层次、模态无关的视角重新审视 PGen。论文提出一个统一的、以用户为中心的视角来概念化 PGen,系统地形式化其关键组件、核心目标和抽象工作流程。在此基础上,构建了一个多层次分类法,全面回顾了跨模态、个性化上下文和任务的技术进展、数据集和评估指标。
2.2. 核心贡献/主要发现
- 统一的用户中心 PGen 视角: 论文首次提出了一个统一的、以用户为中心的个性化生成 (PGen) 视角,形式化了其关键组件、核心目标和通用工作流程,将不同模态的研究整合到一个整体框架中。
- 多层次 PGen 分类法: 基于统一视角,论文构建了一个新颖的多层次分类法,系统地回顾了 PGen 在多种模态(文本、图像、视频、音频、3D、跨模态)、个性化上下文和任务中的技术进展、常用数据集和评估指标。
- PGen 潜在应用展望: 论文展望了 PGen 在增强以用户为中心的服务方面的潜在应用,重点关注内容创建和内容交付过程。
- 开放挑战与未来方向: 论文概述了 PGen 领域未来研究需要解决的关键开放问题,包括技术挑战(可扩展性与效率、审慎推理、用户偏好演变、缓解过滤气泡、用户数据管理、多模态个性化、生成与检索的协同)、基准和指标问题,以及可信赖性问题(隐私、公平性与偏见、安全性)。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文综述的个性化生成 (PGen) 领域,需要掌握以下一些基础概念:
- 大型生成模型 (Large Generative Models, LGMs): 指的是参数量巨大、在海量数据上训练的深度学习模型,能够生成高质量、多样化的内容。常见的有:
- 大型语言模型 (Large Language Models, LLMs): 如 GPT-4、Gemini 等,主要用于文本生成,能够理解和生成人类语言。
- 多模态大型语言模型 (Multimodal Large Language Models, MLLMs): 扩展了 LLMs 的能力,使其能够处理和生成多种模态的数据,例如同时理解文本和图像,并生成文本或图像内容。
- 扩散模型 (Diffusion Models, DMs): 一类生成模型,通过逐步去除噪声来生成数据,在图像、视频、音频生成方面取得了显著成功,如 Stable Diffusion。
- 个性化生成 (Personalized Generation, PGen): 基于用户的个性化信息(如偏好、历史行为、个人特征等),利用生成模型生成定制化内容的过程。其核心在于将用户特有的信号融入生成过程。
- 模态 (Modality): 指数据或信息的表现形式。在本文中,主要涉及文本、图像、视频、音频和三维 (3D) 等模态。
- 个性化上下文 (Personalized Contexts): 能够反映用户个性化信息的数据维度,包括:
- 用户画像 (User Profiles): 用户的统计学和个人属性,如年龄、性别、职业、地理位置等。
- 用户文档 (User Documents): 用户创建的文本内容,如评论、电子邮件、社交媒体帖子等,反映其创作偏好。
- 用户行为 (User Behaviors): 用户在系统中的交互记录,如搜索、点击、点赞、评论、观看、分享、购买等,揭示隐式偏好。
- 个人面部/身体 (Personal Face/Body): 用户的面部和身体特征,包括静态特征(面部结构、体型)和动态特征(表情、手势、动作)。广泛用于肖像生成、虚拟试穿、3D 建模等任务。
- 个性化主体 (Personalized Subjects): 用户特定的概念或实体,如宠物、个人物品、收藏品等,反映独特的品味。
- 用户建模 (User Modeling): 根据用户的个性化上下文和多模态指令,提取、学习和表示用户偏好和特征的过程。
- 表征学习 (Representation learning): 将输入数据编码成密集的嵌入向量 (embeddings) 或离散表示。
- 提示工程 (Prompt engineering): 设计特定任务的提示词 (prompts) 来引导生成模型理解和利用用户特定信息。
- 检索增强生成 (Retrieval-Augmented Generation, RAG): 通过从外部知识库中检索相关信息来增强生成模型的输出,常用于结合用户特定数据。
- 指导机制 (Guidance mechanism): 在生成模型中融入个性化信号的方式。
- 指令指导 (Instruction guidance): 通过上下文学习 (in-context learning) 或指令微调 (instruction tuning) 等方式,使模型遵循用户的显式提示和指令。
- 结构指导 (Structural guidance): 通过修改模型架构,例如引入适配器 (adapters) 或交叉注意力机制 (cross-attention mechanisms),来嵌入个性化信息。
- 优化策略 (Optimization Strategy): 调整大型生成模型以实现个性化生成的方法。
- 免微调方法 (Tuning-free methods): 不修改模型参数,通过模型融合或多轮交互收集用户反馈进行精炼。
- 有监督微调 (Supervised fine-tuning): 使用显式监督信号优化模型参数,包括全量微调 (full fine-tuning) 或参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)。
- 基于偏好的优化 (Preference-based optimization): 整合用户偏好数据更新模型参数,例如通过人类反馈强化学习 (Reinforcement Learning with Human Feedback, RLHF) 或直接偏好优化 (Direct Preference Optimization, DPO)。
3.2. 前人工作
论文在引言部分简要提到了现有与个性化生成相关的综述,并指出了它们的局限性。这些前人工作主要分为两类:
-
模型中心综述 (Model-centric surveys):
- 多模态大型语言模型 (Multimodal Large Language Models, MLLMs) (Wu et al., 2024b)
- 大型语言模型 (Large Language Models, LLMs) (Zhang et al., 2024l; Chen et al., 2024e; Li et al., 2024j; Liu et al., 2025b; Li et al., 2025a)
- 扩散模型 (Diffusion Models, DMs) (Zhang et al., 2024g) 这些综述关注特定生成模型的进展,但在个性化应用方面可能不够全面,也未跨越不同模态进行统一讨论。
-
任务中心综述 (Task-centric surveys):
- 对话生成 (dialogue generation) (Chen et al., 2024f)
- 角色扮演 (roleplaying) (Chen et al., 2024d; Tseng et al., 2024)
- 生成式推荐 (generative recommendation) (Ayemowa et al., 2024) 这些综述关注特定应用中的个性化技术,但缺乏对 PGen 整体框架的系统性总结,并且可能只涉及单一模态或有限的模态组合。
补充关键背景知识: 由于论文综述的是一个新兴的交叉领域,理解其工作需要对大模型、生成模型以及个性化推荐等领域的一些核心概念有初步认识。
-
Transformer 架构: 许多大型语言模型和扩散模型都基于 Transformer 架构。Transformer 引入了 注意力机制 (Attention Mechanism),尤其是 自注意力 (Self-Attention),使得模型在处理序列数据时能够捕捉长距离依赖关系。
- 自注意力机制 (Self-Attention Mechanism):
自注意力机制允许模型在处理序列中的某个元素时,能够关注到序列中的所有其他元素,并计算它们之间的相关性,从而为当前元素加权。其核心计算公式如下:
其中:
- (Query):查询矩阵,由输入序列中的每个元素转换而来,表示当前元素需要关注的信息。
- (Key):键矩阵,由输入序列中的每个元素转换而来,表示每个元素能够提供的信息。
- (Value):值矩阵,由输入序列中的每个元素转换而来,表示每个元素实际包含的内容。
- :键向量的维度,用于缩放点积结果,防止在维度较高时内积过大,导致 softmax 函数梯度过小。
- : 查询和键的点积,表示查询与每个键的相似度。
- : 归一化函数,将相似度分数转换为权重,确保所有权重的和为1。
- : 加权求和,将值矩阵 中的信息根据计算出的注意力权重进行聚合。 这种机制使得模型能够动态地根据上下文调整对不同部分的关注度,是现代大型模型成功的关键。在个性化生成中,注意力机制可以用于将用户偏好信息 (Query) 与待生成内容的各种特征 (Key) 进行关联,从而引导生成过程。
- 自注意力机制 (Self-Attention Mechanism):
自注意力机制允许模型在处理序列中的某个元素时,能够关注到序列中的所有其他元素,并计算它们之间的相关性,从而为当前元素加权。其核心计算公式如下:
其中:
-
生成对抗网络 (Generative Adversarial Networks, GANs): 早期在图像生成领域取得巨大成功的模型,由一个生成器 (Generator) 和一个判别器 (Discriminator) 构成,两者通过对抗性训练来提升生成质量。生成器试图生成逼真的数据以欺骗判别器,判别器则试图区分真实数据和生成数据。虽然扩散模型现在更为流行,但 GANs 在虚拟试穿、人脸生成等领域仍有应用。
3.3. 技术演进
个性化生成领域的技术演进可以概括为从传统推荐系统向大型生成模型的融合。
- 早期:传统推荐系统 (Traditional Recommender Systems, RecSys): 侧重于基于用户行为和物品属性进行内容筛选和推荐,通常不涉及内容的“生成”。个性化主要体现在“推荐什么”。
- 中期:生成模型与个性化初步结合: 随着 GANs、变分自编码器 (Variational Autoencoders, VAEs) 等生成模型的兴起,开始出现一些结合用户偏好生成特定内容(如评论、新闻标题)的研究。这一阶段的个性化更多是浅层的或针对单一模态。
- 近期:大模型时代的个性化生成 (PGen in Large Model Era):
- 基础模型 (Foundation Models) 的崛起: LLMs、MLLMs 和 DMs 等大型基础模型展现出强大的内容理解和生成能力。这使得 PGen 能够生成更高质量、更复杂的个性化内容。
- 多模态融合: MLLMs 的发展使得 PGen 能够处理和生成跨模态的个性化内容,例如根据文本指令和个人图像生成个性化视频。
- 精细化用户建模: 引入表征学习、提示工程、RAG 等技术,能够更有效地从多样化的用户数据中提取个性化信号。
- 灵活的指导机制与优化策略: 通过上下文学习、指令微调、适配器、RLHF 和 DPO 等机制,将个性化信息深度融入到大模型的生成过程中。
3.4. 差异化分析
本文的综述工作与现有工作的核心区别在于其统一的、跨模态的视角。
-
现有综述:
- 模型中心: 专注于特定模型(如 LLMs、DMs)的个性化应用。
- 任务中心: 专注于特定应用(如对话、推荐)的个性化技术。 这些综述的问题在于它们缺乏将 PGen 作为一个独立且横跨多模态的领域进行系统性整合和形式化,未能提供一个全面的、全局性的理解。
-
本文工作:
-
统一框架: 本文首次从用户中心视角出发,概念化 PGen 的关键组件、核心目标和通用工作流程,试图搭建一个通用框架来理解所有 PGen 相关的研究。
-
多层次分类法: 提出了一个多层次分类法,系统地将 PGen 研究按照模态(文本、图像、视频、音频、3D、跨模态)、个性化上下文(用户行为、用户文档、用户画像、个人面部/身体、个性化主体)和任务进行分类。
-
跨模态桥接: 论文旨在弥合不同研究社区(NLP、CV、IR 等)之间的鸿沟,促进知识共享和跨学科合作,这对于一个快速发展且高度交叉的领域至关重要。
简而言之,本文的创新点在于提供了一个宏观、系统且模态无关的 PGen 视图,而现有工作往往是微观、局部且模态特定的。这使得本文能够更好地识别 PGen 领域的共性挑战、潜在机遇以及未来的发展方向。
-
4. 方法论
本文作为一篇综述论文,其“方法论”并非指提出一个新的技术模型,而是指其组织和分析现有研究的框架和视角。论文的核心方法论是建立一个统一的用户中心视角来理解个性化生成 (PGen),并在此基础上构建一个多层次分类法来系统地回顾 PGen 领域的现有工作。
4.1. 方法原理
论文方法论的核心思想是,无论具体模态和任务如何,个性化生成都围绕着用户展开,并通过用户建模提取个性化信号,再通过生成建模来生成符合用户需求和偏好的内容。这提供了一个通用、高层次的抽象,能够将看似分散的研究整合起来。
4.1.1. PGen 任务形式化 (Task Formulation)
PGen 的任务在于利用生成模型合成针对个人偏好和特定需求定制的内容。它依赖于两个基本的用户输入:
-
个性化上下文 (Personalized contexts): 封装了用户偏好。
-
用户多模态指令 (Users' multimodal instructions): 包括文本提示 (textual prompts)、语音命令 (voice commands) 和其他模态特定输入,明确表达用户对内容的需求。
生成模型从这些多样化的个性化上下文中学习用户偏好和个人特征,并遵循用户的多模态指令,在不同模态中生成定制内容。
个性化上下文的维度包括:
-
用户画像 (User profiles): 与特定用户相关的统计学和个人属性集合,例如年龄、性别、职业和位置。 -
用户文档 (User documents): 用户创建的文本内容,例如评论、电子邮件和社交媒体帖子,反映个人创作偏好。 -
用户行为 (User behaviors): 用户互动过程中捕捉到的用户行为,例如搜索、点击、点赞、评论、观看、分享和购买。 -
个人面部/身体 (Personal face/body): 个人的面部和身体特征,包括静态特征(例如面部结构和体型)和动态特征(例如表情、手势和动作)。这些广泛用于肖像生成、时尚虚拟试穿和 3D 建模等任务。 -
个性化主体 (Personalized subjects): 用户特定的概念或实体,例如宠物、个人物品和最喜欢的对象,反映独特的品味。通过整合个性化上下文和用户的多模态指令,生成模型可以创建高度定制化的内容,使其与个人偏好紧密对齐并满足特定需求。
4.1.2. PGen 目标 (Objectives)
尽管 PGen 在每种模态中都面临独特的数据结构、特定挑战和不同任务,但有三个核心目标和评估维度是跨模态一致的:
-
高质量 (High quality): 确保生成内容符合高标准的连贯性、相关性和美学。 -
指令对齐 (Instruction alignment): 要求生成内容准确遵循用户的多模态指令并有效满足其需求。 -
个性化 (Personalization): 保证生成内容与个性化上下文对齐,并迎合特定的用户偏好。论文指出,文本生成已持续实现高质量输出,但在图像、视频、音频和 3D 生成等其他模态中仍存在挑战,生成的内容有时可能显得混乱或不连贯。在所有模态中保持高质量标准是实现成功个性化生成的基础。此外,在新闻、法律、政策和专业知识等事实准确性尤为重要的领域,生成模型必须优先考虑真实性,以确保提供给用户内容的可靠性和可信赖性。
4.2. 核心方法详解 (逐层深入)
论文将 PGen 的工作流程抽象为两个主要过程:用户建模 (User Modeling) 和 生成建模 (Generative Modeling)。
4.2.1. 用户建模 (User Modeling)
为了有效捕捉用户偏好和特定内容需求,用户建模基于个性化上下文和用户的多模态指令,主要采用三种关键技术:
-
表征学习 (Representation learning):
- 原理: 将用户的个性化上下文(如历史行为数据、文本文档)和多模态指令编码成密集的向量嵌入 (dense embeddings) 或总结成离散表示(如文本)。
- 目的: 这种编码将异构的用户信息转化为模型可以理解和处理的统一格式,以便后续的生成模型能够利用这些信息。
- 示例:
- Ruiz et al. (2023) 和 Tang et al. (2024b) 将用户偏好编码为嵌入向量。
- Shen et al. (2024b) 将用户的历史互动图像转换为文本描述,这是一种将图像信息总结为离散文本表示的方法。
-
提示工程 (Prompt engineering):
- 原理: 涉及设计特定任务的提示词 (task-specific prompts),以结构化方式向生成模型传递用户特定信息。
- 目的: 引导生成模型理解用户意图和偏好,使其生成的内容更符合个性化需求。通过精心设计的提示,可以激活模型中与用户偏好相关的知识。
- 示例:
- Chen et al. (2024g) 和 Li et al. (2025b) 使用提示工程来指导 LLMs 进行个性化文本生成。
-
检索增强生成 (Retrieval-augmented generation, RAG):
- 原理: 通过过滤掉不相关的信息并整合外部相关数据来丰富用户特定信息。
- 目的: RAG 允许生成模型访问和利用外部知识库中的用户特定信息,从而提高生成内容的准确性、相关性和个性化水平,尤其是在处理需要最新或事实性信息的场景时。
- 示例:
-
Salemi and Zamani (2024) 和 Mysore et al. (2024) 将 RAG 用于个性化文本生成,从用户历史文档中检索信息以指导生成。
通过结合这些技术,用户建模为 PGen 奠定了坚实基础,提取了个性化信号以指导生成建模过程中的内容个性化。
-
4.2.2. 生成建模 (Generative Modeling)
为有效生成个性化内容,生成建模遵循一个结构化的三步过程:
-
步骤 1:基础模型 (Foundation model)
- 原理: 在大模型时代,大型语言模型 (LLMs)、多模态大型语言模型 (MLLMs) 和扩散模型 (DMs) 是内容生成的骨干。
- 目的: 根据目标模态、任务要求和用户特定数据选择合适的基础模型是实现准确和个性化内容生成的关键。不同的基础模型在处理特定模态和任务时具有各自的优势。
- 示例:
- 文本生成通常使用 LLMs。
- 图像和视频生成常用 DMs。
- 需要跨模态理解和生成的任务可能使用 MLLMs。
-
步骤 2:指导机制 (Guidance mechanism)
- 原理: 为了有效整合个性化信号,采用两种主要的指导机制:指令指导 (instruction guidance) 和结构指导 (structural guidance)。
- 指令指导 (Instruction guidance):
- 原理: 确保模型遵循显式用户提示和指令。
- 技术: 通过
上下文学习 (in-context learning)和指令微调 (instruction tuning)等技术实现。- 上下文学习 (in-context learning): (Xu et al., 2023b; Chen et al., 2024g; Yang et al., 2023c) 通过在输入中提供示例或指令,引导模型在不修改参数的情况下生成符合要求的内容。
- 指令微调 (instruction tuning): (Pi et al., 2024; Xu et al. 2024c) 通过在大量指令-响应对上对模型进行微调,使其能够更好地理解和遵循各种指令。
- 结构指导 (Structural guidance):
- 原理: 通过修改模型架构来嵌入个性化信息。
- 技术: 引入额外的模块,例如
适配器 (adapters)和交叉注意力机制 (cross-attention mechanisms)。- 适配器 (adapters): (Ye et al., 2023) 在预训练模型中添加小型、可训练的模块,以适应特定任务和个性化信息,而无需修改整个模型。
- 交叉注意力机制 (cross-attention mechanisms): (Wei et al., 2023) 允许生成模型在生成内容时,将用户个性化信息(作为查询)与模型内部表示(作为键和值)进行交互,从而将个性化信息融入生成过程。
-
步骤 3:优化策略 (Optimization Strategy)
- 原理: 赋予大型生成模型个性化生成能力涉及三种主要的优化策略。
- 免微调方法 (Tuning-free methods):
- 原理: 利用预训练模型进行个性化生成,而不修改模型参数。
- 技术: 通常依赖于
模型融合 (model fusion)来组合多个预训练模型 (Ding et al., 2024),或采用交互式生成过程 (interactive generation processes),收集实时用户反馈进行多轮精炼 (Von Rütte et al., 2023),以确保与个人偏好对齐。
- 有监督微调 (Supervised fine-tuning):
- 原理: 使用显式监督信号优化模型参数。
- 技术: 包括
全量微调 (full fine-tuning)(Xu et al., 2024b; Ruiz et al., 2023) 或参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)技术 (Wu et al., 2024f; Tan et al., 2024; Zhang et al., 2024b)。PEFT 方法通过仅修改少量参数或引入小型适配器来提高效率。
- 基于偏好的优化 (Preference-based optimization):
-
原理: 结合用户偏好数据来更新模型参数。
-
技术: 主要方法是
人类反馈强化学习 (Reinforcement Learning with Human Feedback, RLHF)(Li et al., 2024g; Zhang, 2024),它使用显式奖励模型来指导优化。另一种方法是直接偏好优化 (Direct Preference Optimization, DPO)(Zhang et al., 2024c; Huang et al., 2024b),它通过直接将模型参数与成对的用户偏好对齐来提供更简化的解决方案。通过整合这些先进的技术和策略,PGen 工作流程不仅确保了对多样化个性化上下文和用户指令的适应性,还突显了大型生成模型不断发展的格局,为 PGen 提供了可扩展的解决方案。
-
4.3. 多层次分类法 (Multi-level Taxonomy)
论文基于上述统一视角,提出了一个多层次分类法来系统回顾 PGen 研究。这个分类法首先按模态(文本、图像、视频、音频、3D、跨模态生成)进行分类,然后在每种模态内部,进一步根据个性化上下文(用户行为、用户文档、用户画像、个性化主体、个人面部/身体)来分类研究,并考察相应的任务和技术。
这个分类法的结构体现在 Table 1 中,详细列出了不同模态下,基于不同个性化上下文所执行的任务和代表性工作。Table 2 总结了常用的数据集,而 Table 3 和 Table 4 则提供了评估指标。这种结构化的组织方式是论文方法论的直接体现,旨在为 PGen 领域的理解和未来研究提供清晰的路线图。
5. 实验设置
本文作为一篇综述论文,并没有进行自己的实验,而是对现有 PGen 领域的实验设置进行了归纳和总结。这些总结主要体现在论文的第 3 节 "Personalized Generation Across Modalities" 中,具体包括对不同模态下数据集、评估指标和典型任务的概述。
5.1. 数据集
论文在 Table 2 中对个性化生成常用的数据集进行了分类总结。以下是该表格的详细内容:
以下是原文 Table 2 的结果:
| Modality | Personalized Contexts | Tasks | Datasets |
| Text (Section 3.1) | User behaviors | Recommendation | Amazon (Hou et al., 2024; Ni et al., 2019), MovieLens (Harper and Konstan, 2015), MIND (Wu et al., 2020a), Goodreads (Wan and McAuley, 2018; Wan et al., 2019) |
| Information seeking | SE-PQA (Kasela et al., 2024), PWSC (Eugene et al., 2013), AOL4PS (Guo et al., 2021) | ||
| User documents | Writing Assistant | LaMP (Salemi et al., 2024b), LongLaMP (Kumar et al., 2024a), PLAB (Alhafni et al., 2024) | |
| User profiles | Dialogue System | LiveChat (Gao et al., 2023), FoCus (Jang et al., 2021), Pchatbot (Qian et al., 2021) | |
| User Simulation | OpinionsQA (Santurkar et al., 2023), 3 RoleBench (Wang et al., 2024f), HPD (Chen et al., 2023c) | ||
| Image (Section 3.2) | User behaviors | General-purpose generation | Pinterest (Geng et al., 2015), MovieLens (Harper and Konstan, 2015), MIND (Wu et al., 2020b), POG (Chen et al., 2019), PASTA (Nabati et al. 2024), FABRIC (Von Rütte et al., 2023), DialPrompt (Liu et al., 2024e), PIP (Chen et al., 2024), U-sticker (Chee et al., 2025) |
| Fashion design | POG (Chen et al., 2019), Polyvore-U (Lu et al., 2019) | ||
| User profiles | E-commerce product image Fashion design | CG4CTR (Yang et al., 2024a) | |
| E-commerce product image | LVA-COG (Forouzandehmehr et al., 2023) | ||
| Personalized subjects | Subject-driven T2I generation | Dreambench (Ruiz et al., 2023), Dreambench++ (Peng et al., 2024), CustomConcept101 (Kumari et al., 2023), ConceptBed (Patel et al., 2024a), Textual Inverison (Gal et al., 2023), ViCo (Hao et al., 2023), DreamMatcher (Nam et al., 2024), Break-A-Scene (Avrahami et al., 2023), Mix-of-Show (Gu et al., 2024), Concept Conductor (Yao et al., 2024), LoRA-Composer (Yang et al., 2024d), StyleDrop (Sohn et al., 2023) | |
| Personal face/body | Face generation | CelebA-HQ (Karras et al., 2018), FFHQ (Karras et al., 2021), SFHQ (Beniaguv, 2022), LV-MHP-v2 (Zhaot al., 2018), Stellar (Achliotast al. 2023), AddMe-1.6M (Yue et al., 2025), FFHQ-FastComposer (Xiao et al., 2024a), LAION-Face (Zheng et al., 2022), PPR10K (Liang et al., 2021), LCM-Lookahead (Gal et al., 2024), CelebRef-HQ (Li et al., 2022), CelebV-T (Yu et al, 2023), FaceForensics++ (Rossler et al., 2019), VGGFace2 (Cao et al., 2018) | |
| Virtual try-on | VITON (Han et al., 2018), VITON-HD (Choi et al., 2021), Dress-Code (Morelli et al., 2022), StreetTryOn (Cui et al., 2024a), DeepFashion (Ge et al., 2019), Deepfashion-Multimodal (Jiang et al., 2022b), MPV (Dong et al., 2019a), IGPair (Shen et al., 2024a), SHHQ (Fu et al., 2022) | ||
| Video (Section 3.3) | Personalized subjects | Subject-driven T2V generation | WebVid-10M (Bain et al., 2021), UCF101 (Soomro, 2012), AnimateBench (Zhang et al., 2024i), VideoBooth (Jiang et al., 2024b), StyleCrafter (Liu et al., 2024a), Datasets for subject-driven T2I generation... |
| Personal face/body | ID-preserving T2V generation | ID-Animator (He et al., 2024b), ConsisID (Yuan et al., 2024) | |
| Talking head generation | LRW (Chung and Zisserman, 2017a), VoxCeleb (Nagrani et al., 2020), VoxCeleb2 (Chung et al., 2018), TCD-TIMIT (Harte and Gillen, 2015), LRS2 (Son Chung et al., 2017), HDTF (Zhang et al., 2021b), MEAD (Wang et al., 2020), GRID (Cooke et al., 2006), MultiTalk (Sung-Bin et al., 2024) | ||
| Pose-guided video generation | FashionVideo (Zablotskaia et al., 2019), TikTok (Jafarian and Park, 2021), TED-talks (Siarohin et al., 201), Everybody-dance-now (Chan et al 2019) | ||
| Video virtual try-on | VVT (Dong et al, 2019b), ViViD (Fang et al., 2024b), FashionVideo (Zablotskaia et al., 2019), TikTok (Jafarian and Park, 2021), TikTokDress (Nguyen et al., 2024a) | ||
| 3D (Section 3.4) | Personalized subjects | Image-to-3D generation | Dreambench (Ruiz et al., 2023), Objaverse (Deitke et al., 2023) |
| Personal face/body | 3D face generation | Mystyle (Nitzan et al., 2022), BIWI (Fanelli et al., 2013), VOCASET (Cudeiro et al., 2019) | |
| 3D human pose generation | Human3.6M (Ionescu et al., 2013), 3DPW (Von Marcard et al., 2018), 3DOH50K (Zhang et al., 2020a) | ||
| 3D virtual try-on | BUFF (Zhang et al., 2017), DreamVTON (Xie et al., 2024) | ||
| Audio (Section 3.6) | Personal face | Face-to-speech generation | Voxceleb2 (Chung et al., 2018), LibriTTS (Zen et al., 2019), VGGFace2 (Cao et al., 2018), GRID (Cooke et al., 2006), MultiTalk (Sung-Bin et al., 2024) |
| User behaviors | Music generation | Echo (Bertin-Mahieux et al., 2011), MAESTRO (Hawthorne et al., 2019) | |
| Personalized subjects | Text-to-audio generation | TASBench (Li et al., 2024k), AudioCaps (Kim et al., 2019), AudioLDM (Liu et al., 2023a) | |
| Cross-Modal (Section 3.7) | User behaviors | Robotics | D4RL (Fu et al., 2020), Ravens (Zeng et al., 2021), Habitat-Rearrange (Puig et al., 2023), RoboTHOR (Deitke et al., 2020) |
| User documents | Caption/Comment generation | Com (Lin et al., 2024b), TripAdvisor (Geng et al., 2022), Yelp (Geng et al., 2022), PerVid- | |
| Personalized subjects | Cross-modal dialogue systems | MyVLM (Alaluf et al., 2025), Yo'LLaVA (Nguyen et al., 2024b), MC-LLaVA (An et al., 2024) |
数据集特点总结:
- 多样性: PGen 领域使用的数据集非常多样,涵盖了文本、图像、视频、3D 和音频等多种模态。
- 个性化上下文: 数据集的设计考虑了不同的个性化上下文,例如用户行为(
MovieLens、MIND)、用户文档(LaMP)、用户画像(LiveChat)、个性化主体(Dreambench)和个人面部/身体(FFHQ、VGGFace2)。 - 跨模态: 某些任务(如
Subject-driven T2V generation、Talking head generation)会结合来自不同模态的数据集,甚至会复用其他模态的个性化主体数据集。 - 基准数据集: 许多数据集已经成为各自子领域的标准基准,例如
MovieLens用于推荐,FFHQ用于人脸生成,Human3.6M用于 3D 人体姿态生成。 - 规模: 数据集规模从小型特定任务数据集到大规模通用数据集(如
WebVid-10M)不等,以支持大型模型的训练。
5.2. 评估指标
论文在 Table 3 和 Table 4 中详细列出了个性化生成领域常用的评估指标,并根据模态和任务进行了分类。这些指标主要从 个性化 (Personalization)、指令对齐 (Instruction Alignment) 和 内容质量 (Content Quality) 三个维度进行评估。
以下是原文 Table 3 的结果:
| Text (Section 3.1) | Metrics | Evaluation Dimensions | Representative Works | ||||
| 1. Recommendation | 2 3 | 4 5 | 6 | Overall | BIGRec (Bao et al., 2023), DEALRec (Lin et al., 2024a), AOL4PS (Guo et al., 2021) | ||
| NDCG (Järvelin and Kekäläinen, 2002) | ✓ ✓ | Overall | BIGRec (Bao et al., 2023) | ||||
| 2. Information Seeking | Hit Rate | √ √ | Overall | LLM-Rec (Lyu et al., 2024), AOL4PS (Guo et al., 2021) | |||
| 3. Content Generation | Precision | √ | Overall | LLM-Rec (Lyu et al, 2024), DEALRec (Lin et al, 2024a), AOL4PS (Guo et al., 2021) | |||
| 4. Writing Assistant | Recall | √ | Overall | ||||
| 5. Dialogue System | |||||||
| 6. User Simulation | win-rate | √ | √ | √ | Overall | Personalized RLHF (Li et al., 2024g) | |
| ROUGE (Lin, 2004) | ✓ | Overall | LaMP (Salemi et al., 2024b), RSPG (Salemi et al., 2024a), Hydra (Zhuang et al., 202) | ||||
| BLEU (Papineni et al., 2002) | ✓ | ✓ v | √ Overall | AuthorPred (Li et al., 2023a) | |||
| BERTScore (Zhang et al., 2020b) | ✓ | √ | ✓ | √ Overall | LongLaMP (Kumar et al., 2024a) | ||
| GEMBA (Kocmi and Federmann, 2023) | √ | √ | √ | Overall √ | REST-PG (Salemi et al, 2 | ||
| G-Eval (Liu et l., 2023c) | ✓ | √ √ | Overall | REST-PG (Salemi et al., 2025b) | |||
| ExPerT (Salemi et al., 2025a) | √ | √ | Personalization | ExPerT (Salemi et al., 2025a) | |||
| AuPEL (Wang et al., 2023g) | √ | √ | Personalization | AuPEL (Wang et al., 2023g) | |||
| PERSE (Wang et al., 2024a) | √ ✓ | Personalization | PERSE (Wang et al., 2024a) | ||||
| Image (Section 3.2) | Metrics | 1 2 | 3 4 | 5 | 6 | Evaluation Dimensions | Representative Works |
| 1. General-purpose generation | CLIP-I (Radford et al., 2021) | √ √ | √ | √ | Textual Inversion (Gal et al., 2023), Custom Diffuison (Kumari et al., 2023), DreamBooth (Ruiz et al., 2023) | ||
| 2. Fashion design | DINO-I (Caron et al., 2021; Oquab et al., 2024) | √ | √ √ | Personalization | DreamBooth (Ruiz et al., 2023), BLIP-Diffusion (Li et al. 2024b), ELITE (Wei et al., 2023) | ||
| 3. E-commerce product image | LPIPS (Zhang et al., 2018) | √ √ | √ | √ | Personalization | DreamSteerer (Yu et al., 2024), DiFashion (Xu et al., 2024b), PMG (Shen et al., 2024b) | |
| 4. Subject-driven T2I generation | PSNR (Hore and Ziou, 2010) | √ | Personalization | Grpif ian 0 YCloh u , 2024), SCW-VTON (Han et al., 2024) | |||
| 5. Face generation | SSIM (Wang et al., 2004) | √ | Personalization | DreamSteerer (Yu et al., 2024), PMG (Shen et al., 2024b), OOTDiffusion (Xu et al., 2024d) | |||
| 6. Virtual try-on | MS-SSIM (Wang et al., 2003) | √ | Personalization | DreamSteerer (Yu et al., 2024), Pigeon (Xu et al., 2024c), SieveNet (Jandial et al., 2020) | |||
| DreamSim (Fu et al., 2023) | Personalization | IMPRINT (Song et al., 2024b), MaX4Zero (Orzech et al., 2024) | |||||
| Face similarity (Deng et al., 2019; Schroff et al., 2015; Kim et al, 0Wat al. 8 | Personalization | Infinite-ID (Wu et al., 2025a), PhotoMaker (Li et al., 2024l), ProFusion (Zhou et al, 203) | |||||
| Face detection rate (Deng et al., 2019; Zhang et al., 2016) | Personalization | SeFi-IDE (Li et al. 2024h), Celeb Basis (Yuan e al., 203), +Adapter (Li et al., 202) | |||||
| CLIP-T (Radford et al., 2021) | √ | Instruction Alignment | Textual Inversion (Gal et al., 2023), Custom Diffuison (Kumari et al., 2023), DreamBooth (Ruiz et al., 2023) | ||||
| ImageReward (Xu et al., 2023a) | √ | Instruction Alignment | InstructBooth (Chae et al., 2023), DiffLoRA (Wu et al. 2024f), IMAGDressing-v1 (Shen et al., 2024a) | ||||
| PickScore (Kirstain et al., 2023) | Instruction Alignment | InsBohChaal., 23),FABRIC Rüttl, 2023), Stellar (Achlioptas et al., 2023) | |||||
| HPSv1 (Wu et al., 2023c) | √ | Instruction Alignment | Stellar (Achlioptas et al., 2023) | ||||
| HPSv2 (Wu et al., 2023b) | √ √ | Instruction Alignment | Stellar (Achlioptas et al., 2023) | ||||
| R-precision (Xu et al., 2018) | √ | Instruction Alignment | COTI (Yang et al., 2023b) | ||||
| PAR score (Gani et al., 2024) | V | Instruction Alignment | Vashishtha et al. (2024) | ||||
| FID (Heusel et al., 2017) | √ √ | √ | √ | Content Quality | COTI (Yang et al., 2023b), IMPRINT (Song et al., 2024b), DiFashion (Xu et al., 2024b) | ||
| KID (Bikowski et al., 2018) | √ √ | √ | Content Quality | Custom Diffuison (Kumari et al., 2023), OOTDifffu- sion (Xu et al, 024d), LaDI-VTO(Moelli et al. 203) | |||
| IS (Salimans et al., 2016) | √ | Content Quality | PE-VTON (Zhang et al., 2024d), DF-VTON (Dong et al., 2024), Layout-and-Retouch (Kim et al., 2024b) | ||||
| LAION-Aesthetics (Christoph and Romain, 2022) | √ | √ | Content Quality | BLIP-Diffusion (Li et al., 2024b), UniPortrait (He et al. 2024a) | |||
| TOPIQ (Chen et al., 2024a) | √ | Content Quality | DreamSteerer (Yu et al., 2024) | ||||
| MUSIQ (Ke et al., 2021) | √ | Content Quality | DreamSteerer (Yu et al., 2024), PE-VTON (Zhang et al., 2024d) | ||||
| MANIQA (Yang et al., 2022) | Content Quality | PE-VTON(Zhang et al., 202d) | |||||
| LIQE (Zhang et al., 2023c) | Content Quality | DreamSteerer (Yu et al., 2024) | |||||
| QS (Gu et al., 2020) | Content Quality | AddMe (Yue et al., 2025) | |||||
| BRISQUE (Mittal et al., 2012a) | Content Quality | Vashishtha et al. (2024) | |||||
| CTR | Overall | CG4CTR (Yang et al., 2024a), Czapp et al. (2024) | |||||
| Stellar metrics (Achlioptas et al, 2023) | √ | √ | Overall | Stellar (Achlioptas et al., 203) | |||
| CAMI (Shen et al., 2024a) | Overall | ||||||
以下是原文 Table 4 的结果:
| Video (Section 3.3) | Metrics | Evaluation Dimensions | Representative Works | |||||
| 1. Subject-driven T2V generation | 2 3 | 4 | 5 | Personalization | PIA (Zhang et al., 2024i), PoseCrafter (Zhong et al., 2025), ID-Animator (He et al., 2024b) | |||
| CLIP-I (Radford et al., 2021) | √ √ | √ | ||||||
| DINO-I (Caron et al., 2021; Oquab et al., 2024) | Personalization | DisenStudio (Chen et al., 2024b), DreamVideo (Wei et al., 2024b), Magic-Me (Ma et al., 2024c) | ||||||
| SSIM (Wang et al., 2004) | √ | Personalization | AnimateAnyone (Hu, 2024), ACF (Yang et al., 2024f), GPD-VVTO (Wang et al., 2024l), ViViD (Fang et al., 2024b) | |||||
| PSNR (Hore and Ziou, 2010) | √ | Personalization | AnimateAnyone (Hu, 2024), Yi ét al. (2020), Zhua et al. (2023) | |||||
| LPIPS (Zhang et al., 2018) | Personalization | AnimateAnyone (Hu, 2024), DiffTalk (Shen et al., 2023), DisCo (Wang et al., 2023b), DreamPose (Karras et al., 2023) | ||||||
| VGG (Johnson et al., 2016) | Personalization | DisCo (Wang et al., 2023b), DreamPose (Karras et al., 2023) | ||||||
| L1 error | Personalization | MagicAnimate (Xu et al., 2024f) | ||||||
| AED | Personalization | DisCo (Wang et al., 2023b), DreamPose (Karras et al., 2023) | ||||||
| Face similarity (Deng et al., 2019; Huang et al., 2020; Kim et al., 2022) | Personalization | ID-Animator (He et al., 2024b), MagicPose (Chang et al, 2023), ConsisID (Yuan et al., 2024) | ||||||
| CLIP-T (Radford et al., 2021) | Instruction Alignment | PIA (Zhang et al., 2024i), ConsisID (Yuan et al., 2024), PoseCrafter (Zhong et al., 2025), StyleMaster (Ye et al., 2024) | ||||||
| UMT score (Liu et l., 2022) | Instruction Alignment | MagicAnimate (Xu et al., 2024f) | ||||||
| AKD (Siarohin et al., 2021) | Instruction Alignment | MagicAnimate (Xu et al., 2024f) | ||||||
| MKR (Siarohin et al., 2021) | Instruction Alignment | PoseCrafter (Zhong et al., 2025) | ||||||
| MSE-P | Instruction Alignment | DreamTalk (Ma et al., 2023), EMO (Tian et al., 2025), MEMO (Zheng et al., 2024b) | ||||||
| SyncNet score (Chung and Zisserman, 2017b) | Instruction Alignment | DFA-NeRF (Yao et al., 2022), DreamTalk (Ma et al., 2023), Yi et al. (2020) | ||||||
| LMD (Chen et al., 2018b) | Instruction Alignment | StyleLipSync (Ki and Min, 2023), DiffTalker (Chen et al., 2023b), Choi et al. (2024) | ||||||
| LSE-C (Prajwal et al., 2020) | Instruction Alignment | StyleTalker (Li et al., 2024i) | ||||||
| LSE-D (Prajwal et al., 2020) | Instruction Alignment | ACF (Yang et al., 2024f) | ||||||
| PD (Baldrati et al., 2023) | √ | |||||||
| FID (Heusel et al., 2017) | Content Quality | AnimateAnyone (Hu, 2024), DisCo (Wang et al., 2023b) | ||||||
| KID (Bikowski et al., 2018) | Content Quality | WildVidFit (He et al., 2025) | ||||||
| ArtFID (Wright and Ommer, 2022) | Content Quality | StyleMaster (Ye et al., 2024) | ||||||
| VFID (Wang et al., 2018c) | Content Quality | AnimateAnyone (Hu, 2024), GPD-VVTO (Wang et al., 2024l), ViViD (Fang et al., 2024b) | ||||||
| FVD (Unterthiner et al., 2018) | Content Quality | PersonalVideo (Li et al. 2024c), MotionBooth (Wu et al. 2024a), AnimateAnyone (Hu, 2024) | ||||||
| FID-VID (Balaji et al., 2019) | Content Quality | DisCo (Wang et al., 2023b), MagicAnimate (Xu et al., 2024f) | ||||||
| KVD (Unterthiner et al., 2018) | Content Quality | Animate-A-Story (He et al., 2023) | ||||||
| E-FID (Tian et al., 2025) | Content Quality | EMO (Tian et al., 2025), EmotiveTalk (Wan et al., 2024d) | ||||||
| NIQE (Mittal et al., 2012b) | Content Quality | MagicFight (Huang et al., 2024a) | ||||||
| CPBD (Narvekar and Karam, 2011) | Content Quality | DreamTalk (Ma et al., 2023) | ||||||
| Temporal consistency (Radford et al., 2021) | Content Quality | AnimateDiff (Guo et al., 2024a), Magic-Me (Ma et al., 2024c), DreamVideo (Wei et l., 2024b) | ||||||
| Dynamic degree (Huang et al., 2024d) | Content Quality | StyleMaster (Ye et al., 2024), ID-Animator (He et al., 2024b), PersonalVideo (Li et al., 2024c) | ||||||
| Flow error (Shi et al., 203a) | √ | Content Quality | MagDiff (Zhao et al., 2025) | |||||
| Video IS (Saito et al., 2020) | Content Quality | MotionBooth (Wu et al., 2024a) | ||||||
| Stitch score | Content Quality | VideoDreamer (Chen et al., 2023a) | ||||||
| Dover score (Wu et al., 2023a) | Content Quality | ID-Animator (He et al., 2024b) | ||||||
| Motion score (Ma et al., 2024c) | Content Quality | ID-Animator (He et al., 2024b) | ||||||
| 3D (Section 3.4) | Metrics | 1 | 2 | 3 | Evaluation Dimension | Representative Works | ||
| 1. Image-to-3D generation | LPIPS (Zhang et al., 2018) | 3 | Personalization | Wonder3D (Long et al., 2024), PuzzleAvatar (Xiu et al., 2024), My3DGen (Qi et al., 2023a) | ||||
| PSNR (Hore and Ziou, 2010) | Personalization | Wonder3D (Long et al., 2024), PuzzleAvatar (Xiu et al., 2024), My3DGen (Qi et al., 2023a) | ||||||
| 2. 3D face generation | SSIM (Wang et al., 2004) | Personalization | Wonder3D (Long et al., 2024), PuzzleAvatar (Xiu et al., 2024), My3DGen (Qi et al., 023a) | |||||
| 3. 3D human pose generation | Chamfer Distances (Butt and Maragos, 1998) | Personalization | PuzzleAvatar (Xiu et al., 2024), Wonder3D (Long et al., 2024) | |||||
| 4. 3D virtual try-on | CLIP (Radford et al., 2021) | Personalization | DreamVTON (Xie et al., 2024) | |||||
| Volume IoU (Zhou et al., 2019) | Personalization | DreamVTON (Xie et al., 2024) | ||||||
| Lip Velocity Error (LVE) | Personalization | DiffSpeaker (Ma et al., 2024d) | ||||||
| Facial Dynamics Deviation (FDD) (Ma et al., 2024d) | Personalization | DiffSpeaker (Ma et al., 2024d), DiffusionTalker (Chen et al., 2023d) | ||||||
| FReID (Huang et al., 2021) | Personalization | FewShotMotionTransfer (Huang et al., 2021) | ||||||
| CLIP-T (Radford et al., 2021) | Instruction Alignment | MVDream (Shi et al., 2023b), DreamBooth3D (Raj et al., 2023), MakeYour3D (Liu et al., 2025a) | ||||||
| FID (Heusel et al., 2017) | √ | Content Quality | MVDream (Shi et al., 2023b), 3DAvatarGAN (Abdal et al., 2023), TextureDreamer (Yeh et al., 2024), DreamVTON (Xie et al., 2024) | |||||
| IS (Salimans et al., 2016) | Content Quality | MVDream (Shi et al., 2023b) | ||||||
| Audio (Section 3.6) | Metrics | 1 | 2 | Evaluation Dimensions | Representative Works | |||
| 1. Face-to-speech generation | CLAP (Elizalde et al., 2023) | Personalization | DB&TI (Plitsis et al., 2024) | |||||
| Embedding Distance | √ | Personalization | UMP (Ma et al., 2022), FR-PSS (Wang et al., 2022a) | |||||
| 2. Music generation | FAD (Kilgour et al., 2018) | √ | Personalization | UIGAN (Wang et al., 2024k), DiffAVA (Mo et al., 2023), DB&TI (Plitsis et al., 2024) | ||||
| 3. Text-to-audio generation | IS (Salimans et al., 2016) | Content Quality | DiffAVA (Mo et al., 2023) | |||||
| STOI, ESTOI, PESQ (Sheng et al., 2023) | Content Quality | Lip2Speech (Sheng et al.,3) | ||||||
| Cross-modal (Section 3.7) | Metrics | 1 | 2 | Evaluation Dimensions | Representative Works | |||
| 1. Robotics | BLEU, Meteor | Overall | PVCG (Wu et al., 2024e), METER (Geng et al., 2022), PV-LLM (Lin et al., 2024b) | |||||
| 2. Caption/Comment generation | Recall, Precision, F1 | Overall | MyVLM (Alaluf et al., 2025), Yo'LLaVA (Nguyen et al., 2024b) | |||||
| 3. Multimodal dialogue systems | success rate | Overall | VPL (Poddar et al., 2024), Promptable Behaviors (Hwang et al., 2024) | |||||
评估指标分类与解释:
5.2.1. 文本生成 (Text Generation)
-
总体 (Overall):
- NDCG (Normalized Discounted Cumulative Gain):
- 概念定义: NDCG 是一种用于衡量信息检索或推荐系统排名质量的指标。它考虑了推荐列表(或生成文本中的相关信息)中项目(或信息点)的相关性及其在列表中的位置。相关性更高的项目出现在列表前面会获得更高的分数。折扣累积增益 (DCG) 考虑了相关性和位置,而 NDCG 通过除以理想 DCG(IDCG,即完美排名下的 DCG)进行归一化,使得不同查询或列表之间的分数可比。
- 数学公式:
- 符号解释:
- : 推荐列表的长度或考虑的排名位置数量。
- : 第 个位置上的项目或信息的相关性分数。
- : 排名到位置 的折扣累积增益。
- : 理想排名到位置 的折扣累积增益,即假设所有相关项目都按完美顺序排列时的 DCG。
- : 排名到位置 的归一化折扣累积增益。
- Hit Rate (命中率):
- 概念定义: 在推荐系统中,如果用户实际感兴趣的项目出现在推荐列表中,则认为发生了一次“命中”。命中率是命中次数占总推荐请求次数的比例。
- 数学公式:
- 符号解释:
- : 成功命中用户偏好的推荐数量。
- : 总的推荐尝试次数。
- Precision (精确率):
- 概念定义: 在推荐或生成任务中,精确率衡量的是所有推荐/生成的项目或信息中,有多少是真正相关的。
- 数学公式:
- 符号解释:
- : 正确生成/推荐的相关项。
- : 错误生成/推荐的不相关项。
- Recall (召回率):
- 概念定义: 在推荐或生成任务中,召回率衡量的是所有真正相关的项目或信息中,有多少被成功生成/推荐出来。
- 数学公式:
- 符号解释:
- : 正确生成/推荐的相关项。
- : 未能生成/推荐的相关项。
- Win-rate (胜率):
- 概念定义: 通常用于比较两种方法(或模型)的相对性能,通过统计一种方法优于另一种方法的次数来计算。在基于人类反馈的评估中,表示人类更偏爱某一生成结果的比例。
- 数学公式:
- 符号解释:
- : 方法 A 被认为优于方法 B 的次数。
- : 总的比较次数。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
- 概念定义: 一组用于评估自动文本摘要和机器翻译的指标。它通过比较自动生成的文本与一组参考文本(通常是人工生成的)的重叠程度来衡量质量。常见的有 ROUGE-N(基于 N-gram 重叠)和 ROUGE-L(基于最长公共子序列)。
- 数学公式 (ROUGE-N):
- 符号解释:
- : 自动摘要和参考摘要中共同出现的 N-gram 数量。
- : 参考摘要中 N-gram 的总数量。
- BLEU (Bilingual Evaluation Understudy):
- 概念定义: 一种用于评估机器翻译质量的算法,也被广泛用于其他文本生成任务。它衡量的是机器翻译结果与一组高质量人工翻译(参考翻译)的 N-gram 重叠程度。
- 数学公式: 其中, (Brevity Penalty) 是对过短机器翻译的惩罚, 是 -gram 精确率。
- 符号解释:
- : 简短惩罚因子,用于惩罚过短的机器翻译结果。
- : 考虑的最大 N-gram 长度(通常为 4)。
- : 每个 -gram 精确率的权重(通常均匀分布)。
- : -gram 的精确率,即机器翻译中与参考翻译重叠的 -gram 比例。
- BERTScore:
- 概念定义: 一种基于预训练 BERT 模型嵌入的文本生成评估指标。它通过计算生成文本和参考文本之间语义相似度来评估质量,而非简单的词语重叠。
- 数学公式:
- 符号解释:
- : 参考文本中的词元序列。
- : 生成文本中的词元序列。
- : BERT 模型生成的词元嵌入向量。
- : BERTScore 召回率。
- : BERTScore 精确率。
- : BERTScore F1 值。
- GEMBA (Generative Model-Based Evaluation for Better Alignment):
- 概念定义: 一种新型的评估指标,利用生成模型来评估生成文本的质量和对齐度,旨在更好地捕捉人类判断。
- 数学公式: 论文未给出具体公式,通常这类指标依赖于模型内部的概率分布或评分机制。
- 符号解释: 论文未给出具体符号。
- G-Eval:
- 概念定义: 一种利用大型语言模型 (LLM) 进行文本生成评估的方法,LLM 扮演评估者的角色,根据给定的评估维度(如连贯性、相关性)对生成文本打分。
- 数学公式: 论文未给出具体公式,通常涉及 LLM 的推理和评分。
- 符号解释: 论文未给出具体符号。
- NDCG (Normalized Discounted Cumulative Gain):
-
个性化 (Personalization):
- ExPerT (Effective and Explainable Evaluation of Personalized Long-Form Text Generation):
- 概念定义: 专为评估个性化长文本生成而设计,通过将生成文本和参考输出分割成原子事实,并根据内容和写作风格相似度进行评分,来衡量个性化程度。
- 数学公式: 论文未给出具体公式,但描述了其基于事实分割和相似度评分的原理。
- 符号解释: 论文未给出具体符号。
- AuPEL (Automated Personalized Evaluation of Language):
- 概念定义: 自动化评估个性化语言生成的方法,通过分析生成内容与用户偏好的契合度。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- PERSE (Personalized Evaluation of Response Generation):
- 概念定义: 评估个性化响应生成模型的一种指标,关注生成响应与用户个性化信息的一致性。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- ExPerT (Effective and Explainable Evaluation of Personalized Long-Form Text Generation):
5.2.2. 图像生成 (Image Generation)
-
个性化 (Personalization) / 指令对齐 (Instruction Alignment):
- CLIP-I (CLIP Image Similarity):
- 概念定义: 利用 CLIP (Contrastive Language-Image Pre-training) 模型提取图像特征,然后计算生成图像与参考图像(或与描述性文本对应的图像)之间的余弦相似度,以评估图像内容与指令或个性化主体的对齐程度。
- 数学公式: 假设 是 CLIP 图像编码器, 是余弦相似度函数。
- 符号解释:
- : CLIP 图像编码器,将图像映射到嵌入空间。
- : 余弦相似度函数。
- DINO-I (DINO Image Similarity):
- 概念定义: 类似于 CLIP-I,但使用 DINO (Self-supervised Vision Transformers) 模型提取图像特征。DINO 通过自监督学习获得强大的视觉特征,可以用于评估图像之间的视觉相似度。
- 数学公式: 假设 是 DINO 图像编码器。
- 符号解释:
- : DINO 图像编码器。
- LPIPS (Learned Perceptual Image Patch Similarity):
- 概念定义: 一种衡量两幅图像之间感知相似度的指标,通过计算两幅图像经过预训练深度网络(如 AlexNet, VGG)提取的特征向量之间的距离来评估。它与人类的感知判断更吻合。
- 数学公式:
- 符号解释:
- : 两幅输入图像。
- : 预训练网络第 层的特征映射。
- : 第 层的缩放权重。
- : 第 层特征映射的高度和宽度。
- : 元素乘法。
- PSNR (Peak Signal-to-Noise Ratio):
- 概念定义: 峰值信噪比,常用于衡量图像压缩或重建后的质量。它基于像素误差,通常以分贝 (dB) 表示,值越高表示图像质量越好,与原始图像的失真越小。
- 数学公式: 其中, (Mean Squared Error) 是均方误差。
- 符号解释:
- : 图像像素的最大可能值(例如,8 位图像为 255)。
- : 两幅图像的均方误差。
- SSIM (Structural Similarity Index Measure):
- 概念定义: 结构相似性指数,用于衡量两幅图像之间的相似度。它考虑了亮度、对比度和结构三个方面的相似性,旨在更好地反映人类视觉系统的感知。
- 数学公式:
其中
l, c, s分别是亮度、对比度和结构相似度函数。通常取 。 - 符号解释:
x, y: 两幅输入图像的局部区域。l(x,y): 亮度相似度。c(x,y): 对比度相似度。s(x,y): 结构相似度。- : 各分量的权重。
- MS-SSIM (Multi-scale Structural Similarity Index Measure):
- 概念定义: SSIM 的多尺度版本,通过在多个尺度上计算 SSIM 并加权组合,以更好地捕捉不同尺度的图像失真。
- 数学公式:
- 符号解释:
- : 尺度数量。
- : 在不同尺度上的亮度、对比度和结构相似度。
- DreamSim:
- 概念定义: 一种基于合成数据学习的人类视觉相似度新指标,旨在更好地与人类对图像相似度的判断对齐。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Face similarity (人脸相似度):
- 概念定义: 使用预训练的人脸识别模型(如 ArcFace, FaceNet, CurricularFace)提取人脸特征,然后计算生成人脸与参考人脸之间特征向量的相似度,以评估身份保留 (identity preservation) 程度。
- 数学公式: 假设 是人脸识别模型编码器。
- 符号解释:
- : 人脸识别模型编码器。
- Face detection rate (人脸检测率):
- 概念定义: 衡量生成图像中人脸是否能被成功检测出来的比例,以及检测到的质量(如边界框准确性)。在个性化人脸生成中,这表示生成内容的可识别性和真实性。
- 数学公式: 论文未给出具体公式,通常涉及人脸检测器的输出。
- 符号解释: 论文未给出具体符号。
- CLIP-T (CLIP Text Similarity):
- 概念定义: 利用 CLIP 模型提取文本提示的特征,然后计算生成图像与文本提示之间特征向量的余弦相似度,以评估图像内容与文本指令的对齐程度 (text-to-image alignment)。
- 数学公式: 假设 是 CLIP 文本编码器。
- 符号解释:
- : CLIP 文本编码器。
- ImageReward:
- 概念定义: 一种评估文本到图像生成模型质量的指标,旨在与人类偏好高度对齐。它通过学习人类对生成图像的奖励信号来评估图像与文本提示的匹配度以及图像的整体美学质量。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- PickScore:
- 概念定义: 类似于 ImageReward,也是一种基于学习人类偏好来评估文本到图像生成结果的指标,通常用于选择更符合人类审美和文本语义的图像。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- HPSv1 / HPSv2 (Human Preference Score v1/v2):
- 概念定义: 人类偏好分数,是一系列旨在量化文本到图像模型生成结果与人类偏好对齐程度的指标。HPSv2 是 HPSv1 的改进版本,提供了更稳定的评估。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- R-precision:
- 概念定义: 在信息检索中,R-precision 是在检索到 R 个文档时计算的精确率,其中 R 是相关文档的总数。在图像生成中,可以引申为在生成特定数量的图像后,与指令相关的图像的比例。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- PAR score (Prompt-Aligned Realism score):
- 概念定义: 衡量生成图像与文本提示的对齐程度以及图像的真实感。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CLIP-I (CLIP Image Similarity):
-
内容质量 (Content Quality):
- FID (Fréchet Inception Distance):
- 概念定义: 衡量生成图像与真实图像之间分布距离的指标。它通过 Inception V3 网络提取特征,并计算生成图像特征分布与真实图像特征分布之间的 Fréchet 距离。FID 值越低,表示生成图像的质量和多样性越好。
- 数学公式:
- 符号解释:
- : 真实图像和生成图像特征分布的均值向量。
- : 真实图像和生成图像特征分布的协方差矩阵。
- : 矩阵的迹。
- KID (Kernel Inception Distance):
- 概念定义: 类似于 FID,也是通过 Inception 网络提取特征来衡量生成图像与真实图像分布之间的距离,但使用最大均值差异 (Maximum Mean Discrepancy, MMD) 替代 Fréchet 距离,理论上更稳定。
- 数学公式: 论文未给出具体公式,但其基于 MMD。
- 符号解释: 论文未给出具体符号。
- IS (Inception Score):
- 概念定义: 衡量生成图像质量和多样性的指标。它通过 Inception V3 网络分类生成图像,并计算预测类别分布的熵以及边缘分布的相对熵。高分数表示生成图像既清晰(低熵)又多样(高相对熵)。
- 数学公式:
- 符号解释:
- : 生成模型。
- : 生成的图像。
- : 图像的类别标签。
- : Inception V3 网络对生成图像 的类别预测分布。
p(y): 所有生成图像类别预测的边缘分布。- : Kullback-Leibler 散度。
- LAION-Aesthetics:
- 概念定义: 基于 LAION 数据集训练的美学评估模型,用于预测图像的审美质量。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- TOPIQ (Top-down Approach from Semantics to Distortions for Image Quality Assessment):
- 概念定义: 一种图像质量评估方法,结合了语义信息和失真感知。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- MUSIQ (Multi-scale Image Quality Transformer):
- 概念定义: 一种基于 Transformer 架构的多尺度图像质量评估模型。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- MANIQA (Multi-dimension Attention Network for No-reference Image Quality Assessment):
- 概念定义: 一种无参考图像质量评估模型,利用多维度注意力网络。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- LIQE (LIne-based Image Quality Evaluator):
- 概念定义: 一种基于线条特征的图像质量评估器。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- QS (Quality Score):
- 概念定义: 图像质量评估的通用术语,具体实现可能因论文而异。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- BRISQUE (BLind/Referenceless Image Spatial Quality Evaluator):
- 概念定义: 一种无参考图像空间质量评估器,基于自然场景统计特征。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- FID (Fréchet Inception Distance):
-
总体 (Overall) / 点击率 (CTR):
- CTR (Click-Through Rate):
- 概念定义: 点击率是衡量广告或推荐内容吸引力的指标,计算方式是点击次数除以展示次数。在个性化电商产品图像生成等任务中,高 CTR 表明生成内容更受用户欢迎。
- 数学公式:
- 符号解释:
- : 点击次数。
- : 展示次数。
- Stellar metrics:
- 概念定义: 专为以人为中心的个性化文本到图像方法设计的系统评估指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CAMI (Content-Aligned Image Metric):
- 概念定义: 旨在评估图像生成中内容对齐的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CTR (Click-Through Rate):
5.2.3. 视频生成 (Video Generation)
-
个性化 (Personalization) / 指令对齐 (Instruction Alignment):
- 除了图像生成中提到的
CLIP-I,DINO-I,SSIM,PSNR,LPIPS,VGG,Face similarity等基于帧的指标,视频生成还引入了: - L1 error (L1 误差):
- 概念定义: 通常指像素值或特征向量的平均绝对误差,用于衡量生成视频帧与参考帧之间的差异。
- 数学公式: 对于图像 ,
- 符号解释:
- : 两幅图像。
H, W: 图像的高度和宽度。I(h,w): 图像在(h,w)处的像素值。
- AED (Audio-to-Emotion Disentanglement):
- 概念定义: 衡量音频与情感解耦程度的指标,在生成说话人头部视频中,评估音频是否准确驱动了面部表情和情绪,而没有混淆其他属性。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CLIP-T (CLIP Text Similarity): 同图像生成。
- UMT score (Unified Multimodal Transformer score):
- 概念定义: 基于统一多模态 Transformer 模型对视频生成质量的评估。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- AKD (Action Keypoint Distance):
- 概念定义: 衡量生成视频中人体关键点与参考视频中关键点之间距离的指标,用于评估动作的准确性。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- MKR (Motion Keypoint Rate):
- 概念定义: 衡量视频中运动关键点的检测率或准确率。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- MSE-P (Mean Squared Error - Pose):
- 概念定义: 姿态的均方误差,衡量生成视频中人物姿态与参考姿态的差异。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- SyncNet score (SyncNet Score):
- 概念定义: 用于评估音频与视频中唇部运动同步性的指标,值越高表示同步性越好。
- 数学公式: 论文未给出具体公式,它通常是由 SyncNet 模型输出的匹配分数。
- 符号解释: 论文未给出具体符号。
- LMD (Lip Motion Distance):
- 概念定义: 衡量生成视频中唇部运动与参考视频唇部运动距离的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- LSE-C / LSE-D (Lip-Sync Expert - Confidence/Distance):
- 概念定义: 基于唇部同步专家模型(Lip-Sync Expert)的指标,LSE-C 衡量同步置信度,LSE-D 衡量同步距离。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- PD (Perceptual Distance):
- 概念定义: 感知距离,衡量生成内容与参考内容之间在人类感知上的差异。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- 除了图像生成中提到的
-
内容质量 (Content Quality):
- 除了图像生成中提到的
FID,KID,IS等基于帧的指标,视频生成还引入了: - ArtFID:
- 概念定义: 用于评估艺术风格迁移或生成图像的质量。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- VFID (Video Fréchet Inception Distance):
- 概念定义: FID 的视频版本,计算生成视频帧序列与真实视频帧序列之间特征分布的 Fréchet 距离。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- FVD (Fréchet Video Distance):
- 概念定义: 类似于 FID,但专门用于视频,通过计算生成视频和真实视频的特征序列(通常使用预训练的视频模型提取)之间的 Fréchet 距离来评估视频质量。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- FID-VID (Fréchet Inception Distance for Videos):
- 概念定义: 专门用于视频的 FID 变体。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- KVD (Kernel Video Distance):
- 概念定义: KID 的视频版本,使用 MMD 衡量视频特征分布的距离。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- E-FID (Enhanced Fréchet Inception Distance):
- 概念定义: 增强版的 FID,可能在特征提取或距离计算上有所改进,以更好地适应视频评估。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- NIQE (Naturalness Image Quality Evaluator):
- 概念定义: 一种无参考的图像质量评估指标,通过学习自然图像的统计特征来评估图像的自然度。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CPBD (Cumulative Probability of Blur Detection):
- 概念定义: 累计模糊检测概率,用于衡量图像或视频帧的模糊程度。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Temporal consistency (时间一致性):
- 概念定义: 衡量视频帧之间内容或风格的连贯性,通常通过计算相邻帧(或经过编码器提取特征后的帧)的相似度。
- 数学公式: 论文未给出具体公式,常使用 CLIP 或其他特征提取器计算帧间余弦相似度。
- 符号解释: 论文未给出具体符号。
- Dynamic degree (动态程度):
- 概念定义: 衡量视频中运动或变化的程度。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Flow error (光流误差):
- 概念定义: 衡量生成视频中光流场与真实光流场之间的差异,用于评估运动的准确性。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Video IS (Video Inception Score):
- 概念定义: IS 的视频版本,用于评估生成视频的质量和多样性。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Stitch score (拼接分数):
- 概念定义: 衡量视频片段拼接流畅度和自然度的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Dover score (DOVER Score):
- 概念定义: 一种视频质量评估指标,旨在与人类对视频质量的感知对齐。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Motion score (运动分数):
- 概念定义: 衡量视频中运动细节和自然度的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- 除了图像生成中提到的
5.2.4. 3D 生成 (3D Generation)
-
个性化 (Personalization) / 指令对齐 (Instruction Alignment):
LPIPS,PSNR,SSIM,CLIP(同图像生成)- Chamfer Distance (CD) (倒角距离):
- 概念定义: 衡量两个点集之间相似度的指标,常用于评估 3D 点云或网格的几何形状匹配程度。它计算一个点集中每个点到另一个点集最近点的平均距离。
- 数学公式:
- 符号解释:
- : 两个点集。
- : 点集中的点。
- : 欧氏距离。
- Volume IoU (Intersection over Union for Volume):
- 概念定义: 衡量两个 3D 体积(例如,预测的 3D 模型与真实 3D 模型)之间重叠程度的指标。
- 数学公式:
- 符号解释:
- : 两个体积的交集。
- : 两个体积的并集。
- Lip Velocity Error (LVE) (唇部速度误差):
- 概念定义: 衡量生成 3D 说话人模型唇部运动速度与参考唇部运动速度差异的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- Facial Dynamics Deviation (FDD) (面部动态偏差):
- 概念定义: 衡量生成 3D 模型面部动态与真实面部动态偏差的指标。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- FReID (Face Re-identification):
- 概念定义: 在 3D 人体姿态生成中,评估生成人物的身份是否与参考身份一致。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
-
内容质量 (Content Quality):
FID,IS(同图像生成)
5.2.5. 音频生成 (Audio Generation)
-
个性化 (Personalization) / 指令对齐 (Instruction Alignment):
- CLAP (Contrastive Language-Audio Pre-training):
- 概念定义: 类似于 CLIP,但用于语言和音频模态。它衡量生成音频与文本描述之间的语义对齐度。
- 数学公式: 假设 是音频编码器, 是文本编码器。
- 符号解释:
- : 音频编码器。
- : 文本编码器。
- Embedding Distance (嵌入距离):
- 概念定义: 计算生成音频或音乐的特征嵌入向量与参考音频或音乐的特征嵌入向量之间的距离,以评估相似度或个性化对齐。
- 数学公式: 通常是欧氏距离或余弦距离。
- 符号解释: 论文未给出具体符号。
- FAD (Fréchet Audio Distance):
- 概念定义: 衡量生成音频与真实音频之间分布距离的指标,类似于 FID,但用于音频模态。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- CLAP (Contrastive Language-Audio Pre-training):
-
内容质量 (Content Quality):
IS(同图像生成)- STOI (Short-Time Objective Intelligibility):
- 概念定义: 短时客观可懂度,用于衡量语音信号的可懂度,值越高表示可懂度越好。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- ESTOI (Extended Short-Time Objective Intelligibility):
- 概念定义: STOI 的扩展版本,通常提供更准确的可懂度评估。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
- PESQ (Perceptual Evaluation of Speech Quality):
- 概念定义: 语音质量的感知评估,是一种客观指标,旨在模拟人类对语音质量的判断。
- 数学公式: 论文未给出具体公式。
- 符号解释: 论文未给出具体符号。
5.2.6. 跨模态生成 (Cross-modal Generation)
- 总体 (Overall):
BLEU,Meteor(同文本生成)Recall,Precision,F1(同文本生成)- Success Rate (成功率):
- 概念定义: 衡量智能体或系统在执行个性化任务时成功的次数比例。
- 数学公式:
- 符号解释:
- : 成功尝试的次数。
- : 总尝试次数。
5.3. 对比基线
作为综述论文,并没有直接的“对比基线”,但其涵盖的各个研究领域和任务中,每个论文都会有自己的 SOTA (state-of-the-art) 基线模型进行比较。从论文对技术进展的概述中可以看出,典型的基线包括:
-
传统统计模型: 在早期文本生成或推荐任务中,如基于频率或共现的统计模型。
-
早期深度学习模型:
- GANs: 在图像、视频生成中作为早期的主要生成模型。
- RNN/LSTM/Transformer: 在文本生成中作为基础架构。
-
非个性化的大型生成模型:
- 预训练的 LLMs、DMs: 在个性化生成任务中,常常会与不进行任何个性化适应的通用大模型进行比较,以突出个性化策略的有效性。
-
其他个性化方法: 在特定任务中,会与其他早期的个性化方法(如基于协同过滤的推荐、基于模板的文本生成等)进行比较。
论文的“代表性工作”列表 (Table 1) 实际上列举了在各个子领域中表现优异或具有代表性的模型,它们在各自的论文中通常被用作与其他方法比较的基线。例如,
Textual Inversion和DreamBooth在Subject-driven T2I generation任务中是重要的基线方法。
此外,人工评估 (Human Evaluation) 在几乎所有模态的 PGen 任务中都扮演着不可或缺的角色,尤其是在评估 个性化、指令对齐 和 内容质量 等主观方面时。这包括用户研究、A/B 测试、专家评分等。在电商场景中,在线测试 (online tests) 被用来评估模型在真实世界中的性能。
6. 实验结果与分析
由于本文是一篇综述论文,它不包含作者自己进行的实验和结果,而是对现有研究的实验结果进行了概括性分析。这些分析分散在第 3 节 "Personalized Generation Across Modalities" 中,针对不同模态的个性化生成任务进行了技术进展、常用数据集和评估指标的总结。
6.1. 核心结果分析
论文的核心结果分析可以从以下几个方面进行总结:
6.1.1. 多模态 PGen 进展
-
文本生成 (Text Generation):
- 用户行为和文档驱动: 在信息检索和写作助手等任务中,利用用户行为(如点击历史、偏好反馈)和用户文档(如历史评论、邮件)来生成个性化文本(例如定制化摘要、新闻标题、辅助写作)。检索增强生成 (RAG) 在此领域表现突出,能够从用户历史文档中提取偏好。
- 用户画像驱动: 对话系统(Chatbots)能够根据用户画像构建个性化人设,生成更具吸引力的对话响应。LLMs 在用户模拟(User Simulation)方面也表现出色。
- 评估挑战: 文本个性化评估仍具挑战,除了传统的
ROUGE,BLEU,BERTScore等指标外,ExPerT等专门针对个性化的指标以及人类评估变得越来越重要。
-
图像生成 (Image Generation):
- 用户行为驱动: 通过用户的历史互动图像推断视觉偏好,实现通用图像生成(如贴纸、电影海报)和特定领域生成(如时尚设计、电商产品图)。交互式生成通过实时用户反馈不断精炼输出。
- 个性化主体 (Personalized Subjects) 驱动: 这是计算机视觉领域的主要关注点。通过少量图像学习特定主体(如宠物、物品)的表示,然后结合文本指令生成包含这些主体的定制图像。
Textual Inversion,DreamBooth等优化方法和Encoder-based methods(如ELITE,IP-Adapter) 是主流技术。 - 个人面部/身体 (Personal Face/Body) 驱动: 利用用户面部或身体图像生成高保真肖像或进行虚拟试穿。基于
GAN和Diffusion Models的方法在身份保持、姿态控制和服装融合方面取得了显著进展。 - 评估: 除了
LPIPS,SSIM,FID等常规质量指标,CLIP-I,DINO-I用于评估个性化和指令对齐,人脸识别模型用于身份保持。
-
视频生成 (Video Generation):
- 个性化主体驱动: 将图像个性化技术扩展到视频领域,生成包含特定主体的视频。
AnimateDiff等方法通过引入运动和时间动态模块实现。 - 个人面部/身体驱动: 实现身份保持的文本到视频生成、说话人头部视频生成 (Talking Head Generation)、姿态引导视频生成和虚拟试穿。这包括利用 NeRFs, GANs 和 DMs 等技术,并关注唇部同步、身份一致性和动作准确性。
- 评估: 同样使用
LPIPS,SSIM,PSNR等,并引入SyncNet Score进行音唇同步评估,FVD,KVD进行视频质量评估,以及Temporal consistency评估时间连贯性。
- 个性化主体驱动: 将图像个性化技术扩展到视频领域,生成包含特定主体的视频。
-
3D 生成 (3D Generation):
- 个性化主体驱动: 从图像输入生成相应的 3D 资产,如
PuzzleAvatar,MVDream等利用Score Distillation Sampling (SDS)和多视图扩散模型。 - 个人面部/身体驱动: 生成个性化的 3D 面部和人体姿态,以及 3D 虚拟试穿。技术涉及
NeRFs,LoRA和Diffusion Models。 - 评估:
Chamfer Distance,Volume IoU评估几何质量,同时使用LPIPS,CLIP Score评估视觉和文本对齐,以及用户研究进行主观评估。
- 个性化主体驱动: 从图像输入生成相应的 3D 资产,如
-
音频生成 (Audio Generation):
- 用户行为驱动: 通过分析用户听歌历史和评分生成个性化音乐。交互式方法和基于图像域个性化技术(如
Textual Inversion,DreamBooth)的迁移应用也在探索中。 - 个性化主体驱动: 生成个性化语音(如根据文本提示和参考音频生成具有特定音色的音频)。
Diffusion Models在此领域表现突出。 - 个人面部驱动: 从用户面部图像提取说话人属性进行定制化语音生成。
- 评估:
CLAP Score评估音频-文本对齐,FAD评估音频质量,STOI,PESQ评估语音可懂度和质量。
- 用户行为驱动: 通过分析用户听歌历史和评分生成个性化音乐。交互式方法和基于图像域个性化技术(如
-
跨模态生成 (Cross-modal Generation):
- 用户行为驱动: 机器人领域通过学习历史轨迹和人类反馈,实现个性化机器人决策。
- 用户文档驱动: 利用用户创建的文本(如评论、字幕)生成个性化字幕或评论。
- 个性化主体驱动: 根据用户特定主体图像和查询进行个性化视觉问答或跨模态对话。
RAG技术和学习用户特定嵌入的方法是主流。 - 评估: 除了
BLEU,Meteor,Recall,Precision,F1等文本指标,机器人任务还使用Success rate等来评估任务完成度。
6.1.2. 挑战与机遇
论文的分析不仅限于现有成就,还着重强调了 PGen 面临的挑战和未来的研究方向。这表明现有技术虽然取得了显著进展,但在实际应用中仍有改进空间。
- 技术挑战: 可扩展性、效率、用户偏好演变、过滤气泡、用户数据管理等问题普遍存在。
- 基准与指标: 缺乏能全面捕捉个性化和人类偏好的统一评估指标。
- 可信赖性: 隐私、公平性、偏见和安全性是 PGen 广泛应用的关键阻碍。
6.2. 数据呈现 (表格)
论文在 Table 1 中对不同模态、个性化上下文和任务下的代表性工作进行了总结。
以下是原文 Table 1 的结果:
| Modality | Personalized Contexts | Tasks | Representative Works |
| Text (Section 3.1) | User behaviors | Recommendation | LLM-Rec (Lyu et al., 2024), DEALRec (Lin et al., 2024a), Bi- gRec (Bao et al., 2023), DreamRec (Yang et al., 2024e) |
| User documents | Information seeking Writing Assistant | P-RLHF (Li et al., 2024g), ComPO (Kumar et al., 2024b) REST-PG (Salemi et al., 2025b), RSPG (Salemi et al., 2024a), Hydra (Zhuang et al., 2024), PEARL (Mysore et al., 2024), Panza (Nicolicioiu et al., 2024) | |
| User profiles | Dialogue System | PAED (Zhu et al., 2023b), BoB (Song et al., 2021), UniMS- RAG (Wang et al., 2024e), ORIG (Chen et al., 2023b) | |
| User Simulation | Drama Machine (Magee et al., 2024), Character-LLM (Shao et al., 2023), RoleLLM (Wang et al., 2024f) | ||
| Image (Section 3.2) | User behaviors | General-purpose generation | PMG (Shen et al., 2024b), Pigeon (Xu et al., 2024c), PASTA (Nabati et al., 2024) |
| Fashion design | DiFashion (Xu et al., 2024b), Yu et al. (2019) | ||
| E-commerce product image | ABhiova0 et al. (2024) | ||
| User profiles | Fashion design | LVA-COG (Forouzandehmehr et al., 2023) | |
| E-commerce product image | CG4CTR (Yang et al., 2024a) | ||
| Personalized subjects | Subject-driven T2I generation | Textual Inversion (Gal et al., 2023), DreamBooth (Ruiz et al., 2023), Custom Diffusion (Kumari et al., 2023) | |
| Video | Personal face/body | Face generation | PhotoMaker (Li et al., 2024l), InstantBooth (Shi et al., 2024), InstantID (Wang et al., 2024g) |
| Virtual try-on | IDM-VTON (Choi et al., 2025), O0TDiffusion (Xu et al., 2024d), OutfitAnyone (Sun et al., 2024a) | ||
| Personalized subjects | Subject-driven T2V generation | AnimateDiff (Guo et al., 2024a), AnimateLCM (Wang et al., 2024b), PIA (Zhang et al., 2024i) | |
| Personal face/body | ID-preserving T2V generation | Magic-Me (Ma et al., 2024c), ID-Animator (He et al., 2024b), ConsisID (Yuan et al., 2024) | |
| Talking head generation | DreamTalk (Ma et al., 2023), EMO (Tian et al., 2025), MEMO (Zheng et al., 2024b) | ||
| Pose-guided video generation | Disco (Wang et al., 2023b), AnimateAnyone (Hu, 2024), MagicAnimate (Xu et al., 2024f) | ||
| Video virtual try-on | ViViD (Fang et al., 2024b), VITON-DiT (Zheng et al., 2024a), WildVidFit (He et al., 2025) | ||
| 3D (Section 3.4) | Personalized subjects | Image-to-3D generation | MVDream (Shi et al., 2023b), DreamBooth3D (Raj et al., 2023), Wonder3D (Long et al., 2024) |
| Personal face/body | 3D face generation | PoseGAN (Zhang et al., 2021a), My3DGen (Qi et al., 2023a), DiffSpeaker (Ma et al., 2024d) | |
| Audio (Section 3.6) | 3D human pose generation | FewShotMotionTransfer (Huang et al., 2021), PGG (Hu et al., 2023), 3DHM (Li et al., 2024a), DreamWaltz (Huang et al., 2024c) | |
| 3D virtual try-on | Pergamo (Casado-Elvira et al., 2022), DreamVTON (Xie et al., 2024) | ||
| Personal face | Face-to-speech generation | VioceMe (van Rijn et al., 2022), FR-PSS (Wang et al., 2022a), Lip2Speech (Sheng et al., 2023) | |
| Cross-Modal (Section 3.7) | User behaviors | Music generation | UMP (Ma et al., 2022), UP-Transformer (Hu et al., 2022), UIGAN (Wang et al., 2024k) |
| Personalized subjects | Text-to-audio generation | DiffAVA (Mo et al., 2023), TAS (Li et al., 2024k) | |
| User behaviors | Robotics | VPL (Poddar et al., 2024), Promptable Behaviors (Hwang et al., 2024) | |
| User documents | Caption/Comment generation | PV-LLM (Lin et al., 2024b), PVCG (Wu et al., 2024e), METER (Geng et al., 2022) | |
| Personalized subjects | Cross-modal dialogue systems | MyVLM (Alaluf et al., 2025), Yo'LLaVA (Nguyen et al., 2024b), MC-LLaVA (An et al., 2024) |
6.3. 消融实验/参数分析
由于是综述性质的论文,本文没有进行具体的消融实验或参数分析。但其对 优化策略 (Optimization Strategy) 的总结中提到了 参数高效微调 (PEFT) 和 免微调方法 (Tuning-free methods),这间接反映了 PGen 领域对模型效率和参数影响的关注。PEFT 方法(如 LoRA)通过仅微调少量参数来适应个性化需求,这本身就是对模型参数高效性的探索。
7. 总结与思考
7.1. 结论总结
这篇综述首次全面、系统地概述了个性化生成(PGen)这一新兴领域,特别是在大模型时代背景下。论文的亮点在于提出了一个统一的、以用户为中心的 PGen 框架,形式化了其关键组件(个性化上下文、多模态指令)、核心目标(高质量、指令对齐、个性化)和抽象工作流程(用户建模、生成建模)。在此基础上,构建了一个多层次分类法,细致地回顾了文本、图像、视频、音频、3D 和跨模态等多种模态下 PGen 的技术进展、数据集和评估指标。
综述不仅总结了现有成就,还展望了 PGen 在内容创作和内容交付过程中的广泛应用潜力,并深入探讨了当前面临的挑战和未来的研究方向。通过弥合不同研究社区之间的鸿沟,这篇综述为 PGen 领域的知识共享和跨学科合作提供了宝贵的资源,致力于推动数字景观的进一步个性化。
7.2. 局限性与未来工作
论文作者指出了以下局限性和未来工作方向:
7.2.1. 技术挑战
- 可扩展性与效率 (Scalability and Efficiency): 大型生成模型通常需要大量的计算资源,这限制了它们在实时、大规模用户场景中的部署。未来的研究应关注开发可扩展且高效的 PGen 算法。
- 审慎推理 (Deliberative Reasoning for PGen): 在对内容质量要求高于实时效率的场景(如数字广告),审慎推理(即模型进行深入的逻辑和上下文分析)可以更好地理解用户偏好,从而实现更有效的个性化内容生成。目前这方面的研究还不足。
- 用户偏好演变 (Evolving User Preference): 用户的偏好是动态变化的,如何有效地跟踪和响应这些变化,是 PGen 需要解决的关键问题。
- 缓解过滤气泡 (Mitigating Filter Bubbles): PGen 可能无意中加剧用户的现有偏好和信念,导致“过滤气泡”和两极分化。未来的研究应探索多样性增强和用户可控推理等策略,并通过多智能体生成引入多元视角来解决此问题。
- 用户数据管理 (User Data Management): PGen 的基石是用户数据。如何有效、终身地收集、存储、结构化和管理用户数据,并支持用户可控的个性化,是一个开放问题。现有方法主要依赖外部存储或将信息直接嵌入模型参数。
- 多模态个性化 (Multi-modal Personalization): 现有 PGen 研究主要集中在单一模态,而真正的多模态个性化(如个性化社交媒体帖子同时包含图像和文本)仍未得到充分探索。这需要高质量、指令对齐且跨模态一致的个性化输出。统一多模态模型(如
GPT4o)的出现为此提供了机会。 - 生成与检索的协同 (Synergy Between Generation and Retrieval): 传统的个性化系统以检索为主,但现有内容可能无法完全满足用户需求。将 PGen 与检索方法结合,有望构建更强大的个性化内容交付系统。
7.2.2. 基准与指标
- 缺乏鲁棒的评估指标和基准数据集: 现有评估方法主要依赖传统的生成指标(如文本的
BLEU,图像的CLIP-I),这些指标未能充分捕捉生成内容与用户偏好的契合度。未来研究应着力开发更有效、更被普遍接受的个性化评估指标和基准。
7.2.3. 可信赖性
- 隐私 (Privacy): PGen 依赖用户特定数据,引发了隐私问题。在有效个性化和强大隐私保护之间取得平衡至关重要。设备端个性化、联邦学习、差分隐私和对抗性扰动等方法提供了潜在的解决方案。
- 公平性与偏见 (Fairness and Bias): PGen 可能无意中强化训练数据中存在的偏见和刻板印象,导致歧视性结果。去偏策略,如上下文引导、结构化提示和因果引导的偏向样本识别,对 PGen 具有重要借鉴意义。
- 安全性 (Safety): 建立透明的治理协议、可靠的审核机制和可解释的生成过程,对于维护用户信任和遵守安全标准至关重要。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇综述为个性化生成领域提供了一个非常清晰和全面的图景,其统一框架对于理解和组织该领域的知识体系具有重要价值。
- 用户中心视角的启发: 将 PGen 的核心归结为“用户建模”和“生成建模”,并明确个性化上下文和多模态指令作为输入,这提供了一个强大的抽象。无论未来出现何种新的大模型或模态,都可以很容易地放入这个框架中进行分析,这种通用性是其最大的价值之一。
- 跨模态融合的潜力: 综述强调了目前研究主要集中在单模态个性化,但未来的趋势必然是多模态个性化。
GPT-4o等统一多模态模型的出现确实预示着一个新时代的到来,这将使得“个性化社交媒体帖子(图像+文本)”、“个性化虚拟世界(3D+音频+视觉)”等复杂场景成为可能。这为研究者指明了重要的方向。 - 挑战与机遇并存: 论文清晰地列出了 PGen 面临的挑战,如效率、偏好演变、过滤气泡和数据隐私等。这些挑战并非技术难题,更是伦理、社会和工程上的复杂问题,为跨学科研究提供了丰富的课题。特别是“审慎推理”和“生成与检索的协同”这两个技术方向,预示着 PGen 将从简单的内容生成走向更智能、更负责任、更深层次的用户体验。
- 基准和指标的重要性: 强调缺乏统一且有效的评估指标是 PGen 发展的瓶颈,这促使研究者在设计新方法的同时,也需要投入更多精力在评估体系的建设上。人类评估和更精细化的感知指标是不可或缺的。
7.3.2. 批判与可改进之处
-
“审慎推理”概念的进一步阐释: 论文提及“审慎推理”是未来方向,但其概念定义和具体实现方式在文中仅为初步描述。对于初学者来说,可能难以理解其与传统 LLM 推理(如思维链)在 PGen 场景下的具体差异和优势。如果能更详细地解释如何在 PGen 中实现或评估这种“事先的逻辑和上下文推理”,将更有帮助。
-
伦理和社会影响的深入讨论: 虽然论文在“可信赖性”部分提到了隐私、公平性和安全性,但作为一篇综述,可以进一步深入探讨这些问题的复杂性。例如,当 PGen 被用于政治宣传或深度伪造 (deepfake) 时可能带来的社会危害,以及如何在技术层面进行更强的风险控制。这不仅仅是技术挑战,更关乎 PGen 技术的社会责任。
-
用户可控性 (User Controllability) 的强调: 论文在用户数据管理和过滤气泡部分间接提到了用户可控性,但鉴于个性化内容可能带来的负面影响(如信息茧房),“用户对个性化程度和偏好的主动控制权”应该作为一个更核心的概念在框架中明确强调,并讨论其在各模态中的实现方式和挑战。
-
实际案例的缺乏: 尽管论文在应用部分列举了潜在的应用场景,如果能在每个模态或任务中,提供一些具体的、已落地的 PGen 实际案例(即使是原型或研究项目),会使综述更具说服力和直观性,帮助读者更好地理解 PGen 如何在现实世界中运作。
-
对计算资源的量化分析: “可扩展性与效率”是核心挑战,但论文并未对不同 PGen 方法的计算资源需求进行量化比较或总结,例如,PEFT 方法比全量微调在参数量和计算量上的具体节省。这对于从业者在选择和部署 PGen 方案时是重要的参考信息。
总的来说,这篇综述为 PGen 领域提供了一个出色的、前瞻性的概览。它不仅整合了现有知识,更重要的是,为该领域的未来研究设定了清晰的议程,特别是强调了跨模态融合、可信赖性和高级推理能力的重要性。
相似论文推荐
基于向量语义检索推荐的相关论文。