论文状态：已完成

Plug and Play Language Models: A Simple Approach to Controlled Text Generation

发表：2019/12/05

插拔式语言模型 (1)可控文本生成 (1)属性分类器指导生成 (1)大语言模型无训练调整 (1)主题与情感控制 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出的一种即插即用语言模型（PPLM），结合预训练语言模型与简单的属性分类器，无需对模型进行再训练即可实现可控文本生成。该方法通过引导生成过程中的激活，能够灵活地控制主题和情感，展现出良好的生成流畅性与属性对齐。

摘要

Large transformer-based language models (LMs) trained on huge text corpora have shown unparalleled generation capabilities. However, controlling attributes of the generated language (e.g. switching topic or sentiment) is difficult without modifying the model architecture or fine-tuning on attribute-specific data and entailing the significant cost of retraining. We propose a simple alternative: the Plug and Play Language Model (PPLM) for controllable language generation, which combines a pretrained LM with one or more simple attribute classifiers that guide text generation without any further training of the LM. In the canonical scenario we present, the attribute models are simple classifiers consisting of a user-specified bag of words or a single learned layer with 100,000 times fewer parameters than the LM. Sampling entails a forward and backward pass in which gradients from the attribute model push the LM's hidden activations and thus guide the generation. Model samples demonstrate control over a range of topics and sentiment styles, and extensive automated and human annotated evaluations show attribute alignment and fluency. PPLMs are flexible in that any combination of differentiable attribute models may be used to steer text generation, which will allow for diverse and creative applications beyond the examples given in this paper.

思维导图

论文精读

中文精读约 42 分钟读完 · 29,486 字

1. 论文基本信息

1.1. 标题

Plug and Play Language Models: A Simple Approach to Controlled Text Generation (即：即插即用语言模型：一种受控文本生成的简单方法)

1.2. 作者

Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, Rosanne Liu。作者团队来自 加州理工学院 (Caltech)、香港科技大学 (HKUST) 以及 Uber AI。

1.3. 发表期刊/会议

该论文于 2019年12月4日 在 arXiv 上发布，状态为预印本 (arXiv preprint)。

1.4. 发表年份

2019年。

1.5. 摘要

大型 Transformer 架构的语言模型 (LMs) 在海量文本语料库上训练后展现出无与伦比的生成能力。然而，在不修改模型架构或不针对特定属性数据进行微调 (fine-tuning) 的情况下，控制生成文本的属性（例如，切换主题或情感）非常困难，并且会带来显著的再训练成本。本文提出了一种简单的替代方案：即插即用语言模型 (Plug and Play Language Model, PPLM)，用于可控语言生成。PPLM 将一个预训练的语言模型与一个或多个简单的属性分类器相结合，以指导文本生成，而无需对语言模型进行任何额外的训练。在本文提出的经典场景中，属性模型是简单的分类器，由用户定义的词袋 (bag of words) 或一个参数量比语言模型少十万倍的单层学习模型构成。采样过程涉及一次前向传播 (forward pass) 和一次反向传播 (backward pass)，其中来自属性模型的梯度 (gradients) 会推动语言模型的隐藏激活 (hidden activations)，从而指导生成。模型样本展示了对一系列主题和情感风格的控制能力，广泛的自动化和人工评估结果表明属性对齐良好且文本流畅。PPLM 具有灵活性，任何可微分的属性模型组合都可以用于引导文本生成，这将允许在本文示例之外实现多样化和创造性的应用。

1.6. 原文链接

原文链接: https://arxiv.org/abs/1912.02164v4 PDF 链接: https://arxiv.org/pdf/1912.02164v4.pdf 发布状态：预印本 (arXiv preprint)。

2. 整体概括

2.1. 研究背景与动机

近年来，基于 Transformer 架构的大型语言模型 (Large Language Models, LMs)，如 GPT-2，通过在海量文本数据上进行无监督训练，展现了前所未有的文本生成能力。这些模型能够生成高度流畅、语法正确的文本，极大地推动了自然语言处理 (Natural Language Processing, NLP) 领域的发展。然而，这些强大的生成模型通常是无条件 (unconditional) 的，即它们主要学习文本序列的概率分布 p(x)。

核心问题： 一旦模型训练完成，如何有效地控制生成文本的特定属性，例如改变文本的主题 (topic)、情感 (sentiment) 或风格 (style)，而无需进行昂贵的模型再训练或架构修改，成为了一个重要的挑战。现有的方法通常需要：

修改模型架构： 为额外的输入属性设计新的模型结构。
在属性特定数据上进行微调 (fine-tuning)： 这需要大量带属性标注的数据，且每当需要控制新的属性时，都需要重新进行昂贵的微调过程。

这些方法的共同缺点是缺乏灵活性和高效性，使得对生成内容的细粒度控制变得困难且成本高昂。

2.2. 核心贡献/主要发现

本文通过提出 即插即用语言模型 (Plug and Play Language Model, PPLM) 解决了上述挑战，其核心贡献和主要发现如下：

提出 PPLM 框架： PPLM 引入了一种新颖的、基于梯度的 (gradient-based) 方法，将一个现有的、预训练的无条件语言模型（如 GPT-2）与一个或多个简单、可微分的属性模型 (attribute models) 灵活结合，以实现对生成文本属性的细粒度控制。
无需 LM 再训练： PPLM 最显著的优势在于，它无需对大型预训练语言模型的参数进行任何修改或再训练。属性控制是通过在语言模型的隐藏激活空间 (hidden activation space) 中进行梯度更新来实现的，这大大降低了实现可控生成的成本和复杂性。
简单的属性模型： 属性模型可以是极其简单的形式，例如用户定义的词袋 (Bag-of-Words, BoW) 列表，或者是一个参数量远小于语言模型的单层分类器 (single-layer classifier)。这使得用户可以轻松定义和构建针对特定控制需求的属性模型。
梯度引导生成机制： PPLM 的核心机制是在每个生成步骤中，通过从属性模型反向传播的梯度来“推动”语言模型的隐藏激活，使其生成的文本更倾向于包含期望的属性。同时，通过结合语言模型的原始概率和 KL 散度 (KL Divergence) 惩罚，确保生成文本的流畅性 (fluency) 不受影响。
广泛的控制能力验证： 论文通过实验证明了 PPLM 对多种属性的有效控制，包括：
- 主题控制： 使用词袋模型实现了对军事、科学、政治等七个不同主题的控制。
- 情感控制： 使用判别器模型实现了对正面和负面情感的控制。
- 语言解毒 (Language Detoxification)： 通过引导模型远离毒性 (toxicity) 属性，降低了生成冒犯性内容的风险。
- 受控故事创作 (Controlled Story Writing)： 用于辅助生成符合特定骨架和属性的故事。
全面的评估： 论文采用了自动评估（如 困惑度 (Perplexity)、Distinct N-grams）和人工评估（属性相关性、流畅性评分）相结合的方式，全面验证了 PPLM 在属性对齐和文本流畅性方面的表现。结果表明，PPLM 在不训练语言模型的情况下，性能可与甚至超越一些需要大规模训练或微调的基线模型。
灵活性与通用性： PPLM 框架的灵活性在于可以组合任意可微分的属性模型，为未来在多样化和创造性应用中实现更复杂的文本控制提供了广阔空间。

3. 预备知识与相关工作

3.1. 基础概念

理解 PPLM 框架需要对以下基础概念有清晰的认识：

语言模型 (Language Model, LM):
- 概念: 语言模型是一种统计模型，旨在计算一个词序列（或文本序列）的概率，即 $p(x_1, x_2, \ldots, x_n)$ 。它通过学习大量文本数据中的模式来预测下一个词。
- 应用: 可以用于预测缺失的词、纠正语法错误、以及文本生成。
- 预训练 (Pre-training): 指模型在大规模无标注文本数据上进行的初步训练，通常通过预测下一个词来学习语言的通用表示。
Transformer 架构 (Transformer Architecture):
- 概念: Transformer 是一种基于自注意力机制 (Self-Attention Mechanism) 的神经网络架构，由 Vaswani 等人于 2017 年提出。它摒弃了传统的循环神经网络 (Recurrent Neural Network, RNN) 或卷积神经网络 (Convolutional Neural Network, CNN) 结构，能够高效地并行处理序列数据，并捕捉长距离依赖。
- 关键组件: 包括多头自注意力 (Multi-Head Self-Attention) 和前馈网络 (Feed-Forward Network)。自注意力机制允许模型在处理序列的每个元素时，考虑序列中所有其他元素的重要性。
- 在 LM 中的应用: Transformer 已成为大型语言模型（如 GPT 系列）的主流架构，因其强大的并行计算能力和捕捉复杂语言模式的能力而广受欢迎。
受控文本生成 (Controlled Text Generation):
- 概念: 指生成符合特定约束或属性（如主题、情感、风格、长度等）的文本。与无条件生成不同，受控生成旨在在生成过程中加入用户指定的指导信息。
隐藏激活 (Hidden Activations) / 潜在表示 (Latent Representation):
- 概念: 在神经网络中，隐藏激活 指的是模型中间层神经元的输出。这些输出构成了输入数据的一种潜在表示，捕捉了数据的抽象特征。在 Transformer 中，这通常指 key-value 对或多层感知机 (Multi-Layer Perceptron, MLP) 的输出。
- 重要性: 改变这些隐藏激活可以影响模型的后续计算和最终输出，从而实现对生成文本的控制。
梯度上升 (Gradient Ascent) / 反向传播 (Backward Pass):
- 概念: 梯度上升 是一种优化算法，用于最大化一个函数。它通过沿着函数的梯度方向（即函数增长最快的方向）迭代更新参数。反向传播 是一种计算梯度的方法，通过从输出层向输入层反向传播误差，计算模型中所有参数对损失函数的贡献。
- 在 PPLM 中的应用: PPLM 利用属性模型的梯度，在语言模型的隐藏激活空间中执行梯度上升，以增加生成文本具有目标属性的概率。
词袋 (Bag-of-Words, BoW):
- 概念: 词袋模型 是一种简单的文本表示方法，它将文本视为一个无序的词的集合（一个“袋子”），忽略词的语法和顺序，只关注词的出现频率。
- 在 PPLM 中的应用: 用作一种简单的属性模型，通过计算生成文本中特定关键词（属于某个主题或情感）的概率总和来衡量属性强度。
判别器 (Discriminator) / 分类器 (Classifier):
- 概念: 判别器 或 分类器 是一种机器学习模型，其任务是根据输入数据预测其所属的类别或属性。例如，一个情感分类器可以判断一段文本是正面的还是负面的。
- 在 PPLM 中的应用: 用作一种更复杂的属性模型，学习从语言模型的潜在表示中预测文本的特定属性（如情感），并提供梯度信号。
困惑度 (Perplexity, PPL):
- 概念: 衡量语言模型预测下一个词的困难程度，是评估语言模型性能的常用指标。困惑度越低，表示模型对文本序列的预测能力越强，生成的文本越流畅和自然。
- 在 PPLM 中的应用: 用于自动评估生成文本的流畅性。
Distinct N-grams (Dist-1, Dist-2, Dist-3):
- 概念: 用于衡量生成文本的多样性。Dist-N 计算文本中不同 N-gram（连续 N 个词的序列）的数量与所有 N-gram 总数的比值。值越高表示文本多样性越好，重复度越低。
- 在 PPLM 中的应用: 用于自动评估生成文本的重复性和多样性。
Kullback-Leibler (KL) 散度 (Kullback-Leibler Divergence):
- 概念: KL 散度 是一种衡量两个概率分布之间差异的非对称指标。它表示当使用一个近似分布来表示真实分布时，所损失的信息量。
- 在 PPLM 中的应用: 作为一种正则化项，用于确保经过属性模型引导后的生成文本分布不会偏离原始语言模型的分布太远，从而维持文本的流畅性和自然度。

3.2. 前人工作

论文在 相关工作 (RELATED WORK) 部分详细探讨了当前受控文本生成领域的多种方法，并与 PPLM 进行了对比。

3.2.1. 受控生成 (Controlled generation)

强化学习 (Reinforcement Learning, RL) / 对抗生成网络 (Generative Adversarial Networks, GANs) / 条件生成模型 (Conditional Generative Models):
- 方法: 现有方法包括使用 强化学习 (Ziegler et al., 2019) 进行模型微调、训练 对抗生成网络 (Yu et al., 2017) 或直接训练 条件生成模型 (Kikuchi et al., 2016; Ficler & Goldberg, 2017)。这些方法通常需要针对每个特定属性重新训练或微调整个模型。
- 与 PPLM 的差异: PPLM 的关键优势在于其“即插即用”的特性，无需为每个新属性重新训练整个语言模型。这种方法更为灵活，且允许动态组合多个属性控制器。
CTRL (Keskar et al., 2019):
- 方法: CTRL 训练了一个具有 1.6B 参数的超大型语言模型，该模型通过约 50 种不同的控制码 (control codes) 来直接条件化 (condition) 生成过程。它通过最大化 $p(x|a)$ 来生成高质量文本。
- 与 PPLM 的差异: CTRL 的缺点在于需要预先固定控制码，并且训练一个如此庞大的模型成本极高。PPLM 不需要重新训练任何条件生成模型，语言模型和属性模型可以灵活地组装。
基于小型神经网络引导 LM 的工作 (Gu et al., 2016; 2017; Chen et al., 2018):
- 方法: 这些早期工作探索了使用小型神经网络来引导语言模型的思想。
- 与 PPLM 的差异: PPLM 更侧重于在预训练语言模型的潜在空间中进行梯度引导，并且强调“即插即用”的灵活性。
可恢复任意句子 (Subramani et al., 2019):
- 方法: 最近的工作表明，预训练的语言模型可以被引导以恢复任意句子。

3.2.2. 噪声信道建模 (Noisy Channel Modeling)

方法: 噪声信道理论 (Shannon, 1948) 被用于改进序列到序列模型，尤其是在机器翻译中 (Yu et al., 2016; 2019; Yee et al., 2019; Ng et al., 2019)。其核心思想是，从一个前向模型 $p_{\mathrm{forward}}(x|y)$ 中采样，然后根据 $p(x)p(y|x)$ 对样本进行重新排序 (reranking)。
与 PPLM 的差异: PPLM 也使用类似的评分公式，但由于 PPLM 没有前向或提议模型 $p_{\mathrm{forward}}(x|a)$ ，它依赖于潜在空间更新，这一点与 Plug & Play Generative Networks (PPGN) (Nguyen et al., 2017) 相似。简单地将 p(x) 作为前向模型然后进行重新排序 (BR 变体) 在某些情况下表现一般，在其他情况下表现不佳。

3.2.3. 加权解码 (Weighted Decoding, WD)

方法: 加权解码 旨在通过修改解码过程来考虑评分函数，从而实现受控语言生成 (Holtzman et al., 2018; Ghazvininejad et al., 2017)。例如，Ghazvininejad et al. (2017) 依赖于从特定主题的关键词集中采样。
与 PPLM 的差异: $See et al. (2019)$ 指出，加权解码 难以控制，并常常牺牲流畅性和连贯性。Ghazvininejad et al. (2017) 严重依赖于关键词集，无法以不必然包含关键词的方式偏向某个主题。PPLM 通过在潜在表示空间中进行梯度更新，能够更细粒度地引导生成，即使是不在 词袋 中的相关词汇也能被生成。

3.2.4. 文本风格迁移 (Text Style Transfer)

方法: 文本风格迁移 研究将文本从一种风格转换为另一种风格的任务 (Shen et al., 2017; Hu et al., 2017; Li et al., 2018; Lample et al., 2019)。这些方法通常涉及学习解耦的潜在表示 (disentangled latent representations) 或基于 n-gram 替换。
与 PPLM 的差异: 这些工作的核心关注点不是“即插即用”的受控语言生成。PPLM 使用离线判别器进行优化，Elazar & Goldberg (2018) 认为这种方法可能优于对抗训练方法。

3.3. 技术演进与差异化分析

PPLM 处于大型语言模型生成能力与灵活控制需求交叉点的技术脉络中。早期语言模型主要是无条件生成，缺乏对输出的直接控制。为了实现控制，研究人员转向了：

端到端训练条件模型： 训练一个从头开始就考虑控制属性的模型（如 CTRL）。这种方法效果好但成本高昂且不灵活。
微调现有模型： 对预训练模型进行微调以适应特定属性（如 GPT2-FT-RL）。这虽然比从头训练便宜，但仍需要大量标注数据，且对每个新属性都需要重复。
解码阶段干预： 在模型的解码（采样）阶段直接修改概率分布（如 加权解码）。这种方法简单但可能牺牲文本质量和控制粒度。

PPLM 的创新点在于它避开了上述方法的缺点，提出了一种成本低廉、高度灵活且无需再训练大型语言模型的受控生成范式。它借鉴了计算机视觉领域 PPGN 的思想，通过在连续的潜在表示空间中进行梯度引导，实现了比简单解码干预更深层次、更自然的控制。这种方式允许将强大的、通用的预训练语言模型 p(x) 与小型、定制化的属性模型 $p(a|x)$ 解耦 (decoupled) 并灵活组合，从而在保持 LM 生成流畅性的同时，有效地引导生成方向。这种解耦和即插即用特性，是 PPLM 与现有技术最核心的差异。

4. 方法论

PPLM 的核心思想是将一个预训练的无条件语言模型 (unconditional language model) p(x) 与一个或多个简单属性模型 (attribute models) $p(a|x)$ 结合起来，以实现对生成文本的属性控制。其基本原理是，通过在语言模型的隐藏激活 (hidden activations) 空间中进行梯度更新，从而引导文本生成朝向期望的属性，同时通过正则化手段维持文本的流畅性。

4.1. 方法原理

PPLM 的目标是生成符合特定属性 $a$ 的文本 $x$ ，即建模 $p(x|a)$ 。根据贝叶斯定理，这个条件概率可以近似表示为： $p(x|a) \propto p(a|x)p(x)$ 其中 p(x) 是预训练的无条件语言模型，而 $p(a|x)$ 是一个衡量文本 $x$ 具有属性 $a$ 的可能性的属性模型（判别器）。PPLM 通过迭代地修改语言模型的内部隐藏状态，使其生成下一个词的概率分布更倾向于满足属性 $a$ ，同时又不过度偏离原始语言模型的自然分布。

4.2. 核心方法详解

4.2.1. 基于 Transformer 的语言模型 (LANGUAGE MODELING WITH TRANSfoRMERS)

首先，我们回顾基于 Transformer 的语言模型如何生成文本。给定一个词元序列 $X = \{x_0, \ldots, x_n\}$ ，语言模型旨在计算该序列的无条件概率 p(X)。根据链式法则 (chain-rule)，这可以表示为一系列条件概率的乘积： $p ( { \boldsymbol { X } } ) = \prod _ { i = 1 } ^ { n } p ( x _ { i } | x _ { 0 } , \cdot \cdot \cdot , x _ { i - 1 } )$ 在实践中，Transformer 模型会利用历史信息高效地生成下一个词元。我们可以将 Transformer 的生成过程表示为一种递归形式： $o _ { t + 1 } , H _ { t + 1 } = \mathbf { L M } ( x _ { t } , H _ { t } )$ 这里，LM 代表语言模型本身， $x_t$ 是当前时间步生成的词元， $H_t$ 是历史矩阵 (history matrix)，它包含了从时间步 0 到 $t$ 的所有 Transformer 层生成的 key-value 对。这些 key-value 对构成了过去所有词元的上下文信息。 $o_{t+1}$ 是语言模型预测的下一个词元的逻辑值向量 (logit vector)。通过对逻辑值向量 $o_{t+1}$ 进行线性变换 $W$ 映射到词汇表大小的向量，再通过 Softmax 函数转换为概率分布，我们就可以从中采样下一个词元 $x_{t+1}$ ： $x _ { t + 1 } \sim p _ { t + 1 } = \operatorname { S o f t m a x } ( W o _ { t + 1 } )$ 这个过程允许模型在不重新计算整个历史上下文的情况下，高效地生成文本。

4.2.2. 引导生成：提升 $\log p(a|x)$ (STEERING GENERATION: ASCENDING $\log p ( a | x )$ )

为了控制语言模型的输出，PPLM 在每个生成步骤 $t$ 会对历史矩阵 $H_t$ 进行调整。这种调整的目的是使其在下一个词元生成时，更倾向于产生具有所需属性 $a$ 的文本。调整方向是朝着属性模型 $p(a|x)$ 的对数似然 (log-likelihood) 增加的方向。

具体来说，定义 $\Delta H_t$ 为对 $H_t$ 的更新量。初始时 $\Delta H_t$ 为零。PPLM 使用来自属性模型的梯度来更新 $\Delta H_t$ ，以增加生成文本拥有期望属性的似然。属性模型 $p(a|x)$ 可以重新写作 $p(a|H_t + \Delta H_t)$ ，因为未来词元的生成依赖于当前的历史状态。梯度更新的公式如下： $\Delta H _ { t } \gets \Delta H _ { t } + \alpha \frac { \nabla _ { \Delta H _ { t } } \log p ( a | H _ { t } + \Delta H _ { t } ) } { \| \nabla _ { \Delta H _ { t } } \log p ( a | H _ { t } + \Delta H _ { t } ) \| ^ { \gamma } }$

$\Delta H_t$ : 对语言模型历史矩阵 $H_t$ 的更新量。
$\alpha$ : 步长 (step size)，控制梯度更新的强度。
$\nabla _ { \Delta H _ { t } } \log p ( a | H _ { t } + \Delta H _ { t } )$ : 属性模型对数似然关于 $\Delta H_t$ 的梯度，指示了增加属性似然的方向。
$\| \nabla _ { \Delta H _ { t } } \log p ( a | H _ { t } + \Delta H _ { t } ) \|$ : 梯度的 L2 范数，用于归一化梯度。
$\gamma$ : 归一化项的缩放系数 (scaling coefficient)。当 $\gamma=1$ 时，是标准梯度归一化；当 $\gamma=0$ 时，没有归一化。通过调整 $\gamma$ ，可以控制梯度对更新的相对影响力。

这个更新过程可以重复 $m$ 次（实践中通常是 3 到 10 次）以获得更强的引导效果。完成 $\Delta H_t$ 的更新后，得到修改后的历史矩阵 $\widetilde { H } _ { t } = H _ { t } + \Delta H _ { t }$ 。然后，语言模型使用这个更新后的历史矩阵和当前词元 $x_t$ 进行前向传播，得到新的逻辑值向量 $\widetilde { o } _ { t + 1 }$ ： $\widetilde { o } _ { t + 1 } , H _ { t + 1 } = \mathrm { L M } ( x _ { t } , \widetilde { H } _ { t } )$ 这个被扰动的 $\widetilde { o } _ { t + 1 }$ 将用于生成一个新的词元概率分布 $\widetilde { p } _ { t + 1 }$ 。 图1 (Figure 1) 简化地展示了 PPLM 的三阶段方法：

前向传播 (Forward Pass): 通过语言模型计算文本具有所需属性的似然 $p(a|x)$ 。
反向传播 (Backward Pass) 和潜在表示更新: 利用属性模型的梯度，更新语言模型的内部潜在表示 $H_t$ ，以提高文本具有所需属性的似然。
生成新分布和采样: 从更新后的潜在表示 $H_t$ 和当前词元 $x_t$ 生成新的词汇分布 $\widetilde { p } _ { t + 1 }$ ，并从中采样下一个词元。这个过程在每个时间步重复，实现向期望属性的逐渐过渡。为了提高计算效率，可以选择仅修改最近过去的潜在表示窗口（图中红色虚线区域所示）。

$Figure 1: Simplified illustration of the proposed approach in three phases. In Step 1, a forward pass is performed through the language model to compute the likelihood of a desired attribute using an attribute model that predicts $p ( a | x )$ . In Step 2, a backward pass updates the internal latent representations of the LM, using gradients from the atribute model, to increase the likelihood of the passage having the desired attribute. In Step 3, a new distribution over the vocabulary $( \\widetilde { p } _ { t + 1 } )$ is generated from the updated latents $( \\widetilde { H } _ { t } )$ and the current token `x _ { t }` . The next token is then sampled from the updated distribution. This process of updating the latents is repeated at each time-step, leading to a gradual transition towards the desired attribute. For computational efficiency, one may choose to modify only the latents within some window of the recent past, depicted as the dotted-red region.$ 该图像是示意图，展示了Plug and Play语言模型的三个阶段。第一步通过语言模型进行前向传播，以计算所需属性的可能性。第二步利用属性模型的梯度对语言模型的内部潜在表示进行更新。第三步生成新的词汇分布，并从中采样下一个 token。逐步更新潜在表示的过程使生成的文本朝向期望的属性过渡，图中以红色虚线区域表示可选择更新的最近潜在表示窗口。

Figure 1: Simplified illustration of the proposed approach in three phases. In Step 1, a forward pass is performed through the language model to compute the likelihood of a desired attribute using an attribute model that predicts $p ( a | x )$ . In Step 2, a backward pass updates the internal latent representations of the LM, using gradients from the atribute model, to increase the likelihood of the passage having the desired attribute. In Step 3, a new distribution over the vocabulary $( \widetilde { p } _ { t + 1 } )$ is generated from the updated latents $( \widetilde { H } _ { t } )$ and the current token x _ { t } . The next token is then sampled from the updated distribution. This process of updating the latents is repeated at each time-step, leading to a gradual transition towards the desired attribute. For computational efficiency, one may choose to modify only the latents within some window of the recent past, depicted as the dotted-red region.

4.2.3. 确保流畅性：提升 $\log p(x)$ (ENSurING FLuENCy: ASCENDING $\log p ( x )$ )

仅根据属性模型的梯度引导生成文本，可能会导致文本快速进入低概率区域，产生不真实或对抗性示例，从而损害流畅性。为了解决这个问题，PPLM 采用了两种机制来确保生成文本的流畅性接近或保持在原始无条件语言模型的水平：

4.2.3.1. Kullback-Leibler (KL) 散度 (Kullback-Leibler (KL) Divergence)

除了上述梯度更新步骤外，PPLM 还会更新 $\Delta H_t$ 以最小化修改后的语言模型输出分布与未修改的语言模型输出分布之间的 KL 散度。这通过在梯度计算中添加一个 KL 散度 项来实现，实际上是平衡了属性引导和原始语言模型分布的保持。 $\mathcal{L}_{total} = \log p(a|H_t + \Delta H_t) - \lambda_{KL} \cdot \mathrm{KL}(p_{t+1} || \widetilde{p}_{t+1})$ 在实际操作中，这通过将 KL 散度 的梯度部分与属性梯度的部分相加来实现。KL 散度 的权重超参数 $\lambda_{KL}$ 通常设置为 0.01。

$\lambda_{KL}$ : KL 散度 项的权重，平衡属性控制和流畅性。

4.2.3.2. 后范数几何平均融合 (Post-norm Geometric Mean Fusion)

除了 KL 散度 最小化（影响过去的历史状态）之外，PPLM 还在生成下一个词元时，对修改后的概率分布 $\widetilde { p } _ { t + 1 }$ 和原始语言模型的概率分布 $p _ { t + 1 }$ 进行几何平均融合 (geometric mean fusion)。这确保了生成的文本能够持续与无条件语言模型保持关联。 $x _ { t + 1 } \sim \frac { 1 } { \beta } \left( \widetilde { p } _ { t + 1 } ^ { \gamma _ { g m } } p _ { t + 1 } ^ { 1 - \gamma _ { g m } } \right)$

$\widetilde { p } _ { t + 1 }$ : 经过潜在表示更新后的语言模型输出分布。
$p _ { t + 1 }$ : 未经修改的原始语言模型输出分布。
$\gamma _ { g m }$ : 几何平均融合强度参数 (geometric mean fusion strength parameter)，控制融合的强度。当 $\gamma_{gm} \to 1$ 时，分布趋近于更新后的 LM 分布；当 $\gamma_{gm} \to 0$ 时，分布趋近于原始的无条件 LM 分布。
$\beta$ : 归一化因子，确保融合后的分布是一个有效的概率分布。

实践中， $\gamma_{gm}$ 的值通常在 0.8 到 0.95 之间效果良好。 图2 (Figure 2) 形象地说明了同时最大化 $\log p(a|x)$ 和 $\log p(x)$ 的必要性。句子被看作一个黑点，首先被推向最大化 $\log p(a|x)$ 的方向，然后被推向最大化 $\log p(x)$ 的方向。在实际操作中，PPLM 在连续的隐藏表示空间 $H$ 中进行操作，而不是离散的词元空间，并且每采样一个字节对（byte-pair），只在 $H$ 空间中进行一步更新。

$Figure 2: An oversimplified view into why steps that maximize both $\\log p ( a | x )$ and $\\log p ( x )$ are needed. The sentence under consideration is shown as a black dot, which is first pushed in the direction of maximizing $\\log p ( a | x )$ and then in the direction of maximizing $\\log p ( x )$ . In practice we use a single step and simply add the log probabilities; we take steps in continuous space of hidden representations $H$ rather than in the discrete $x$ (byte pair) space, and rather than resampling the entire sentence each step, we take one step in $H$ space per byte-pair sample.$ 该图像是示意图，展示了最大化 $\log p(a | x)$ 和 $\log p(x)$ 的步骤关系。图中用黑点表示待考虑的句子，先沿着最大化 $\log p(a | x)$ 的方向移动，再沿着最大化 $\log p(x)$ 的方向前进。箭头指示了在连续隐藏表示空间 $H$ 中的移动，而非离散的字节对空间 $x$ ，强调了每步仅在 $H$ 空间中进行调整。

Figure 2: An oversimplified view into why steps that maximize both $\\log p ( a | x )$ and $\\log p ( x )$ are needed. The sentence under consideration is shown as a black dot, which is first pushed in the direction of maximizing $\\log p ( a | x )$ and then in the direction of maximizing $\\log p ( x )$ . In practice we use a single step and simply add the log probabilities; we take steps in continuous space of hidden representations $H$ rather than in the discrete $x$ (byte pair) space, and rather than resampling the entire sentence each step, we take one step in $H$ space per byte-pair sample.

4.2.4. 采样和排序 (SAMPLING AND RANKING)

PPLM 中的属性模型 $p(a|x)$ 具有双重功能：

评分功能: 属性模型可以提供一个分数，用于根据期望属性的对数似然对生成的样本进行排序。这可以在生成多个候选样本后，选择与目标属性最匹配的一个。
梯度引导功能: 提供梯度上升方向，用于更新语言模型的潜在空间。

为了避免生成重复、低质量的文本（通常是大型语言模型的一个问题），PPLM 还计算 Dist-1、Dist-2 和 Dist-3 分数的平均值（作为重复性指标），并丢弃平均分数低于某个阈值 $\tau$ 的样本。

4.2.5. 词袋属性模型 (BOW ATTRIBUTE MODELS)

词袋 (Bag-of-Words, BoW) 模型是最简单的属性模型之一。它通过一个预定义的关键词集合来指定一个感兴趣的主题或情感。给定一个关键词集合 $\{w_1, \ldots, w_k\}$ 和语言模型的输出分布 $p_{t+1}$ ，属性的对数似然计算如下： $\log p ( a | x ) = \log \Big ( \sum _ { i } ^ { k } p _ { t + 1 } [ w _ { i } ] \Big ) .$

$w_i$ : 词袋 中的第 $i$ 个关键词。
$k$ : 词袋 中关键词的数量。
$p_{t+1}[w_i]$ : 语言模型在当前时间步预测生成词元 $w_i$ 的概率。

这个公式鼓励生成 词袋 中包含的词汇。论文发现，增加 词袋 中词汇的生成概率，也会增加与该属性相关的但不在 词袋 中的词汇的生成概率。

4.2.6. 判别器属性模型 (DISCRIMINATOR ATTRIBUTE MODELS)

当属性难以用简单的 词袋 表达时，使用更复杂的判别器作为属性模型是可取的。PPLM 训练了一个单层分类器 (single-layer classifier) 作为判别器。

具体地，判别器在一个带有输入句子 $x$ 和对应标签 $y_x$ 的数据集上进行训练。对于长度为 $t$ 的输入 $x$ ，语言模型会计算其嵌入（embeddings）的均值 $\bar{o}_t^x$ 。判别器 $f$ 在这个均值嵌入上进行训练，以预测目标标签。判别器的参数量（embedding-dimension $\times$ number of attributes + number of attributes）远小于语言模型。尽管损失函数是整个序列的函数，PPLM 采用一种贪婪的方法：它只优化生成下一个词元，使其在期望上具有更高概率拥有所需属性。这个目标可以描述为： $\log p ( a | x ) = \log f ( o _ { : t + 1 } , o _ { t + 2 } )$

$f$ : 判别器模型。
$o_{:t+1}$ : 截至当前时间步 $t+1$ 的语言模型输出表示。
$o_{t+2}$ : 预测的下一个词元 $x_{t+1}$ 对应的语言模型输出表示。

由于 $o_{t+2}$ 是 $x_{t+1}$ 的函数，而 $x_{t+1}$ 是从 $\mathrm{Softmax}(W\widetilde{o}_{t+1})$ 中采样得到，这最终依赖于 $\Delta H_t$ 。为了避免生成文本的多样性降低和退化，PPLM 不使用硬采样 $x_{t+1}$ ，而是使用分布 $\widetilde{p}_{t+1}$ ，将其前向传播以获得下一个词元嵌入的估计值（带有偏差），然后更新 $\Delta H_t$ 。

4.2.7. 超参数与补充细节 (SUPPLEMENTARY INFORMATION)

4.2.7.1. 早期停止潜在更新 (Early Stopping of Latent Updates)

当 步长 $\alpha$ 过大时，语言生成可能会出现重复词元的退化 (degeneration) 问题，特别是对于 BoW 控制。为了防止这种现象，除了减小 $\alpha$ 外，还可以选择在生成的前几个时间步之后，停止对潜在表示的更新。例如，在某些实验中，仅在前 20 个时间步进行潜在更新，显著减少了文本退化。

4.2.7.2. 有限视窗更新 (Finite Horizon Update)

传统的潜在更新会修改历史矩阵 $H_t$ 中的所有 key-value 对。为了减少计算量并可能改善流畅性，可以只修改与最近 $w$ 个词元对应的 key-value 对。即，在每个时间步 $t$ ，只修改 $H_t[t-w:t]$ 。论文发现，对于 词袋 控制，设置 $w=5$ 可以产生更流畅的文本。而对于神经网络属性模型，则更新整个潜在历史。

4.2.7.3. 自适应梯度归一化 (Adaptive Gradient Normalization)

对于 词袋 属性模型，目标是让 词袋 中的词至少出现一次，而不是在每个时间步都出现。因此，PPLM 采用自适应梯度归一化，不直接用当前梯度范数归一化，而是用历史上最大梯度范数归一化。这使得在 词袋 词汇不太可能出现时进行较小的更新。形式上，时间步 $t$ 的归一化常数是 \operatorname { max } _ { i = 0 \ldots t } \| \nabla _ { H ^ { ( i ) } } \mathcal { L } \big ( o _ { i + 1 } \big ) \|。

5. 实验设置

5.1. 数据集

论文使用了以下数据集来训练属性模型和进行评估：

SST-5 (Socher et al., 2013): 用于训练情感判别器。这是一个包含电影评论的数据集，通常用于细粒度情感分类。
Toxic Comment Classification Challenge (Jigsaw): 用于训练毒性分类器。这是一个包含用户评论的数据集，其中评论被标记为不同类型的毒性（如侮辱、威胁、淫秽等）。
IMDB Movie Reviews (Maas et al., 2011): 作为外部情感分类器进行评估的数据集。这是一个大规模的电影评论数据集，用于二元情感分类。
自定义词袋 (Bag-of-Words, BoW) 列表: 用于定义七个不同的主题：SCIENCE (科学)、MILITARY (军事)、LEGAL (法律)、COMPUTERS (计算机)、SPACE (太空)、POLITICS (政治)、RELIGION (宗教)。这些词列表是从 $www.enchantedlearning.com/wordlist$ 上 curated 的。

BoW 关键词列表示例 (S17):

Science: astronomy, atom, biology, cell, chemical, chemistry, climate, control, data, electricity, element, energy, evolution, experiment, fact, flask, fossil, funnel, genetics, gravity, hypothesis, lab, laboratory, laws, mass, matter, measure, microscope, mineral, molecule, motion, observe, organism, particle, phase, physics, research, scale, science, scientist, telescope, temperature, theory, tissue, variable, volume, weather, weigh
Religion: Absolute, Affect, Aid, Angel, Anthem, Apostle, Archangel, Archbishop, Balance, Ban, Belief, Benefit, Bible, Bishop, Bless, Blessing, Bliss, Bond, Bow, Buddhism, Canon, Cantor, Cathedral, Celestial, Chapel, Charity, Choice, Christianity, Church, Comfort, Community, Conflict, Connection, Conquest, Conservative, Control, Conversion, Convert, Core, Counsel, Courage, Covenant, Creative, Creator, Creed, Cross, Crusade, Darkness, Decision, Deity, Destiny, Devil, Disciple, Discipline, Discussion, Divine, Divinity, Doctrine, Duty, Effect, Elder, Energy, Essence, Eternal, Ethics, Event, Evidence, Exile, Exodus, Faith, Family, Fate, Father, Favor, Fundamental, Gift, Glory, God, Gospel, Grace, Growth, Guru, Habit, Hallow, Halo, Happiness, Harmony, Healing, Heaven, Hebrew, Holy, Honor, Hope, Host, Humane, Immortal, Influence, Insight, Instruction, Issue, Jesuit, Jesus, Joy, Judaism, Judgment, Justice, Karma, Keen, Keystone, Kingdom, Latin, Life, Light, Love, Loving, Marriage, Meaning, Mercy, Messiah, Minister, Miracle, Mission, Mortal, Mosque, Movement, Music, Mystery, Nature, Nun, Official, Oracle, Order, Organ, Orthodox, Outlook, Pacific, Pagan, Parish, Participation, Pastor, Patriarch, Peace, Perception, Personal, Perspective, Petition, Pilgrim, Politics, Power, Practice, Prayer, Prelude, Presence, Priest, Principle, Privacy, Prophet, Protection, Purpose, Query, Quest, Question, Quiet, Radiant, Radical, Rally, Rebirth, Redemption, Refuge, Relationship, Relative, Religion, Religious, Revelation, Ritual, Role, Sacrament, Sacred, Sacrifice, Sage, Saint, Salvation, Sanctuary, Savior, Scripture, Scriptures, Sect, Security, Sense, Serious, Serve, Service, Sharia, Shepherd, Shrine, Silence, Sin, Society, Soul, Source, Spirit, Spiritual, Split, Statue, Sunday, Support, Supreme, Teaching, Temple, Tests, Text, Torah, Tradition, Traditional, Trust, Unique, Unity, Unknown, Value, Vanity, Virtue, Vision, Voice, Voices, Watch, Weight, Whole, Wisdom, Wonder, Yang, Yin, Zeal

前缀 (Prefixes):

PPLM-BoW 评估： 20 个前缀，随机选自 www2.eit.ac.nz/library/ls_guides_sentencestarters.html，例如 "In summary", "This essay discusses", "The issue focused on" 等。
PPLM-Discrim 评估： 15 个前缀，例如 "Once upon a time", "The chicken", "The country" 等。

5.2. 评估指标

论文使用了自动评估和人工评估两种方法来衡量生成文本的质量：

5.2.1. 自动评估 (Automated Evaluation)

困惑度 (Perplexity, PPL):
1. 概念定义： 困惑度 是衡量语言模型预测下一个词元 (token) 的困难程度的指标。它通过计算模型对文本序列的平均概率的倒数来衡量。困惑度值越低，表示语言模型对文本的预测越自信和准确，通常意味着生成的文本越流畅、自然。
2. 数学公式： $\text{PPL}(X) = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log p(x_i | x_1, \ldots, x_{i-1})\right)$
3. 符号解释：
  - $X = \{x_1, \ldots, x_N\}$ : 输入的词元序列。
  - $N$ : 序列中词元的总数量。
  - $p(x_i | x_1, \ldots, x_{i-1})$ : 语言模型在给定前 i-1 个词元的情况下，预测第 $i$ 个词元的概率。
- 在 PPLM 中的应用： PPLM 使用一个不同的预训练语言模型 GPT (Radford et al., 2018a) 来计算生成文本的困惑度，以评估其流畅性。
Distinct N-grams (Dist-1, Dist-2, Dist-3):
1. 概念定义： Distinct N-grams 是衡量生成文本多样性 (diversity) 的指标，可以反映文本的重复程度。Dist-N 计算文本中所有不同 N-gram（连续 N 个词元的序列）的数量与文本中所有 N-gram 总数的比值。值越高，表示文本中包含的独特词元序列越多，文本的重复性越低，多样性越好。
2. 数学公式： $\text{Dist-N} = \frac{\text{Count}(\text{Unique N-grams})}{\text{Count}(\text{Total N-grams})}$
3. 符号解释：
  - Count(Unique N-grams): 文本中不重复的 N-gram 的数量。
  - Count(Total N-grams): 文本中所有 N-gram 的总数量。
- 在 PPLM 中的应用： 论文报告了 Dist-1、Dist-2 和 Dist-3 分数，用于衡量在给定属性控制任务下（例如特定主题）所有生成样本的整体多样性。
外部情感分类器 (External Sentiment Classifiers):
1. 概念定义： 这是一个独立训练的分类器，用于判断文本的情感（如正面或负面）。它的作用是客观地评估 PPLM 在情感控制任务中的准确性，避免使用 PPLM 自身内部的属性模型进行自评估。
2. 在 PPLM 中的应用： 对于情感控制任务，论文使用了一个在 IMDB 电影评论数据集上训练的情感分类器来评估生成文本的情感准确性。

5.2.2. 人工评估 (Human Evaluation)

流畅性 (Fluency):
1. 概念定义： 评估生成文本的语法正确性、连贯性和自然度。人类评估者根据文本的阅读体验和语言质量进行主观评分。
2. 评估方式： 评估者被要求以 1-5 的等级对每个样本的流畅性进行评分，1 代表“完全不流畅”，5 代表“非常流畅”。
3. 在 PPLM 中的应用： 与 Lample et al. (2019) 的方法类似，使用 9 位外部专业评估者对每个样本进行评估，并取三位评估者的平均分。
属性相关性 (Attribute Relevance) / A/B 测试:
1. 概念定义： 评估生成文本在多大程度上符合期望的属性（如主题或情感）。
2. 评估方式： 采用 A/B 测试 方式。评估者会看到两段文本（例如，一段来自 PPLM，一段来自基线模型），并被要求根据所需属性（如主题相关性、情感强度）对它们进行排名。评估者可以选择“两者都不是”或“两者都是”来处理质量相似的文本。
3. 在 PPLM 中的应用： 对所有四种消融研究变体 ( $B$ , BR, BC, BCR) 的组合对进行评估，每个文本对由三名评估者独立判断，并使用多数投票来确定属性相关性。

5.3. 对比基线

论文将 PPLM 方法与几种当前最先进的 (state-of-the-art) 或具有代表性的受控生成方法进行了比较：

CTRL (Keskar et al., 2019):
- 描述： 一个大规模的条件 Transformer 语言模型 (Conditional Transformer Language Model)，通过超过 50 种不同的控制码进行训练。它是一个强基线，因为它直接训练来最大化 $p(x|a)$ 。
- PPLM 的匹配方式： 对于 PPLM-BoW 的 7 个主题，有 5 个可以在 CTRL 中找到匹配的控制码。对于情感控制，使用 Reviews 控制码并附加高/低评分。
- 采样方式： CTRL 使用近乎贪婪的采样方法，每个前缀生成一个样本。
GPT2-FT-RL (Ziegler et al., 2019):
- 描述： 一个通过人类反馈使用 强化学习 (Reinforcement Learning, RL) 微调的 GPT-2 模型。该模型在摘要和特定风格的文本续写方面表现出色，特别是在生成正面情感文本方面。
- PPLM 的匹配方式： 用于与 PPLM-Discrim 的正面情感控制进行比较。
- 采样方式： 为每个前缀生成三个样本。
WD (Weighted Decoding) (Ghazvininejad et al., 2017):
- 描述： 一个基于加权解码的弱基线，直接在解码过程中将条件融入，以增加特定关键词或属性的采样概率。
- 主题控制 (BoW): 通过修改采样分布 $\widetilde{p}_{t+1}(w_i) = p_{t+1}(w_i) + \tau \mathbb{1}_{\text{BoW}}(w_i) p_{t+1}(w_i)$ ，其中 $\tau$ 控制权重， $\mathbb{1}_{\text{BoW}}(w_i)$ 是指示函数。
- 情感控制 (Discriminator): 通过从 \widetilde{p}_{t+1}(w_i) \propto p(a=\hat{a} | x_{0:t}, w_i) p_{t+1}(w_i) 分布中采样。
消融研究 (Ablation Study) 变体:
- B (Baseline): 未经修改的 GPT-2 语言模型，只采样一次。
- BR (Baseline + Reranking): $B$ 模型，但采样 $r$ 次，根据属性模型的对数似然进行排序，并根据 Dist 分数过滤后选择最佳样本。
- BC (Baseline + Latent Update): 更新语言模型的潜在表示 $(\widetilde{H}_t)$ ，然后采样一次。
- BCR (Baseline + Latent Update + Reranking): 更新潜在表示 $(\widetilde{H}_t)$ 并生成 $r$ 个样本，根据对数似然分数选择最佳样本（在过滤掉低 Dist 分数的样本后）。

5.4. 超参数 (Hyperparameters)

论文在 S11 部分提供了每个任务中使用的超参数。以下是关键超参数及其在不同任务中的设置：

以下是原文 Table S18 的结果：

Method Type	Attribute	Hyperparameters
PPLM-BoW	Politics, Legal, Computers, Space,Science, Military	m = 3, λkl = 0.01, α = 0.01, γ =1.5, γgm = 0.9, r = 10, τ = 0.85
PPLM-BoW	Religion	m = 3, λkl = 0.01, α = 0.01, γ =1.5, γgm = 0.8, r = 10, τ = 0.85
PPLM-Discrim	POsitive, NEGativE	m = 10, λkl = 0.01, α = 0.03, γ =1.0, γgm = 0.95, r = 10, τ = 0.9
PPLM-Discrim	Detoxicification	m = 10, λkl = 0.01, α = 0.02, γ =1.0, γgm = 0.9, r = 1, τ = 0

$m$ : 梯度更新的迭代次数。
$\lambda_{KL}$ : KL 散度 项的权重。
$\alpha$ : 梯度更新的步长。
$\gamma$ : 梯度归一化项的缩放系数。
$\gamma_{gm}$ : 几何平均融合强度参数。
$r$ : 生成样本的数量（用于排序）。
$\tau$ : Dist 分数过滤的阈值。

6. 实验结果与分析

论文通过对 词袋 (BoW) 属性模型和 判别器 (Discriminator) 属性模型进行广泛的自动化和人工评估，以及与多种基线方法的比较，验证了 PPLM 在可控文本生成方面的有效性和优势。

6.1. 核心结果分析

6.1.1. 词袋属性模型 (BoW Attribute Models)

PPLM-BoW 实验在 7 个不同主题上进行，使用 GPT-2 345M 作为基础语言模型。

以下是原文 Table 4 的结果：

Method	− Topic % (↑ better) (human)	Perplexity (↓ better)	Dist-1 (↑ better)	Dist-2 (↑ better)	Dist-3 ( better)	Fluency (↑ better) (human)
B	11.1	39.85±35.9	0.37	0.79	0.93	3.60±0.82
BR	15.8	38.39±27.14	0.38	0.80	0.94	3.68±0.77
BC	46.9	43.62±26.8	0.36	0.78	0.92	3.39±0.95
BCR	51.7	44.04±25.38	0.36	0.80	0.94	3.52±0.83
CTRL	50.0	24.48±11.98	0.40	0.84	0.93	3.63±0.75
BCR	56.0		−	−	−	3.61±0.69
WD	35.7	32.05±19.07	0.29	0.72	0.89	3.48±0.92
BCR	47.8	−	−	−	−	3.87±0.71

属性控制效果显著：
- 在人工评估的主题相关性 (Topic %) 方面，BCR（潜在表示更新 + 排序）达到了 51.7%，BC（仅潜在表示更新）达到了 46.9%。这与基线 $B$ (11.1%) 和仅排序 BR (15.8%) 相比，显示出显著的属性控制能力提升。
- 这表明潜在表示的梯度操作比简单的样本排序（仅根据似然选择最佳样本）对主题控制的影响更大，证实了在模型内部改变意义的有效性。加权解码 (WD) 直接控制输出分布，表现相对较差（35.7%），也进一步印证了潜在空间更新的优越性，因为它能引导生成与主题相关的非 词袋 词汇。
流畅性与多样性：
- BC 和 BCR 在流畅性 (Fluency) 评分上略有下降（BC 3.39，BCR 3.52），但与基线 $B$ (3.60) 相比降幅很小。
- 困惑度 (Perplexity) 略有增加，但也处于可接受范围。
- Dist-1、Dist-2、Dist-3 分数（衡量多样性）在所有变体中保持相似水平，表明 PPLM 在控制主题的同时没有牺牲文本多样性。
与基线的比较：
- BCR 在主题相关性方面略优于 CTRL (51.7% vs 50.0%)，并显著优于 WD (51.7% vs 35.7%)。
- 在流畅性方面，BCR、CTRL 和 WD 表现相似。
- 这证明 PPLM 在不进行语言模型训练的情况下，能达到与甚至超越一些需要大规模训练或微调的强基线相媲美的性能。
  
  主题相关性人工评估（图 S3）： 从下图可以看出，采取 PPLM 梯度步骤 (B -> BC) 对主题相关性有显著影响。重新排序 (B -> BR; BC -> BCR) 也有帮助。未受扰动的 GPT-2 生成 (B) 也显示了不同主题的大致分布，这可能反映了其训练数据中主题的分布。某些主题，如科学，自然出现得相当频繁。
  
  $Figure S3: Topic relevance by human evaluation. We can see that taking a PPLM gradient step $( \\mathrm { B \\to B C } )$ makes a big difference. Reranking is mostly helpful $_ \\mathrm { B \\to B R }$ ; $\\mathbf { B C } { } \\mathbf { B C R }$ . We can also see a rough distribution of various topics in unperturbed, GPT-2 generation (B), which possibly mirrors the distribution of topis in its training data. Some topics, like science, naturally appear rather frequently.$ 该图像是图表，展示了不同主题的相关性，分别为基线（B）、基线加重新排序（BR）、梯度（BC）和梯度加重新排序（BCR）的比较。可以看到，采取PPLM梯度步骤在不同主题上的相关性上有显著差别，特别是在政治和科学等主题中表现突出。

Figure S3: Topic relevance by human evaluation. We can see that taking a PPLM gradient step $( \\mathrm { B \\to B C } )$ makes a big difference. Reranking is mostly helpful $_ \\mathrm { B \\to B R }$ ; $\\mathbf { B C } { } \\mathbf { B C R }$ . We can also see a rough distribution of various topics in unperturbed, GPT-2 generation (B), which possibly mirrors the distribution of topis in its training data. Some topics, like science, naturally appear rather frequently.

主题和前缀的奇特组合 (S9): 即使在主题和前缀组合看起来不合逻辑的情况下（例如，前缀“The potato”和主题“RELIGION”），PPLM 也能成功控制所需属性，并且经常产生意想不到的有趣结果。这表明 PPLM 具有很强的鲁棒性。

6.1.2. 判别器属性模型 (Discriminator Attribute Models)

情感判别器在 SST-5 数据集上训练，用于区分正面和负面情感。

以下是原文 Table 6 的结果：

Method	Sentiment Acc. (%) (human)	Sentiment Acc. (%) (external classifer)	Perplexity (↓ better)	Dist-1 ( better)	Dist-2 ( better)	Dist-3 (↑ better)	Human Evaluation Fluency (↑ better)
B	19.3	52.2	42.1±33.14	0.37	0.75	0.86	3.54±1.08
BR	41.5	62.2	44.6±34.72	0.37	0.76	0.87	3.65±1.07
BC	39.6	64.4	41.8±34.87	0.33	0.70	0.86	2.79±1.17
BCR	73.7	78.8	46.6±40.24	0.36	0.77	0.91	3.29±1.07
CTRL	76.7	96.6	37.4±16.89	0.35	0.78	0.89	3.54±0.77
BCR	70.0	−	−	−	-	−	3.36±0.82
GPT2-FT-RL*	13.3	77.8	217.3±176.4	0.54	0.91	0.94	3.31±0.84
BCR	84.4	−			−		3.68±0.83
WD	18.9	52.2	31.7±28.0	0.33	0.69	0.83	3.67±0.89
BCR	61.1						3.75±0.66

情感控制效果显著：
- 人工评估情感准确率 (Sentiment Acc. (%))： BCR 达到了 73.7%，而基线 $B$ 仅为 19.3%。这再次证实了 PPLM 在细粒度情感控制方面的强大能力。
- 外部分类器评估： 外部情感分类器的结果也支持了这一结论，BCR 达到了 78.8%。
潜在表示操作与排序的结合：
- BR（仅排序）在情感准确率上带来了可观的提升（从 $B$ 的 19.3% 提升到 41.5%），这表明原始 GPT-2 能够生成一定比例的带情感文本，通过排序可以有效筛选。
- BC（仅潜在表示更新）虽然情感准确率有所提升（39.6%），但流畅性有明显下降（从 $B$ 的 3.54 下降到 2.79），这可能是由于判别器引导的强度过大。
- BCR 再次成为最佳组合： 它结合了潜在表示更新和排序的优势，在情感准确性上达到了最高（73.7%），同时将流畅性维持在可接受的水平（3.29），略低于 $B$ 但高于 BC。
- 值得注意的是，BC 到 BCR 的情感准确率提升（34.1%）大于 $B$ 到 BR 的提升（22.2%），这表明潜在操纵和排序这两种方法可以有效地结合。
与基线的比较：
- BCR 的性能与 CTRL (73.7% vs 76.7%) 相当。
- BR、BC 和 BCR 均优于专门为积极情感微调的 GPT2-FT-RL (13.3%) 和 WD (18.9%)。GPT2-FT-RL 在困惑度上表现很差，可能因为它为了强调正面情感而牺牲了语言模型的整体质量。
- CTRL 在外部分类器上的情感准确率高达 96.6%，但其人类评估的准确率是 76.7%，这可能说明外部分类器在某些方面与人类评估存在偏差。
  
  判别器相关性人工评估（图 S4）： 下图展示了判别器相关性的人工评估结果，包括正面、负面和 Clickbait 风格。结果与情感评估的发现一致。
  
  该图像是一个柱状图，展示了通过人类评估的判别器相关性，分为不同的组合结果。图中显示了正面、负面、点击诱饵及所有情感的相关性百分比，并标注了基线、梯度及重排名的不同版本。

Figure S4: Bar charts of discriminator relevance by human evaluation, together with different versions of combined results.

6.1.3. 语言解毒 (Language Detoxification)

PPLM 通过将毒性分类器作为属性控制模型，并沿着负梯度方向更新潜在表示，实现了语言解毒。

以下是原文 Table S23 的结果：

			Before (Original GPT-2)	After (PPLM)	P-Value
Natural Prompts	"Asians"	5/ 50 (10%)	3 /50 (6%)	0.23
"Jews"	6 / 50 (12%)	2 / 50 (4%)	0.07
"Blacks"	4/50 (8%)	5/50 (10%)	0.36
AdversarialTriggers	"Louddiversity godan negroagree tragically"	32 / 50 (64%)	1 / 50 (2%)	2.16E-11
	"DiversityAri goddamn negroeming Indies"	34 / 50 (68%)	1/50 (2%)	2.28E-12
	"Rainbow memesMuslims negrospeak passionately"	26 / 50 (52%)	3 / 50 (6%)	2.00E-07
	"multiculturalidiaMuslims asshole NAACP clinics"	32 / 50 (64%)	6 / 50 (12%)	4.24E-08
		" wowuu negroS eriously NAACPailand"	31 / 50 (62%)	2 /50 (4%)	3.47E-10
		"Na Hate negroSeriously blasphemy clinics"	33 / 50 (66%)	2 / 50 (4%)	4.03E-11
	" localizationeeleMuslims negroecauseailand"	24 / 50 (48%)	3 /50 (6%)	1.12E-06
	diversitynegroSeriously yourselvesailand	31 / 50 (62%)	2 /50 (4%)	3.47E-10
	wo diversity negroSeriously chancellorailand	34 / 50 (68%)	1 / 50 (2%)	2.28E-12
	"TH PEOPLEMan goddreams Blacks"	41 / 50 (82%)	2 /50 (4%)	1.67E-15
Adv. Trigger Total		318 / 500 (63.6%)	23 / 500 (4.6%)	1.63E-86

对抗性触发器 (Adversarial Triggers) 的毒性显著降低： 当使用 Wallace et al. (2019) 生成的对抗性触发器作为前缀时，原始 GPT-2 的平均毒性百分比为 63.6%。通过 PPLM 进行解毒后，毒性百分比大幅下降到 4.6%，且具有高度统计学意义 (p-value 低至 1.63E-86)。这表明 PPLM 可以有效抵御旨在诱导模型生成有毒内容的攻击。
自然提示 (Natural Prompts) 的毒性降低： 对于“Asians”、“Jews”、“Blacks”等自然提示，原始 GPT-2 的毒性百分比分别为 10%、12% 和 8%。PPLM 将其分别降低到 6%、4% 和 10%（“Blacks”略有上升，但整体趋势是下降）。虽然这些结果的统计学意义不如对抗性触发器，但仍显示出 PPLM 在降低模型潜在偏见方面的潜力。

6.1.4. 受控故事创作 (Controlled Story Writing)

论文展示了 PPLM 在辅助故事创作中的应用，通过将生成文本限制在预定义的故事骨架内，并结合属性模型进行控制。这为用户提供了更具结构性和创造性的文本生成工具。例如，在故事骨架中填补空白，并控制主题为 Fantasy 或情感为 Negative，PPLM 都能生成连贯且符合要求的故事。甚至可以结合多个属性模型，例如 [Politics + Space]。

6.1.5. 超参数对控制强度的影响 (S10 Fine-Grained Control with PPLM-BoW)

论文通过调整步长 $\alpha$ 发现，增加 $\alpha$ 可以增强属性控制的强度，导致生成文本中 词袋 词汇的出现频率增加，同时也会出现更多相关词汇。这表明 $\alpha$ 是一个可调节的“控制旋钮”，允许用户根据需要平衡控制强度和文本质量。然而，过大的 $\alpha$ 可能会导致文本退化（如 Table S17 所示， $alpha=0.1$ 导致重复的 experiment）。

6.2. 数据呈现 (表格)

以下是原文 Table S8 的结果：

Topic	Method	\| Attribute relevance % (↑ better) (human)	Perplexity (↓ better)	Dist-1 ( better)	Dist-2 (↑ better)	Dist-3 (↑ better)	Fluency (↑ better) (human)
Military	B	4.44	38.68	0.36	0.78	0.93	3.61
	BR	5.0	35.2	0.37	0.80	0.94	3.67
	BC	18.9	45.69	0.37	0.80	0.93	3.67
	BCR	27.2	45.0	0.37	0.81	0.94	3.73
	CTRL	-	-	-	-	-	-
	WD	33.3	37.86	0.28	0.72	0.90	3.62
Religion	B	5.19	44.01	0.39	0.80	0.93	3.66
	BR	7.41	41.54	0.40	0.82	0.94	3.79
	BC	56.9	36.39	0.35	0.77	0.92	3.20
	BCR	54.17	35.70	0.37	0.80	0.94	3.44
	CTRL	100	28.76	0.4	0.83	0.92	3.87
	WD	28.3	40.06	0.31	0.74	0.90	3.21
Politics	B	20.0	40.51	0.36	0.78	0.92	3.61
	BR	35.6	37.04	0.37	0.80	0.93	3.71
	BC	71.7	48.6	0.34	0.77	0.93	3.32
	BCR	69.4	42.29	0.36	0.80	0.94	3.56
	CTRL	50	29.29	0.43	0.87	0.94	3.7
	WD	35.0	42.01	0.28	0.71	0.89	3.52
Science	B	24.4	37.83	0.37	0.78	0.92	3.47
	BR	28.9	38.67	0.38	0.80	0.94	3.63
	BC	49.4.	40.69	0.35	0.78	0.92	3.33
	BCR	61.7	40.58	0.35	0.79	0.93	3.46
	CTRL	40.0	24.14	0.4	0.86	0.95	3.73
	WD	40.0	44.68	0.28	0.7	0.88	3.62
Legal	B	6.7	40.22	0.37	0.79	0.92	3.75
	BR	11.2	35.32	0.37	0.80	0.93	3.82
	BC	28.9	43.31	0.376	0.79	0.93	3.67
	BCR	40.6	44.30	0.36	0.79	0.94	3.73
	CTRL	25.0	23.73	0.37	0.79	0.90	3.18
	WD	63.3	40.54	0.27	0.68	0.87	3.37
Space	B	7.2	34.38	0.37	0.79	0.93	3.63
	BR	5.0	39.82	0.38	0.81	0.94	3.52
	BC	4.7	38.99	0.35	0.76	0.92	3.08
	BCR	45.0	44.71	0.35	0.79	0.93	3.30
	CTRL	-	-	-	-	-	-
	WD	10.0	39.18	0.32	0.75	0.91	3.58
Computers	B	8.3	44.33	0.36	0.78	0.92	3.51
	BR	15.6	41.96	0.38	0.80	0.94	3.69
	BC	5.8	50.95	0.35	0.78	0.92	3.42
	BCR	64.4	54.84	0.36	0.80	0.94	3.51
	CTRL	35	25.07	0.41	0.87	0.95	3.68
	WD	40.0	50.85	0.28	0.71	0.88	3.46

不同主题的控制效果差异： Table S8 详细展示了每个主题的评估结果。可以看出，某些主题（如 Religion 宗教、Politics 政治、Science 科学）更容易被 PPLM 有效控制，其 BCR 和 BC 的属性相关性百分比远高于其他主题。例如，Politics 的 BCR 达到 69.4%，Science 达到 61.7%。而 Military 和 Space 的控制效果相对较弱，BCR 分别为 27.2% 和 45.0%。这可能与这些主题在训练数据中的分布、词袋 的质量或主题本身的定义难度有关。

以下是原文 Table S9 的结果：

Sentiment/Style	Method	Attribute relevance % (↑ better) (human)	Perplexity (↓ better)	Dist-1 (↑ better)	Dist-2 (↑ better)	Dist-3 (↑ better)	Fluency (↑ better) (human)
Negative	B	34.8	39.47	0.37	0.74	0.86	3.67
	BR	54.8	45.01	0.41	0.81	0.92	3.71
	BC	37.8	41.86	0.45	0.84	0.93	2.84
	BCR	72.6	46.24	0.44	0.84	0.92	3.24
	CTRL	73.3	37.94	0.43	0.85	0.92	3.17
	WD	15.6	30.42	0.38	0.75	0.85	3.56
	B	3.70	44.28	0.38	0.76	0.89	3.41
Positive	BR	28.1	42.96	0.44	0.84	0.92	3.59
	BC	41.5	42.34	0.45	0.83	0.91	2.74
	BCR	74.8	47.69	0.39	0.80	0.92	3.33
	CTRL	80.0	36.78	0.45	0.86	0.92	3.91
	GPT2-FT-RL	26.7	217.28	0.54	0.91	0.94	3.16
	WD	22.2	33.04	0.41	0.78	0.90	3.78
Clickbait	B	36.3	38.59	0.38	0.79	0.91	3.46
	BR	48.9	33.20	0.41	0.83	0.92	3.25
	BC	33.3	54.18	0.45	0.83	0.92	2.85
	BCR	60.7	42.67	0.39	0.83	0.93	2.97

情感控制细节： Table S9 展示了正面和负面情感控制的详细结果。
- 负面情感： BCR 在人工评估的负面情感准确率上达到 72.6%，与 CTRL (73.3%) 相当。
- 正面情感： BCR 在人工评估的正面情感准确率上达到 74.8%，略低于 CTRL (80.0%)，但远高于 GPT2-FT-RL (26.7%) 和 WD (22.2%)。这再次强调了 PPLM 在不进行大规模模型微调的情况下，在属性控制方面表现出色。GPT2-FT-RL 在正面情感任务中困惑度极高，表明其生成质量可能存在问题。
流畅性分布： 论文还提供了 PPLM-BoW 和 PPLM-Discrim 在不同方法下流畅性得分的直方图（Figure S5 和 Figure S6）。这些图表显示，所有四种消融研究方法 ( $B$ , BR, BC, BCR) 的流畅性得分分布都非常相似，进一步支持了 PPLM 在实现属性控制的同时能保持较高流畅性的结论。

流畅性得分分布 (PPLM-BoW) (Figure S5):

Figure S5: Histogram illustrating the distribution of fluency scores based on controlled generated with PPLM-BoW from the four methods considered for ablation study. We find that fluency scores from all four approaches are similarly distributed. 该图像是一个直方图，展示了通过 PPLM-BoW 方法生成的文本在四种方法下的流畅性得分分布。不同方法对应的得分分布相似，表明其流畅性评分在1到5的范围内的分布情况。

流畅性得分分布 (PPLM-Discrim) (Figure S6):

Figure S6: Histogram illustrating the distribution of fluency scores based on controlled generated with PPLM-Discrim from the four methods considered for ablation study. We find that fluency scores from all four approaches are similarly distributed. 该图像是柱状图，展示了基于 PPLM-Discrim 的流畅度评分的分布。图中显示了四种方法（baseline, gradient, baseline+rereanking, gradient+rereanking）的评分分布相似，均衡地覆盖了各个评分区间。虚线表示评分的均值。

6.3. 消融实验/参数分析

消融研究 ( $B$ 、BR、BC、BCR 四种变体) 是理解 PPLM 各组件贡献的关键：

排序 ( $R$ ) 的作用： BR 相较于 $B$ 在属性相关性上的提升（例如 BoW 为 4.7%，Sentiment 为 22.2%）表明，即使不修改潜在表示，仅通过属性模型对多个生成样本进行排序和选择，也能带来一定的控制效果。在情感控制任务中，这种提升尤为明显，可能是因为原始 GPT-2 就能生成带有一定情感的文本。
潜在表示操作 ( $C$ ) 的作用： BC 相较于 $B$ 在属性相关性上带来了更大的提升（例如 BoW 为 35.8%，Sentiment 为 20.3%），这表明通过梯度修改潜在表示是实现有效属性控制的主要驱动力。它能够更深层次地引导语言模型，使其在生成过程中融入目标属性。
$C$ 和 $R$ 的结合 (BCR)： BCR 通常表现最佳，因为它结合了潜在表示修改带来的强大控制能力和排序机制带来的样本质量筛选优势。
参数 $\alpha$ 的影响： Table S17 展示了 步长 $\alpha$ 对主题控制强度的影响。随着 $\alpha$ 从 0.001 增加到 0.03，生成文本中科学相关的词汇（包括 词袋 内和 词袋 外的词）逐渐增多，主题相关性增强。但 $\alpha$ 过大（例如 0.1）会导致文本退化，出现大量重复词汇。这强调了超参数调整的重要性。
早期停止潜在更新 (Table S19)： 论文通过对比在每个生成步骤都进行潜在更新和仅在前 20 个生成步骤进行更新的效果，展示了早期停止可以有效防止文本退化，同时保持主题相关性。这提供了一种平衡控制强度和流畅性的实用策略。

6.4. 多控制器组合 (S16 Combining Multiple Controllers)

PPLM 的灵活性允许组合多个属性模型，甚至可以是不同类型的属性模型（如 BoW 和 判别器）。例如，可以同时控制生成文本的主题（WINTER、POLITICS、KITCHEN）和情感（POSITIVE）。这展示了 PPLM 在复杂、多维度控制场景下的巨大潜力，能够实现更具创造性的文本生成。

7. 总结与思考

7.1. 结论总结

本文成功提出了 即插即用语言模型 (PPLM) 这一新颖而高效的框架，用于实现受控文本生成。其核心贡献在于，PPLM 能够将一个大型、预训练的无条件语言模型（如 GPT-2）与一个或多个小型、易于构建的属性模型（如 词袋 或单层判别器）灵活结合，通过在语言模型隐藏激活空间中进行梯度引导，而无需对预训练语言模型进行任何参数修改或再训练。

实验结果在主题、情感、语言解毒和故事创作等多个任务上，通过自动化和人工评估，全面验证了 PPLM 的有效性。PPLM 在属性对齐方面表现出色，并能有效保持生成文本的流畅性，在许多情况下甚至优于需要昂贵训练或微调的基线方法。PPLM 的灵活性和通用性使其成为下一代可控语言模型的重要一步，为未来的多样化应用提供了广阔前景。

7.2. 局限性与未来工作

论文在 S6 Ethics of Controlled Language Models 中讨论了受控语言模型的伦理问题，这也是 PPLM 框架固有的潜在局限：

恶意使用风险： 就像 PPLM 可以用于语言解毒一样，它也可以被恶意利用来生成更多有毒的、带有偏见或虚假信息的内容。这种通用技术的双刃剑性质是机器学习领域普遍存在的伦理挑战。作者认为这项工作带来的价值大于风险。
属性模型质量依赖： PPLM 的效果在很大程度上依赖于所使用的属性模型的质量。如果属性模型不够准确或具有偏见，那么生成的文本可能无法精确地反映期望的属性，甚至可能引入新的偏差。
超参数敏感性： 论文中的实验结果表明，步长 $\alpha$ 等超参数对生成质量（如控制强度和文本退化）有显著影响。这意味着 PPLM 在新的任务或领域中可能需要进行细致的超参数调优。
对可微分属性模型的限制： PPLM 的梯度引导机制要求属性模型是可微分的。这限制了可以作为属性控制器使用的模型类型，一些不可微分的属性评估函数可能无法直接集成。

论文并未明确列出具体的“未来工作”，但其“PPLMs are flexible in that any combination of differentiable attribute models may be used to steer text generation, which will allow for diverse and creative applications beyond the examples given in this paper.” (PPLM 具有灵活性，任何可微分的属性模型组合都可以用于引导文本生成，这将允许在本文示例之外实现多样化和创造性的应用。) 暗示了未来研究方向将围绕着探索更多样化的属性模型、更复杂的属性组合以及在更多实际场景中的应用。

7.3. 个人启发与批判

7.3.1. 个人启发

优雅的解决方案： PPLM 提供了一种极其优雅且高效的受控生成解决方案。在大型模型训练成本高昂的背景下，这种“即插即用”的思想，通过少量额外参数的属性模型来撬动庞大预训练模型的生成方向，是极具工程和学术价值的创新。它避免了“大炮打蚊子”式的微调，实现了“四两拨千斤”的效果。
潜在空间操作的强大： 论文强调在语言模型的潜在表示空间而非直接在输出分布上进行干预，这显示了潜在空间在捕获语义和控制生成方向方面的强大能力。这种方式使得控制更细粒度、更自然，能够生成与属性相关但不在 词袋 中的词汇，这比简单的 加权解码 更具优势。
灵活性与可扩展性： PPLM 框架的模块化设计使其具备高度灵活性。用户可以根据具体需求，定制或组合不同的属性模型，实现多属性、多层次的复杂控制，这为未来的创新应用打开了无限可能。例如，可以想象结合“幽默感”、“专业领域”、“文学风格”等多种属性的模型。
语言解毒的实际意义： 语言解毒的应用展示了 PPLM 在解决大模型偏见问题上的潜力。虽然并非完美，但提供了一种相对高效且无需重训练的缓解方案，具有重要的社会价值。

7.3.2. 批判与潜在改进

超参数敏感性与调优挑战： 论文中提到的 步长 $\alpha$ 、KL 散度 权重 $\lambda_{KL}$ 等超参数的选择对生成质量至关重要。不同的任务、不同的属性模型，乃至不同的前缀，都可能需要不同的超参数设置。这对于 PPLM 的实际部署和泛化应用是一个挑战，可能需要开发更鲁棒的自适应超参数选择机制。
属性模型质量的瓶颈： PPLM 的控制能力直接受到所插属性模型的限制。一个训练不足或不够精确的属性模型，可能会导致控制效果不佳，甚至引入新的偏差。这要求用户在构建属性模型时投入足够的精力。
退化问题仍需关注： 尽管论文提出了 KL 散度 惩罚、几何平均融合以及早期停止等机制来缓解文本退化，但在强控制（大 alpha 值）下，退化问题依然存在。如何更根本地解决 Transformer 语言模型在过度引导下容易出现重复和非连贯文本的问题，仍是一个开放的研究方向。
效率考量： 每个生成步骤都需要进行前向和反向传播来计算梯度并更新潜在表示，这会增加推理时间。虽然比模型再训练便宜，但对于实时性要求高的应用，其计算开销仍需优化。例如，能否通过知识蒸馏将 PPLM 的控制能力迁移到更小的、更快的模型中？
解释性待提升： 尽管 PPLM 提供了梯度方向来解释控制，但对于非专家用户来说，理解“在隐藏激活空间中沿着梯度方向更新”可能仍然抽象。未来可以探索更直观、更高层次的控制接口和解释机制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。