Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
TL;DR 精炼摘要
本文提出Pharmacist,一种针对大型语言模型有害微调的安全对齐数据筛选方法。通过训练数据选择器,Pharmacist优先挑选高质量且安全关键的对齐数据,显著提升防御效果与推理性能,同时减少训练时间,优于现有防御策略。
摘要
Harmful fine-tuning issues present significant safety challenges for fine-tuning-as-a-service in large language models. Existing alignment-stage defenses, e.g., Vaccine, Repnoise, Booster, and T-Vaccine, mitigate harmful fine-tuning issues by enhancing the model's robustness during the alignment phase. While these methods have been proposed to mitigate the issue, they often overlook a critical upstream factor: the role of the original safety-alignment data. We observe that their defense performance and computational efficiency remain constrained by the quality and composition of the alignment dataset. To address this limitation, we propose Pharmacist, a safety alignment data curation solution that enhances defense against harmful fine-tuning by selecting a high-quality and safety-critical core subset from the original alignment data. The core idea of Pharmacist is to train an alignment data selector to rank alignment data. Specifically, up-ranking high-quality and safety-critical alignment data, down-ranking low-quality and non-safety-critical data. Empirical results indicate that models trained on datasets selected by Pharmacist outperform those trained on datasets selected by existing selection methods in both defense and inference performance. In addition, Pharmacist can be effectively integrated with mainstream alignment-stage defense methods. For example, when applied to RepNoise and T-Vaccine, using the dataset selected by Pharmacist instead of the full dataset leads to improvements in defense performance by 2.60% and 3.30%, respectively, and enhances inference performance by 3.50% and 1.10%. Notably, it reduces training time by 56.83% and 57.63%, respectively. Our code is available at https://github.com/Lslland/Pharmacist.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
1.2. 作者
Guozhi Liu, Qi Mu, Tiansheng Huang, Xinhua Wang, Li Shen, Weiwei Lin Senior Member, IEEE, Zhang Li
1.3. 发表期刊/会议
预印本 (arXiv)。
1.4. 发表年份
2025年。
1.5. 摘要
大型语言模型 (LLMs) 中的有害微调 (Harmful Fine-tuning) 问题对微调即服务 (Fine-tuning-as-a-Service) 模式构成了重大的安全挑战。现有的对齐阶段防御 (Alignment-stage Defenses) 方法,例如 Vaccine、Repnoise、Booster 和 T-Vaccine,通过增强模型在对齐阶段 (alignment phase) 的鲁棒性来缓解有害微调问题。然而,这些方法往往忽略了一个关键的上游因素:原始安全对齐数据 (safety-alignment data) 的作用。作者观察到,它们的防御性能和计算效率受限于对齐数据集的质量和组成。为了解决这一限制,本文提出了 Pharmacist,一种安全对齐数据筛选 (safety alignment data curation) 解决方案,通过从原始对齐数据中选择一个高质量且安全关键 (safety-critical) 的核心子集来增强对有害微调的防御。Pharmacist 的核心思想是训练一个对齐数据选择器 (alignment data selector) 来对对齐数据进行排序:具体来说,提升高质量和安全关键的对齐数据,降低低质量和非安全关键的数据。实证结果表明,使用 Pharmacist 选择的数据集训练的模型在防御和推理性能方面均优于使用现有选择方法选择的数据集训练的模型。此外,Pharmacist 可以有效地与主流的对齐阶段防御方法集成。例如,当应用于 RepNoise 和 T-Vaccine 时,使用 Pharmacist 选择的数据集而不是完整数据集,防御性能分别提高了 2.60% 和 3.30%,推理性能分别提高了 3.50% 和 1.10%。值得注意的是,它还将训练时间分别减少了 56.83% 和 57.63%。
1.6. 原文链接
https://arxiv.org/abs/2510.10085v1 PDF 链接: https://arxiv.org/pdf/2510.10085v1.pdf 发布状态:预印本 (arXiv preprint),发布于 2025-10-11T07:55:55.000Z。
2. 整体概括
2.1. 研究背景与动机
大型语言模型 (LLMs) 在各种生成任务中展现出卓越的能力,例如生成连贯的文本、编写代码和解决复杂问题。然而,未对齐 (aligned) 的 LLMs 存在严重的安全风险,当接收到有害或对抗性指令时,可能会生成不安全或不适当的输出。为了缓解这些安全风险,通常在部署前应用对齐技术 (alignment techniques),如监督微调 (Supervised Fine-Tuning, SFT)、基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 或直接偏好优化 (Direct Preference Optimization, DPO)。
然而,最近的研究揭示了有害微调 (Harmful Fine-tuning) 问题:即使是已经对齐的模型,当使用包含少量有害示例的用户提供数据集进行微调时,也可能遗忘 (forget) 之前强制执行的安全约束。为了应对这一挑战,已经提出了各种对齐阶段防御 (Alignment-stage Defenses) 解决方案,例如 Vaccine、Repnoise 和 Booster,它们旨在增强模型在对齐阶段的鲁棒性。
作者观察到,尽管这些方法在缓解问题上有所贡献,但它们往往忽略了一个上游的关键因素:原始安全对齐数据 (safety-alignment data) 的作用。这些防御方法的性能和计算效率常常受到对齐数据集质量和组成的限制。例如,增加数据量虽然可以提高防御能力,但也会线性增加计算开销。此外,随机选择数据不一定能达到最优效果。现有的对齐数据选择方法(如 TaskVary)通常假设预先知道用户的微调数据,这在实际场景中往往不切实际。
因此,本文旨在解决的核心问题是:如何为对齐数据集设计一个数据选择器,以识别一个核心子集,使其既能实现高效计算,又能有效缓解有害微调效应?
2.2. 核心贡献/主要发现
本文提出了 Pharmacist,一种安全对齐数据筛选 (safety alignment data curation) 解决方案,旨在通过从原始对齐数据中选择高质量且安全关键的核心子集,从而增强对有害微调的防御。其核心贡献和主要发现包括:
- 识别并解决了对齐数据质量问题: 评估了现有的对齐阶段防御方法,发现其性能高度依赖于对齐数据的质量。当采样数据质量较低时,会导致防御性能显著下降,并在训练过程中产生不必要的计算成本。
- 提出了创新的安全感知数据筛选方法
Pharmacist:Pharmacist是一种新颖的安全感知对齐数据筛选 (safety-aware alignment data curation) 方法,它通过选择一个高质量和安全关键的核心子集来增强对有害微调的防御。 - 显著提升了防御性能与计算效率:
Pharmacist能够无缝集成到现有的对齐阶段防御方法中,在提升防御性能和推理性能的同时,显著减少训练时间。例如,在与RepNoise和T-Vaccine结合时,防御性能分别提高了 2.60% 和 3.30%,推理性能分别提高了 3.50% 和 1.10%,并且训练时间分别减少了 56.83% 和 57.63%。 - 广泛的实验验证: 在不同的设置(包括模型、数据集和攻击类型)下进行了大量实验,并将
Pharmacist与五种先进的对齐技术集成,以评估其兼容性和有效性。结果表明Pharmacist有效地增强了防御性能。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解本文,需要了解以下基础概念:
- 大型语言模型 (Large Language Models, LLMs):指通过在大量文本数据上进行训练而获得的深度学习模型,它们能够理解、生成和处理人类语言,并在各种任务(如文本摘要、问答、代码生成等)中表现出色。
- 微调 (Fine-tuning):指在预训练模型的基础上,使用特定任务的数据集进一步训练模型的过程。这使得模型能够适应特定的应用场景,提高其在该任务上的性能。
- 有害微调 (Harmful Fine-tuning):指攻击者通过构造包含有害内容的用户提供数据集 (user-provided datasets) 对已经进行过安全对齐的 LLMs 进行微调,导致模型遗忘其安全约束,重新生成有害或不当内容的问题。这使得原本安全的模型变得不安全。
- 安全对齐 (Safety Alignment):指通过各种技术(如监督微调、人类反馈强化学习)训练 LLMs,使其在面对有害或不安全提示时能够产生拒绝或无害响应,从而确保模型行为符合伦理和安全标准。
- 微调即服务 (Fine-tuning-as-a-Service):一种服务模式,用户可以将自己的数据集(可能包含有害内容)上传到平台,利用平台的 LLM 进行微调,以适应其特定需求。这使得有害微调问题变得尤为突出,因为平台无法完全控制用户数据。
- 对齐阶段 (Alignment Phase):指在模型部署前,对预训练 LLM 进行安全对齐训练的阶段,目的是使其学会拒绝有害指令。
- 数据选择 (Data Selection):从一个大型数据集中选择一个子集进行训练的过程,旨在提高训练效率、模型性能或模型安全性。
- 双层优化 (Bilevel Optimization):一种优化框架,其中一个优化问题(外层优化)的目标函数包含另一个优化问题(内层优化)的解。在本文中,内层优化是模型在选择的数据集上的训练,外层优化是数据选择器参数的优化。
3.2. 前人工作
本文主要关注 LLMs 的安全对齐及其面临的有害微调挑战,并在此基础上提出了数据选择的方法。相关工作可分为以下几类:
-
安全对齐 (Safety Alignment):
- 监督微调 (Supervised Fine-Tuning, SFT) [9, 19]:直接使用包含有害提示及其安全拒绝响应的数据集来微调预训练模型。
- 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) [10, 20-22]:通过收集人类对模型输出的偏好数据,训练一个奖励模型,然后使用强化学习算法根据奖励信号优化 LLM 的行为。
- 直接偏好优化 (Direct Preference Optimization, DPO) [11, 23]:一种更简洁的对齐方法,它将 RLHF 中的奖励模型隐式化,直接优化 LLM 以符合人类偏好。
- 这些方法共同构成了 LLM 安全对齐的主流技术,它们通过构建对齐数据集(包含有害提示和适当的拒绝响应)来训练模型,使其表现出安全对齐行为。
-
对齐阶段防御 (Alignment-stage Defenses):
- 针对现有对齐方法在有害微调下易受攻击的问题,研究人员提出了多种在对齐阶段增强模型鲁棒性的方法。
Vaccine[16]:通过在对齐训练过程中对所有层嵌入引入扰动,以增强模型的鲁棒性。T-Vaccine[24]:是Vaccine的改进版,通过仅对安全关键层 (safety-critical layers) 应用扰动来提高内存效率,使得安全对齐防御更节省资源。RepNoise[17]:对有害样本的隐藏表示应用高斯噪声,以减少模型记忆不安全数据的倾向。TAR[25]:显式考虑了下游微调的影响,并采用元学习 (meta-learning) 方法来提高对齐阶段的鲁棒性。Booster[7]:引入了一个损失正则化项 (loss regularization term),该项惩罚模拟扰动前后有害样本损失的差异,从而减轻后续微调期间性能下降的风险。- 这些解决方案之所以具有吸引力,是因为它们通常只在模型对齐过程中产生一次性开销,具有较高的计算效率。
-
对齐数据选择 (Data Selection for Alignment):
- 在对齐阶段,数据选择方法通常旨在选择高质量的数据子集来微调 LLMs。这些方法根据其目标分为两类:
- 提高模型性能 (Performance Enhancement) [26-29]:
- [26] 通过过滤掉过于困难的示例来选择数据。
- [27] 基于质量和多样性选择对齐数据。
- [28] 考虑复杂性、质量和多样性作为对齐数据选择的关键标准。
- [29] 提出了一种基于边际最大化 (marginal maximization) 原则的 DPO 数据选择方法,利用双边际指导 (dual-margin guidance)(考虑外部奖励和隐式 DPO 奖励)来准确估计所需边际,从而减少所需数据量。
- 增强模型安全性 (Safety Enhancement):
- 这方面的研究相对有限。目前已知唯一的相关工作是
TaskVary[18],它假设预先了解用户的微调数据,并通过选择与微调数据最不相似的数据来构建对齐数据集。然而,这种假设在实际场景中往往不切实际。
- 这方面的研究相对有限。目前已知唯一的相关工作是
- 提高模型性能 (Performance Enhancement) [26-29]:
- 在对齐阶段,数据选择方法通常旨在选择高质量的数据子集来微调 LLMs。这些方法根据其目标分为两类:
3.3. 技术演进
LLM 的安全保障技术经历了从基础对齐到高级防御再到数据优化的演进:
- 基础对齐阶段: 最初通过
SFT、RLHF、DPO等方法使 LLM 学会安全行为。 - 防御脆弱性: 随后发现这些基础对齐模型在面对有害微调时存在脆弱性,可能“遗忘”安全约束。
- 对齐阶段防御: 为了增强模型鲁棒性,研究人员提出了
Vaccine、RepNoise、Booster、T-Vaccine等对齐阶段防御方法,在模型对齐训练时加入特殊机制(如扰动、正则化),使其对未来的有害微调更具抵抗力。 - 数据优化: 在防御方法取得进展的同时,研究开始关注对齐数据的质量和选择,因为数据是所有训练的基础。早期的数据选择 (Data Selection) 主要集中在提高性能,而对安全性的考虑不足。
TaskVary虽尝试解决安全数据选择,但其前提假设在实践中难以满足。
3.4. 差异化分析
本文提出的 Pharmacist 与现有工作的主要区别和创新点在于:
- 与现有对齐阶段防御方法的区别: 现有的
Vaccine、RepNoise、Booster、T-Vaccine等方法主要关注从技术角度(如扰动、正则化)解决有害微调问题,而Pharmacist关注上游的对齐数据质量。它通过优化数据本身来增强防御效果和效率,而非改变训练过程中的模型架构或损失函数。Pharmacist可以与这些现有防御方法无缝集成,进一步提升它们的性能和效率,这表明它是一个互补而非替代的解决方案。 - 与现有对齐数据选择方法的区别:
-
目标不同: 现有数据选择方法主要旨在提高模型性能(如
LIMA、DPO数据选择),或者像TaskVary虽关注安全但依赖于对用户微调数据的先验知识。Pharmacist则明确以增强模型安全性 (safety enhancement) 和计算效率 (computational efficiency) 为目标,同时不依赖于对用户微调数据的预知。 -
机制不同:
Pharmacist提出了一种安全感知 (safety-aware) 的数据选择机制,它通过训练一个数据选择器 (data selector) 来识别高质量 (high-quality) 和安全关键 (safety-critical) 的核心数据子集,同时淘汰低质量和非安全关键的数据。这种机制通过双层优化 (bilevel optimization) 框架实现,显式地在选择过程中考虑了模型在有害数据集 (harmful dataset) 上的表现。总而言之,
Pharmacist填补了现有研究在以安全为导向且不依赖先验知识的对齐数据筛选方面的空白,并能够作为通用插件提升现有防御方法的表现。
-
4. 方法论
为了解决数据质量问题导致的性能下降和大规模数据集中冗余数据引起的计算开销,本文提出了 Pharmacist。它是一个在微调即服务 (fine-tuning-as-a-service) 框架中引入的安全感知对齐数据集选择阶段 (safety-aware alignment dataset selection stage)。其目标是从原始数据集 中识别一个核心子集 ,作为精炼后的对齐数据集。
以下是 Pharmacist 的三阶段流程图,其中阶段 是本文提出的数据选择阶段。
该图像是示意图,展示了Pharmacist方法的三步流程:①从对齐数据中选择核心对齐数据以剔除有害数据,②利用核心数据对无对齐大语言模型进行对齐,③使用对齐后的模型和用户数据进行定制化微调。
图 2: 一个三阶段的微调即服务流程。与常见的两阶段范式(即 和 )相比,本文的方法引入了一个额外的数据选择阶段(即阶段 )。这个阶段利用一个有害数据集和验证数据集,从原始对齐数据中选择一个高质量和安全关键的核心子集,从而实现高效计算并保持对下游微调攻击的强大抵抗力。
4.1. 问题公式化
本文将数据选择 (data selection) 问题公式化为一个双层优化 (bilevel optimization) 问题。给定一个原始的对齐数据集 ,其中 表示输入指令, 是对应的真实输出。数据集 被划分为一个训练数据集 和一个验证数据集 。此外,假设可以访问一个有害数据集 (harmful dataset) ,其中包含可能对模型性能产生负面影响的潜在有害样本。
数据选择问题被公式化为: 其中:
- 是数据选择器 (data selector) 的权重。
- 是在验证数据集 (validation dataset) 上的经验损失 (empirical loss)。
- 表示在有害数据集 (harmful dataset) 上评估的有害损失 (harmful loss) 的梯度。
- 是在训练数据集 (training dataset) 上的经验损失。
- 是数据选择函数 (data selection function),它使用
softmax公式实现: 其中 是与第 个数据样本相关的权重。这个函数为每个训练样本分配一个权重,用于在内层优化中加权损失。 - 是一个超参数,用于平衡模型在验证集上的性能和对有害梯度的抵抗力。
- 内层最小化函数 旨在优化模型权重 ,在加权训练数据子集(即选择的核心集 (coreset))上获得模型 。
- 外层最小化函数旨在优化选择器权重 ,以识别训练数据集的一个核心集,该核心集即使在有害梯度扰动后,也能在验证数据集上产生鲁棒的泛化性能。
4.2. 安全感知对齐数据选择算法
为了解决上述双层优化问题,本文采用迭代梯度下降 (iterative gradient-based methods) 方法。
首先,应用链式法则于外层最小化函数,数据选择器权重 的更新规则最初可公式化为: 其中, 是数据选择器的学习率。
进一步简化,可以得到:
注意到其中的项 包含了二阶信息 (second-order information)(即海森矩阵 (Hessian Matrix)),其计算成本非常高。受到 [30] 的启发,本文将此二阶梯度项近似为常数,从而简化更新规则为:
其中, 表示从内层最小化函数获得的最优参数 (optimal parameters)。在实践中, 通过对内层目标执行单一步的梯度下降来近似,公式如下:
其中, 是模型 的学习率, 是通过在原始对齐数据集上训练 200 步获得的初始模型 (init model)。这个初始化是必要的,因为一些 LoRA 层在开始时参数设置为零。
将 代入上述简化后的更新规则 (4),得到 的最终更新公式: \begin{array} { r } { \begin{array} {array} { l } { \pmb { w } _ { t + 1 } = \pmb { w } _ { t } - \eta _ { \pmb { w } } \left( \nabla f \left( \pmb { \theta } ^ { * } ( \pmb { w } ) - \alpha \nabla h \left( \pmb { \theta } ^ { * } ( \pmb { w } ) \right) \right) \right. } \\ { \qquad \left. \cdot \left( \left( 1 - \alpha \right) \left( - \eta _ { \theta } \nabla _ { \pmb { w } } \gamma ( \pmb { w } ) \nabla g ( \pmb { \theta } _ { 0 } ) \right) \right) \right) } \end{array} } \end{array} \quad (6)
4.2.1. 算法流程
Algorithm 1 详细描述了 Pharmacist 的安全感知数据选择算法 (Safety-aware Data Selection Algorithm)。
Algorithm 1 Pharmacist: Safety-aware Data Selection Algorithm 输入:
-
训练数据集
-
有害数据集
-
验证数据集
-
基础模型学习率
-
选择器模型学习率
-
步长
输出:
-
选择器模型
-
初始化模型参数 :通过在原始对齐数据集上训练 200 步来初始化
LoRA参数,这些参数最初被设置为零。 -
对于每个优化步 到 执行循环:
-
重置参数 到 :在每个优化步开始时,将模型参数重置为初始模型 。
-
采样一批训练数据 。
-
采样一批有害数据 。
-
采样一批验证数据 。
-
运行选择器模型以获得 :根据当前的
数据选择器 (data selector)权重 和softmax函数计算每个样本的选择概率。 -
在 上评估每个样本的梯度 。
-
获得 : 根据近似公式 (5) 计算内层优化后的模型参数:。
-
在 上评估梯度 。
-
在 上评估梯度 。
-
评估数据选择器 的梯度 。
-
计算梯度 : 。
-
更新选择器权重 : 。
整个过程在每个优化步骤中需要四次前向/后向传播。
- 第一次,估计一批训练数据的每个样本梯度 ,并通过公式 (5) 获得 。
- 第二次,估计一批有害数据的有害梯度 。
- 第三次,估计一批验证数据的验证梯度 。
- 第四次,评估数据选择器在训练批次上的每个样本梯度 。 收集所有四个梯度分量后,通过公式 (6) 执行最终的梯度更新步骤。
该算法的总时间复杂度为 ,其中 是优化步数, 是批次大小, 表示 的每个样本计算成本(前向和后向), 表示选择器模型 的每个样本计算成本。
备注 (Remark 1):
Pharmacist 旨在选择一个既高质量又安全关键的核心对齐数据子集。
- 第 1 行初始化
LoRA参数,这些参数最初设置为零,通过在原始对齐数据集上训练 200 步。 - 第 3 行在每个步骤开始时将模型参数重置为 。
- 第 8 行计算批次中每个训练样本相对于 的梯度。
- 第 9 行获得 ,即内层优化后的模型参数。
- 第 10-11 行分别计算有害样本和验证样本上的梯度。
- 第 13 行计算相对于 的梯度。
- 第 14 行使用公式 (6) 定义的梯度执行 的最终更新。
5. 实验设置
本部分详细介绍了实验设置,包括使用的数据集、评估指标、对比基线、提示模板、训练细节和超参数。
5.1. 数据集
在数据选择阶段 (data selection phase),本文使用两个广泛采用的对齐数据集来评估 Pharmacist 的性能:
-
BeaverTails[31]:一个用于评估 LLM 安全性的人类偏好数据集 (human-preference dataset)。 -
RepNoise-Refusal[32]:一个用于评估 LLM 安全性并免疫有害微调攻击的数据集。从每个原始对齐数据集中,选择 个实例构建有害数据集 (harmful dataset) 和验证数据集 (validation dataset)。从每个原始对齐数据集中,选择 个样本构建新的对齐数据集,用于对齐阶段。
在对齐阶段 (alignment stage),新构建的对齐数据集用于微调预训练语言模型。
在微调阶段 (fine-tuning phase),为了模拟有害攻击 (harmful attack),将 比例的来自 BeaverTail 的有害数据与 1-p 比例的良性微调数据 (benign fine-tuning data) 结合,形成总共 个样本的微调数据集。微调任务考虑以下数据集:
-
SST2[33]:用于情感分析的基准数据集。 -
GSM8K[34]:一个数学词语问题数据集。 -
AGNEWS[35]:一个新闻分类数据集。此外,本文使用三个预训练模型进行验证:
-
Gemma-2-9B[36] -
Llama2-7B[37] -
Qwen2.5-7B[38]在实验中,除非另有说明,默认设置 (对齐样本数)和 (有害/验证样本数)。所有实验均使用 A100-80GB GPU 进行。
5.2. 评估指标
使用两个指标进行评估:
5.2.1. 微调准确率 (Finetune Accuracy, FA)
- 概念定义 (Conceptual Definition):
微调准确率 (FA)衡量模型在微调任务的测试数据集上的Top-1准确率 (Top-1 accuracy)。它用于评估模型的性能,即模型在特定任务上对用户数据的适应能力。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- :测试数据集中的总样本数。
- :模型对第 个样本的预测标签。
- :第 个样本的真实标签。
- :指示函数,当括号内的条件为真时取值为 1,否则为 0。
5.2.2. 有害分数 (Harmful Score, HS)
- 概念定义 (Conceptual Definition):
有害分数 (HS)是指在向模型提供未见过的恶意指令时,模型输出中不安全输出的比例。它通过一个审核模型 (moderation model) [31] 来分类模型的输出。这个指标用于评估模型的安全性防御能力,即模型抵制生成有害内容的能力。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
-
Number of Unsafe Outputs:模型在面对恶意指令时,生成被审核模型判定为不安全的输出数量。 -
Total Number of Generated Samples:模型对恶意指令生成的所有输出样本的总数量。为了计算
有害分数 (HS),从BeaverTails[31] 的测试集中采样 1000 个样本。为了获得微调准确率 (FA),分别从微调数据集SST2、AGNEWS和GSM8K中采样 872、1000 和 1000 个样本。这两个指标都在微调后的模型 (fine-tuned model)(经过三阶段训练后)上测量。
-
5.3. 对比基线
在数据选择阶段 (data selection phase),本文建立了三个基线:
-
All:表示在对齐阶段使用整个对齐数据集 (entire alignment dataset) 进行模型训练。
-
Random:表示从原始对齐数据集中随机选择 个样本来构建新的对齐数据集,然后用于在对齐阶段训练预训练模型。
-
TaskVary [18]:这是目前唯一存在的对齐数据选择方法。它假设预先了解用户的微调数据集 (prior knowledge of the user's fine-tuning dataset),并通过选择与微调数据集最不相似 (least similar) 的 个样本来构建新的对齐数据集。然后,这个数据集用于在对齐阶段训练预训练模型。
在对齐阶段防御 (alignment-stage defenses) 方面,本文评估了五种最先进 (state-of-the-art) 的解决方案:
-
SFT (Supervised Fine-Tuning):将预训练模型(例如
Qwen2-7B)在对齐数据集上进行对齐,以提供对有害提示的安全响应。随后,使用标准的监督微调 (SFT)将模型适应特定任务(例如GSM8K)。 -
Vaccine [16]:在对齐阶段应用
Vaccine算法,使模型与对齐数据集对齐。之后,使用标准SFT在用户数据集上训练模型。实验中使用的超参数是 ,这是原始论文中报告的最优值。 -
RepNoise [17]:在对齐阶段应用
RepNoise算法,使模型与对齐数据集和有害数据集对齐。之后,使用标准SFT在用户数据集上训练模型。选择的超参数是 和 。 -
Booster [7]:在对齐阶段应用
Booster算法,使模型与对齐数据集对齐,之后在用户数据集上进行标准SFT。实验中设置超参数为 和 ,与原始论文推荐值一致。 -
T-Vaccine [24]:在对齐阶段应用
T-Vaccine,之后在用户数据集上进行标准SFT。使用 和 ,与原始论文建议一致。
5.4. 提示模板
在训练和评估阶段,始终使用以下系统提示 (prompt):
Prompt: Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request. Is:stIu:nu}Res: Output: {output}
具体来说:
- 对于对齐数据集 (alignment datasets)(即
BeaverTails和RepNoise-Refusal),instruction对应真实的有害提示,input为None,output为真实的有害响应。 - 在微调阶段 (fine-tuning phase),采用任务特定的提示:
- 对于
SST2数据集,instruction是“分析输入的感情并只用积极或消极回答”,input是来自SST2的一个句子,output是其情感标签(例如,positive)。 - 对于
AGNEWS,instruction是“将新闻文章分类到以下 4 个类别之一:世界、体育、商业、科技”,input是真实新闻文本,output是正确标签(例如,Sports)。 - 对于
GSM8K,instruction是一个真实的数学问题,output是相应的正确答案。
- 对于
5.5. 训练细节和超参数
遵循 [16] 的设置,采用 LoRA [39] 进行 LLMs 的参数高效训练 (parameter-efficient training),适配器秩 (adapter rank) 设置为 32,缩放因子 (LoRA alpha) 设置为 4。
在数据选择阶段 (data selection phase):
-
使用
AdamW优化器 [40],学习率为 5e-4,权重衰减为 0.1。 -
在完整的原始对齐数据集上训练 20 个
epochs,批次大小为 10。 -
使用 200 个样本作为验证集,另有 200 个样本用于有害数据选择,两者均来自 [32] 引入的数据集。
在对齐阶段 (alignment phase):
-
使用大小为 的选定对齐子集进行训练。
-
训练设置与选择阶段一致:
AdamW优化器,5e-4 学习率,0.1 权重衰减,批次大小 10,20 个训练epochs。在微调阶段 (fine-tuning phase):
-
保持相同的训练超参数。
-
在 1000 个样本上微调模型,这些样本由良性实例和有害实例组成。其中,有害样本取自
BeaverTails[31],良性样本取自SST2[33]、GSM8K[34] 和AGNEWS[35]。 -
除非另有说明,使用有害比率 ,这意味着微调数据集中有 10% 的样本是有害的。
LoRA在对齐和微调阶段都持续应用,以实现高效的模型适应,使用相同的配置:秩 32 和 alpha 4。
6. 实验结果与分析
本节展示了 Pharmacist 的主要评估结果,以证明其有效性。除非另有说明,默认情况下,在对齐阶段使用 BeaverTails 数据集,在微调阶段使用 GSM8K 数据集,底层模型为 Llama2-7B。
6.1. 核心结果分析
6.1.1. 对有害比率的鲁棒性
首先评估 Pharmacist 在不同有害比率下的有效性,采用标准 SFT 方法进行对齐训练,并使用 BeaverTails 数据集。完整的对齐数据集(All)包含 11,604 个样本,而 Random、TaskVary 和 Pharmacist 各自选择 5,000 个样本。
以下是原文 Table I 的结果:
| Methods | Harmful Score ↓ | Finetune Accuracy ↑ | Clock Time (Hour) ↓ | ||||||||||
| (n=1000) | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average | Alignment |
| All + SFT | 57.50 | 60.50 | 62.50 | 64.80 | 65.10 | 62.08 | 11.50 | 11.80 | 12.70 | 11.70 | 10.40 | 11.00 | 3.03 |
| Random + SFT | 59 | 64.20 | 65.10 | 67.90 | 68.70 | 65.12 | 12.70 | 12.60 | 12.60 | 12.10 | 12.20 | 12.44 | 1.32 |
| TaskVary + SFT | 76.00 | 75.70 | 78.20 | 77.30 | 76.40 | 76.72 | 13.60 | 13.50 | 13.20 | 12.50 | 12.30 | 13.02 | 1.36 |
| Pharmacist + SFT | 55.70 | 60.40 | 61.30 | 64.90 | 65.60 | 61.58 | 14.30 | 13.80 | 13.60 | 14.20 | 13.10 | 13.80 | 1.28 |
表 1: 不同有害比率下的性能。
分析:
-
对比 :
Pharmacist + SFT在平均防御性能上(HS 平均 61.58% vs 62.08%)提升了 0.5%,在推理性能上(FA 平均 13.80% vs 11.00%)提升了 2.80%。同时,训练开销显著降低了 57.76%(对齐训练时间从 3.03 小时减少到 1.28 小时)。这种改进归因于Pharmacist能够有效过滤原始对齐数据集中存在的低质量或非安全关键样本,从而选择高质量、安全关键的样本。 -
对比
Random + SFT:Pharmacist在所有有害比率下始终优于Random选择。平均而言,防御性能提高了 3.54%(HS 平均 61.58% vs 65.12%),推理性能提高了 1.36%(FA 平均 13.80% vs 12.44%)。这表明随机采样容易包含低质量或非安全关键样本,从而损害性能。 -
对比
TaskVary + SFT:Pharmacist在防御性能上平均提高了 15.14%(HS 平均 61.58% vs 76.72%),推理性能提高了 0.78%(FA 平均 13.80% vs 13.02%)。这说明TaskVary仅依赖样本不相似性进行选择,在复杂数据集上是不够的。这些结果凸显了
Pharmacist方法的必要性和有效性。
6.1.2. 对齐数据集的泛化能力
表 II 展示了在两个不同复杂度的对齐数据集上的比较结果。对于 RepNoise-Refusal 数据集,ALL 使用全部 5018 个样本,而 Random、TaskVary 和 Pharmacist 各自选择 2500 个样本,然后进行 SFT。对齐后的模型随后在 GSM8K 数据集上进行微调。对于 BeaverTails 数据集,ALL 使用全部 11604 个样本,而 Random、TaskVary 和 Pharmacist 各自选择 5000 个样本。
以下是原文 Table II 的结果:
| Methods | Harmful Score ↓ | Finetune Accuracy ↑ | ||||||||||
| (RepNoise-Refusal) | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average |
| All + SFT | 2.30 | 14.10 | 19.10 | 40.10 | 54.00 | 25.92 | 16.30 | 15.40 | 14.20 | 14.30 | 13.40 | 14.72 |
| Random + SFT | 3.40 | 17.40 | 26.50 | 43.70 | 556.60 | 29.52 | 14.60 | 14.10 | 13.40 | 13.50 | 13.60 | 13.84 |
| TaskVary + SFT | 4.90 | 15.70 | 23.20 | 45.20 | 557.40 | 29.28 | 15.40 | 14.80 | 16.00 | 15.20 | 14.70 | 14.50 |
| Pharmacist + SFT | 2.20 | 15.10 | 21.40 | 37.30 | 53.40 | 25.88 | 14.50 | 13.60 | 11.90 | 14.00 | 13.70 | 13.54 |
| Methods | Harmful Score ↓ | Finetune Accuracy ↑ | ||||||||||
| (BeaverTails) | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average | clean | p=0.05 | p=0.1 | p=0.2 | p=0.3 | Average |
| All + SFT | 57.50 | 60.50 | 62.50 | 64.80 | 65.10 | 62.08 | 11.50 | 11.80 | 12.70 | 11.70 | 10.40 | 11.00 |
| Random + SFT | 59.70 | 64.20 | 65.10 | 67.90 | 68.70 | 65.12 | 12.70 | 12.60 | 12.60 | 12.10 | 12.20 | 12.44 |
| TaskVary + SFT | 76.00 | 75.70 | 78.20 | 77.30 | 76.40 | 76.72 | 13.60 | 13.50 | 13.20 | 12.50 | 12.30 | 13.02 |
| Pharmacist + SFT | 55.70 | 60.40 | 61.30 | 64.90 | 65.60 | 61.58 | 14.30 | 13.80 | 13.60 | 14.20 | 13.10 | 13.80 |
表 2: 不同对齐数据集上的性能。
分析:
-
在
RepNoise-Refusal数据集上:Pharmacist相较于ALL、Random和TaskVary,有害分数分别降低了 0.04%、3.64% 和 3.40%。这表明Pharmacist能够从该数据集中选择高质量、安全关键的样本,甚至优于使用完整数据集的效果。 -
在
BeaverTails数据集上:Pharmacist同样表现出色,在所有有害比率下均实现了最佳防御性能,并在所有基线中达到了最高的平均微调准确率。 -
平衡性能与效率: 尽管在某些有害比率下,使用
Pharmacist选择样本的模型防御性能可能略低于使用完整数据集训练的模型,但Pharmacist平均能将训练速度提高 50% 以上。这些结果进一步证明了
Pharmacist在不同数据集上的有效性,并强调了数据选择的重要性,以及Pharmacist在防御性能和计算效率之间取得有效平衡的能力。
6.1.3. 微调数据集的泛化能力
在表 III 中,评估了 T-Vaccine 在三个微调数据集(SST2、AGNEWS 和 GSM8K)上的性能,并以 Llama2-7B 作为案例研究。
以下是原文 Table III 的结果:
| Datasets (BeaverTails) | GSM8K | AGNEWS | SST2 | Average | ||||
| HS ↓ | FA↑ | HS ↓ | FA ↑ | HS ↓ | FA↑ | HS ↓ | FA↑ | |
| ALL + SFT | 62.50 | 12.70 | 59.90 | 83.80 | 59.00 | 93.58 | 60.47 | 63.36 |
| Random + SFT | 65.10 | 12.60 | 65.70 | 83.90 | 66.60 | 94.38 | 65.80 | 63.63 |
| TaskVary + SFT | 78.20 | 13.20 | 73.50 | 85.80 | 76.60 | 92.66 | 76.10 | 63.89 |
| Pharmacist + SFT | 61.30 | 13.60 | 61.70 | 88.40 | 60.90 | 92.55 | 61.30 | 64.85 |
表 3: 不同微调数据集上的性能。
分析:
-
对比
Random和TaskVary:Pharmacist在防御性能上平均提高了 4.50%(HS 平均 61.30% vsRandom65.80%)和 14.80%(HS 平均 61.30% vsTaskVary76.10%)。具体而言,在GSM8K、AGNEWS和SST2上,有害分数分别比Random降低了 3.80%、4.00% 和 5.70%,比TaskVary降低了 16.90%、11.80% 和 15.70%。 -
推理准确率:
Pharmacist取得了所有基线中最高的平均微调准确率。 -
对比
ALL:Pharmacist的性能与使用完整数据集(ALL)相当甚至更好。例如,在GSM8K上,Pharmacist将有害分数降低了 1.2%,并将微调准确率提高了 0.9%。这些结果表明,所提出的方法在
GSM8K和AGNEWS等更复杂的微调任务上具有良好的泛化能力。
6.1.4. 模型泛化能力
上述实验主要使用 Llama2-7B 模型。表 IV 进一步证明了 Pharmacist 对两种最先进的模型架构:Gemma-2-9B 和 Qwen2.5-7B 具有良好的泛化能力。在这些实验中,同一个模型在数据选择、对齐和微调三个阶段中保持一致。
以下是原文 Table IV 的结果:
| Methods (GSM8K) | Gemma-2-9B | Llama2-7B | Qwen2.5-7B | Average | ||||||||
| HS ↓ | FA ↑ | Time ↓ | HS ↓ | FA ↑ | Time ↓ | HS ↓ | FA↑ | Time ↓ | HS ↓ | FA↑ | Time↓ | |
| ALL + SFT | 60.40 | 49.70 | 3.99 | 62.50 | 12.70 | 3.03 | 54.10 | 60.70 | 2.72 | 59.00 | 41.03 | 3.25 |
| Random + SFT | 63.70 | 53.80 | 1.73 | 65.10 | 12.60 | 1.32 | 61.60 | 64.40 | 1.19 | 63.47 | 43.60 | 1.41 |
| TaskVary + SFT | 77.00 | 53.40 | 1.76 | 78.20 | 13.20 | 1.36 | 75.10 | 63.20 | 1.21 | 76.83 | 43.27 | 1.44 |
| Pharmacist + SFT | 61.00 | 53.00 | 1.61 | 61.30 | 13.60 | 1.28 | 57.60 | 60.10 | 1.09 | 59.97 | 42.23 | 1.33 |
表 4: 默认设置下不同模型上的性能。
分析:
-
对比
Random和TaskVary:Pharmacist在防御性能上平均提高了 3.50%(HS 平均 59.97% vsRandom63.47%)和 16.86%(HS 平均 59.97% vsTaskVary76.83%)。具体而言,在Gemma-2-9B、LLaMA2-7B和Qwen2.5-7B上,有害分数分别比Random降低了 2.70%、3.80% 和 4.00%,比TaskVary降低了 16.20%、16.90% 和 17.50%。 -
推理准确率:
Pharmacist在所有基线中取得了最高的平均微调准确率。 -
对比
ALL:Pharmacist的性能与使用完整数据集(ALL)相当甚至更好。例如,在Gemma-2-9B上,Pharmacist的有害分数仅比ALL高 0.60%,但微调准确率提高了 3.3%,并且训练时间减少了 59.65%。这些结果表明
Pharmacist可以有效地扩展到更先进和复杂的模型,如Gemma-2-9B和Qwen2.5-7B,进一步验证了其鲁棒性和泛化能力。
6.2. 消融实验
6.2.1. 与现有防御方法的集成
为了进一步验证 Pharmacist 的有效性,将通过四种不同方法选择的对齐数据集应用于五种主流的对齐阶段防御 (alignment-stage defense) 解决方案,即 SFT、RepNoise、Booster、Vaccine 和 T-Vaccine。
以下是原文 Table V 的结果:
| Methods | Harmful Score ↓ | Finetune Accuracy ↑ | Clock Time (Hour) ↓ |
| All + SFT | 62.50 | 12.70 | 3.01 |
| Random + SFT | 65.10 | 12.60 | 1.30 |
| TaskVary + SFT | 78.20 | 13.20 | 1.36 |
| Pharmacist + SFT | 61.30 | 13.60 | 1.29 |
| All + RepNoise | 67.10 | 10.40 | 9.96 |
| Random + RepNoise | 66.50 | 12.60 | 4.30 |
| TaskVary + RepNoise | 76.20 | 12.80 | 4.36 |
| Pharmacist + RepNoise | 64.50 | 13.90 | 4.30 |
| All + Booster | 61.40 | 12.50 | 9.18 |
| Random + Booster | 65.10 | 13.00 | 3.99 |
| TaskVary + Booster | 78.20 | 15.10 | 4.01 |
| Pharmacist + Booster | 63.40 | 14.80 | 3.95 |
| All + Vaccine | 52.00 | 10.80 | 6.02 |
| Random + Vaccine | 57.30 | 11.50 | 2.59 |
| TaskVary + Vaccine | 77.90 | 12.10 | 2.70 |
| Pharmacist + Vaccine | 53.80 | 14.00 | 2.58 |
| All + T-Vaccine | 54.60 | 11.10 | 7.27 |
| Random + T-Vaccine | 52.40 | 11.50 | 3.12 |
| TaskVary + T-Vaccine | 76.20 | 11.30 | 3.27 |
| Pharmacist + T-Vaccine | 51.30 | 12.20 | 3.08 |
表 5: Pharmacist 与对齐阶段防御解决方案有效集成。
分析:
-
对比
Random采样策略:Pharmacist选择的数据集显著提高了SFT、RepNoise、Booster、Vaccine和T-Vaccine的防御性能,分别提升了 3.80%、2.00%、1.70%、3.50% 和 1.10%。同时,推理性能也分别提高了 1.00%、1.30%、1.80%、2.64% 和 0.70%。 -
对比
TaskVary:Pharmacist与对齐阶段防御解决方案结合后,实现了更强的防御性能。例如,在RepNoise上,Pharmacist使防御性能提高了 11.70%,推理性能提高了 1.10%。 -
对比
ALL(完整数据集): 将Pharmacist与对齐阶段防御解决方案集成不仅带来了更好的防御性能,而且显著加快了训练速度。例如,在T-Vaccine上,Pharmacist使防御性能提高了 3.30%,推理性能提高了 1.10%,同时训练速度提高了 57.63%。值得注意的是,当
Pharmacist与内存高效的T-Vaccine方法结合时,它在取得卓越防御效果的同时,也实现了内存和计算效率的提升。
6.3. 统计/系统分析
6.3.1. 统计分析
图 3 展示了 Pharmacist 和 Random 方法的统计比较。
该图像是包含三部分折线图的图表,展示了Pharmacist与随机方法结合SFT(顺序微调)在有害得分、验证训练损失及有害训练损失随训练步数变化的性能对比。
图 3: 左图:微调过程中不同对齐样本数量下的防护性能。中图:Pharmacist 提高了验证训练损失。右图:Pharmacist 降低了有害训练损失。
分析:
- 有害分数 (Harmful Score): 如图 3 左侧所示,在包含 10% 有害样本的微调过程中,使用
Pharmacist选择的对齐数据训练的模型,其有害分数随训练步骤的增加而增长较慢,这与随机选择数据训练的模型形成对比。尤其在 1500 步之后,SFT + Random模型的有害分数增长更快,表明其更容易受到有害数据的影响。 - 验证损失 (Validation Loss): 如图 3 中间所示,使用
Pharmacist选择数据训练的预训练模型在验证数据集上实现了显著更低的损失,这表明Pharmacist选择的数据与验证分布更紧密对齐,有效识别了更高质量的数据。 - 有害训练损失 (Harmful Training Loss): 如图 3 右侧所示,使用
Pharmacist选择数据对齐的模型在微调阶段的有害数据集上实现了显著更低的损失。这表明Pharmacist选择的数据在抵抗有害数据方面更有效,从而识别了安全关键 (safety-critical) 的数据。
6.3.2. 系统分析
如表 VI 所示,比较了不同方法的时钟时间 (clock time) 和峰值 GPU 内存使用量 (peak GPU memory usage)。
以下是原文 Table VI 的结果:
| Methods (GSM8K) | Clock Time (Hour) | GPU Memory (GB) | ||||||
| Data Selection | Alignment | Fine-tuning | Sum | Data Selection | Alignment | Fine-tuning | Max | |
| ALL + SFT | - | 3.01 | 0.30 | 3.31 | - | 28.08 | 45.80 | 45.80 |
| Random + SFT | - | 1.30 | 0.30 | 1.60 | - | 28.08 | 45.80 | 45.80 |
| TaskVary + SFT | 0.0055 | 1.36 | 0.30 | 1.66 | 0.73 | 28.07 | 45.80 | 45.80 |
| Pharmacist + SFT | 3.87 (One-time) | 1.29 | 0.30 | 5.46 | 30.91 (One-time) | 28.08 | 45.80 | 45.80 |
表 6: 系统性能比较。
分析:
-
总时间开销: 尽管
Pharmacist + SFT的总时间开销最高(5.46 小时),但数据选择阶段(Pharmacist)只需执行一次 (one-time)。因此,与使用整个数据集进行微调的 相比,Pharmacist + SFT将总时间开销减少了 51.63%(从 3.31 小时减少到 1.60 小时,如果Pharmacist的单次运行成本被摊销或视为预处理)。 -
GPU 内存使用: 由于
Pharmacist仅选择核心对齐数据子集,它在对齐或微调阶段不会引入额外的内存消耗。实际上,Pharmacist选择阶段的 GPU 内存使用量(30.91 GB)甚至低于微调阶段(45.80 GB),这表明该方法没有施加额外的内存要求。这些结果进一步证明了所提出方法的效率和实用性。
6.4. 超参数分析
6.4.1. 步长 的影响
表 VII 展示了步长 如何影响 Pharmacist 选择的对齐数据及其对防御性能的后续影响。步长 旨在模拟对抗性扰动 (adversarial perturbations)。
以下是原文 Table VII 的结果:
| α = 0 | α = 0.01 | α = 0.1 | α = 0.5 | α = 1 | α = 5 | |
| HS | 64.30 | 65.60 | 61.30 | 65.90 | 63.90 | 66.30 |
| FA | 12.60 | 12.10 | 13.60 | 10.50 | 9.70 | 12.70 |
表 7: 内部步长 对 Booster 的影响。
分析:
- 当 时,
SFT方法的防御性能下降(HS = 64.30)。 - 当 设置过大时,会导致两个问题:i) 防御性能显著下降,例如当 时 HS = 66.30;ii) 模型优化可能不稳定,表现为当 时推理性能显著下降(FA = 9.70)。
- 这些结果表明,过大的步长无法准确模拟有害扰动。因此,较小的步长在指导
Pharmacist选择高质量和安全关键样本方面更有效。 - 在本文中,步长 被固定为 0.1,在该值下
HS较低(61.30)且FA较高(13.60)。
6.4.2. 验证/有害样本数量的影响
在 Pharmacist 中,使用有害数据集 (harmful dataset) 来模拟对抗性扰动,使用验证数据集 (validation dataset) 来表示高质量、安全的样本,从而使选择器能够识别对有害输入具有鲁棒性的样本。验证数据集和有害数据集中的提示是相同的;然而,验证数据集产生安全响应,而有害数据集产生恶意输出。表 VIII 展示了样本数量对 Pharmacist 性能的影响。
以下是原文 Table VIII 的结果:
| # of harmful data | 5 | 10 | 20 | 100 | 200 | 500 |
| HS | 62.40 | 63.50 | 61.40 | 63.80 | 61.30 | 63.30 |
| FA | 12.10 | 15.00 | 11.90 | 14.60 | 13.60 | 14.50 |
表 8: 对齐中使用的验证/有害数据数量的影响。
分析:
- 使用过少的验证或有害示例(例如,只有 5 个样本)不足以近似对抗性模式,导致次优的对齐样本选择。
- 使用过多的有害样本会增加学习的复杂性,可能对选择性能产生负面影响。
- 基于这些观察,本文将验证和有害样本的数量固定为 200。在该值下,
HS较低(61.30),FA较高(13.60),达到了较好的平衡。
6.4.3. 批次大小的影响
在 Pharmacist 中,数据选择过程被公式化为一个双层优化 (bilevel optimization) 框架,其中内层循环 (inner loop) 在训练集上优化模型参数以增强拟合能力,而外层循环 (outer loop) 在验证集和有害数据集上优化选择器参数以识别高质量和安全关键的样本。表 IX 展示了内层和外层循环批次大小对防御性能和推理效果的影响。
以下是原文 Table IX 的结果:
| inner batch size | 1 | 2 | 5 | 8 | 10 |
| HS | 58.70 | 66.20 | 65.90 | 65.80 | 61.30 |
| FA | 12.20 | 12.70 | 11.20 | 11.70 | 13.60 |
| outer batch size | 1 | 2 | 5 | 8 | 10 |
| HS | 61.30 | 60.40 | 64.40 | 65.60 | 66.20 |
| FA | 13.60 | 11.00 | 13.30 | 11.80 | 11.80 |
表 9: 批次大小的影响。
分析:
- 内层循环批次大小: 内层循环需要较大的批次大小才能获得更稳定的梯度估计并提高训练稳定性。例如,当内层批次大小为 10 时,模型达到了较好的 HS (61.30) 和 FA (13.60)。虽然内层批次大小为 1 时 HS 最高(58.70),但会导致次优的 FA (12.20),并且由于优化步骤数量增加,训练时间显著增加。
- 外层循环批次大小: 外层循环倾向于较小的批次大小,以便在每个优化步骤中更精确地捕获所选样本对抵抗有害扰动的贡献。例如,当外层批次大小为 1 时,模型达到了较好的 HS (61.30) 和 FA (13.60)。
- 这些发现强调了批次大小配置在平衡防御鲁棒性、推理质量和计算效率方面的关键作用。
- 基于这些观察,内层循环和外层循环的批次大小分别固定为 10 和 1。
6.5. 可视化
本节展示了 T-Vaccine 和 SFT 方法与不同数据选择策略结合时,在 BeaverTail 和 RepNoise-Refusal 数据集上对恶意提示的响应表现。评估是在默认攻击设置下使用固定模型进行的。
-
T-Vaccine结合Pharmacist: 结果表明,使用Pharmacist选择的数据训练的T-Vaccine能够有效地拒绝回答敏感问题,而其他方法则未能做到。 -
SFT结合Pharmacist: 同样,使用Pharmacist选择的数据训练的SFT在RepNoise-Refusal数据集上也能有效地拒绝回答敏感问题,而其他方法则失败了。这些定性分析进一步支持了
Pharmacist在识别安全关键数据方面的有效性,从而增强了模型的防御能力。
7. 总结与思考
7.1. 结论总结
本文观察到,现有的对齐阶段防御方法往往难以在计算效率和防御性能之间取得平衡,这主要是由于对齐数据集的局限性。为解决此问题,本文采取了以数据集为中心 (dataset-centric) 的方法,研究如何从原始对齐数据集中选择一个高质量且安全关键 (safety-critical) 的核心子集。
为此,本文将对齐数据选择任务公式化为一个双层优化 (bilevel optimization) 问题,并提出了一种安全感知数据筛选 (safety-aware data curation) 算法 Pharmacist,用于识别同时具备高质量和安全关键特性的样本。广泛的实验结果表明,Pharmacist 有效地增强了现有对齐阶段防御方法的性能,同时将对齐阶段的训练开销减少了 50% 以上。
7.2. 局限性与未来工作
作者指出了未来可能的研究方向:探索通过更精确地识别和过滤有害词元 (harmful tokens) 来缓解有害微调问题。这暗示了当前 Pharmacist 可能在词元级别的细粒度控制上仍有改进空间,或者其当前的数据选择是基于样本层面的。
7.3. 个人启发与批判
7.3.1. 个人启发
- 数据质量的决定性作用: 这篇论文再次强调了数据质量 (data quality) 在机器学习,特别是 LLM 安全对齐中的核心作用。很多时候,我们专注于模型架构和训练算法的创新,但却忽视了“垃圾进,垃圾出”的基本原则。
Pharmacist的成功表明,在模型训练之前进行智能化的数据预处理和选择,可以事半功倍,甚至超越使用全量数据进行训练的效果。 - 双层优化的应用潜力: 将数据选择问题建模为双层优化 (bilevel optimization) 问题是一个优雅且有效的方法。它允许在外层优化中显式地考虑模型的最终目标(例如,在验证集上的性能和对有害输入的鲁棒性),从而指导内层数据选择器的学习。这种框架在其他数据优化任务中也可能具有广泛的应用前景,例如数据集蒸馏、对抗样本生成中的数据选择等。
- 计算效率与性能的平衡:
Pharmacist不仅提升了安全性,还显著降低了训练时间,这在资源受限的环境下或需要快速迭代的场景中极具价值。对于微调即服务 (Fine-tuning-as-a-Service) 这种商业模式,减少训练成本直接转化为经济效益。 - 可插拔性与兼容性:
Pharmacist作为一个对齐数据筛选 (alignment data curation) 解决方案,可以无缝集成到各种现有的对齐阶段防御方法中,这大大提高了其通用性和实用性,降低了采纳成本。
7.3.2. 批判
- 二阶信息近似的潜在影响: 为了简化计算,作者将二阶梯度项 (second-order gradient term) 近似为常数。虽然这是双层优化中常用的技术,但这种近似可能会牺牲一部分优化精度,特别是在优化景观复杂或曲率变化较大的情况下。未来的工作可以探索更高效但更精确的二阶近似方法,或者研究这种近似对最终性能边界的影响。
- 超参数 的敏感性: 论文中提到了步长 的选择对性能有显著影响,过大或过小都会导致性能下降。这意味着
Pharmacist的部署可能需要仔细的超参数调优。虽然论文给出了推荐值 (0.1),但在不同模型、数据集或有害攻击场景下,这个值是否依然最优,以及如何自动或半自动地确定这个值,是值得探讨的问题。 - 有害数据集和验证数据集的构建:
Pharmacist的有效性在很大程度上依赖于有害数据集 (harmful dataset) 和验证数据集 (validation dataset) 的质量和代表性。如果这些数据集不能充分捕捉到潜在的有害模式或期望的安全行为,那么数据选择器可能无法学习到最优的筛选策略。这些数据集的构建成本和多样性是实际应用中需要考虑的挑战。 - 长尾或罕见有害模式的捕捉:
Pharmacist旨在选择“安全关键”的样本。对于那些在训练数据中非常罕见或属于“长尾”的有害模式,Pharmacist是否能有效识别并保留相应的样本?这可能需要更复杂的选择标准,而不仅仅是基于梯度信息的排序。 - 对“高质量”和“安全关键”的定义: 论文中通过验证损失和有害损失来隐式定义“高质量”和“安全关键”。这种定义是否足够全面?例如,某些对齐数据可能在模型通用能力和安全性之间存在权衡,
Pharmacist如何在这种权衡中做出最优决策可能需要更细致的分析。
相似论文推荐
基于向量语义检索推荐的相关论文。