论文状态：已完成

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

发表：2024/08/19

有害微调风险缓解 (7)大语言模型微调 (51)大语言模型安全机制 (9)

原文链接 PDF 下载

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

针对大语言模型易被有害微调破坏安全对齐问题，提出Antidote，一种后微调阶段的安全恢复方法。通过一次性剪枝去除有害权重，无需依赖微调超参数。实验表明，Antidote有效降低有害输出，且保持任务准确率。代码已开源。

摘要

Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks -- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. While several defenses have been proposed, our evaluation shows that existing defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks. Code is available at https://github.com/git-disl/Antidote.

思维导图

论文精读

中文精读约 33 分钟读完 · 22,387 字

1. 论文基本信息

1.1. 标题

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning Attack (Antidote：对抗有害微调攻击的大语言模型后微调安全对齐方法)

1.2. 作者

Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Joshua Kimball, Ling Liu

1.3. 发表期刊/会议

论文目前作为预印本发表于 arXiv。

1.4. 发表年份

2024年

1.5. 摘要

安全对齐的大语言模型 (LLMs) 易受到有害微调攻击的影响——微调数据集中混合少量有害数据就可能破坏 LLMs 的安全对齐。尽管已经提出了几种防御措施，但我们的评估表明，当选择某些特定的训练超参数（例如，微调阶段的大学习率或大量训练轮数）时，现有防御措施会失效。为此，我们提出了 Antidote，一个后微调阶段的解决方案，它对微调阶段的训练超参数保持无关性。Antidote 基于这样的理念：通过移除有害参数，可以使模型从有害行为中恢复，无论这些有害参数是如何在微调阶段形成的。基于这一理念，我们在有害微调后引入一个一次性剪枝 (one-shot pruning) 阶段，以移除导致有害内容生成的有害权重。尽管其简单得令人尴尬，但实验结果表明，Antidote 可以在降低有害分数的同时，保持下游任务的准确率。代码已在 https://github.com/git-disl/Antidote 发布。

1.6. 原文链接

https://arxiv.org/abs/2408.09600 (预印本) PDF 链接: https://arxiv.org/pdf/2408.09600v3.pdf

2. 整体概括

2.1. 研究背景与动机

当前，大型语言模型 (LLMs) 在预训练后通常会进行安全对齐 (safety alignment)，以确保其输出符合安全偏好，即即使在用户发出有害提示 (harmful prompt) 时也能拒绝生成有害内容。然而，最近的研究表明，即使微调数据集中只混入了少量有害数据，也可能导致模型“遗忘”其先前学习到的安全对齐知识，从而在面对有害提示时不再生成拒绝响应 (refusal response)。

随着“微调即服务 (fine-tuning-as-a-service)”模式的兴起，用户可以上传自己的数据来微调预训练的 LLM 以满足个性化需求。这给服务提供商（如 OpenAI）带来了安全风险，因为用户上传的数据可能包含有害内容。服务提供商有义务确保模型的输出无害，否则可能面临治理问题或法律诉讼。

现有缓解策略主要分为两类：

对齐阶段防御 (alignment stage defense)：关注如何在对齐阶段提高模型对有害微调数据的免疫力。例如，通过在对齐阶段添加人工扰动或表示噪声技术 (representation noising technique)。
用户微调阶段防御 (user fine-tuning stage defense)：核心思想是在微调阶段通过引入正则化器 (regularizer) 等方法，在学习用户任务知识的同时，减轻安全对齐知识的遗忘。

然而，作者通过实验发现，现有防御方法存在一个普遍的弱点——它们需要较小的学习率 (learning rate) 和较少的训练轮数 (training epochs) 来保证有效性。这种限制对下游任务的性能可能是有害的，因为某些微调任务为了达到良好的学习性能，需要更大的学习率和更多的训练轮数。这引发了一个关键的研究问题：是否存在一种对微调阶段超参数敏感度较低的防御方法？

2.2. 核心贡献/主要发现

本文旨在回答上述研究问题，并提出了 Antidote。其核心贡献和主要发现包括：

识别并揭示了现有防御的局限性： 首次系统性地评估了现有有害微调防御解决方案（包括对齐阶段和微调阶段防御），并揭示了它们的共同弱点，即对微调阶段的训练超参数（如学习率和训练轮数）高度敏感，将其命名为“超参数敏感性问题 (hyper-parameter sensitive issue)”。当这些超参数较大时，现有防御措施的有效性会显著下降。
提出 Antidote 方法： 提出了一种创新的后微调阶段安全对齐解决方案 Antidote。该方法在微调过程完全完成后才进行干预，因此对微调阶段的具体训练细节（包括超参数）具有无关性。
Antidote 的核心理念和机制： Antidote 基于“通过移除有害参数，可以使模型从有害行为中恢复”的哲学。它引入了一个“一次性剪枝 (one-shot pruning)”阶段，利用 Wanda score 识别并移除对有害内容生成负责的有害权重。
显著的防御效果与性能保持： 实验结果表明，Antidote 相比于基线 SFT (Supervised Fine-Tuning)，在大多数设置下能将有害分数 (Harmful Score, HS) 平均降低高达 17.8%，同时仅导致平均 1.83% 的微调准确率 (Finetune Accuracy, FA) 损失。这表明 Antidote 在提升安全性的同时，有效保持了模型在下游任务上的性能。
广泛的泛化能力和系统优势： Antidote 在不同的有害数据比例、微调样本数量、无害微调攻击、数据集以及不同的 LLM 模型架构（Llama2-7B, Mistral-7B, Gemma-7B, Llama3-8B）上都表现出良好的泛化能力和鲁棒性。此外，它在系统性能方面也具有优势，仅引入了微小的运行时间 (clock time) 和 GPU 内存使用 (GPU memory usage) 开销。

3. 预备知识与相关工作

3.1. 基础概念

大语言模型 (Large Language Models, LLMs)：指拥有数亿甚至数千亿参数的深度学习模型，通过在海量文本数据上进行预训练，学习到丰富的语言知识和生成能力。
安全对齐 (Safety Alignment)：大语言模型在预训练后，需要经过额外的训练步骤，使其行为与人类价值观、伦理和安全偏好保持一致。这意味着模型应该避免生成有害、偏见或不当的内容，即使在被诱导时也能给出拒绝响应。常见的安全对齐方法包括强化学习与人类反馈 (RLHF) 和监督式微调 (SFT)。
有害微调攻击 (Harmful Fine-tuning Attack)：一种针对 LLM 安全性的攻击方式。攻击者通过在微调数据集中混入少量恶意构造的、能导致模型生成有害内容的样本，从而使模型“忘记”其原有的安全对齐知识，生成不安全的输出。
微调即服务 (Fine-tuning-as-a-service)：一种商业模式，用户可以向服务提供商（如 OpenAI）上传自己的数据，由提供商对预训练的 LLM 进行微调，以满足用户的特定需求。微调后的模型通常由服务提供商托管和部署。
超参数 (Hyper-parameters)：在机器学习模型训练过程中，需要手动设置的参数，而不是通过模型训练学习到的参数。例如，学习率 (learning rate)、训练轮数 (training epochs)、批次大小 (batch size) 等。它们的设置对模型的训练效果和性能有重要影响。
一次性剪枝 (One-shot Pruning)：一种模型剪枝技术，在训练过程结束后，一次性地评估模型中各参数的重要性，并移除其中不重要的部分，以达到模型压缩或性能优化的目的。与迭代剪枝 (iterative pruning) 不同，它不需要多次训练和剪枝的循环。
参数重要性分数 (Parameter Importance Score)：用于量化模型中每个参数（权重）对模型整体功能或特定任务贡献程度的指标。得分越高，表示该参数越重要。本文使用了 Wanda score。
有害嵌入漂移 (Harmful Embedding Drift, HED)：衡量模型在微调后，其内部表示（尤其是与安全相关的嵌入）相对于安全对齐前的模型发生了多大程度的变化。通常通过计算对齐模型和微调模型在相同对齐数据上的隐藏嵌入 (hidden embedding) 的 L2 范数差来衡量。较大的 HED 通常意味着安全对齐知识的丢失。

3.2. 前人工作

3.2.1. 安全对齐 (Safety Alignment)

安全对齐旨在使 LLM 的输出与人类价值观对齐。代表性技术包括：

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) (Ouyang et al., 2022; Bai et al., 2022; Rafailov et al., 2023; Yuan et al., 2023)：通过收集人类对模型输出的偏好反馈，训练一个奖励模型，然后使用该奖励模型指导 LLM 的强化学习过程，使其生成人类更偏好的输出。
指令微调 (Instruction Fine-tuning, SFT)：通过在包含指令-响应对的数据集上进行监督学习，使模型能够遵循指令生成相应输出。
对齐数据增强 (Augmenting Alignment Data) (Liu et al., 2023a;b; Ye et al., 2023; Tekin et al., 2024)：通过生成或收集更多高质量的对齐数据来提高模型的安全性。

3.2.2. 有害微调 (Harmful Fine-tuning)

多项研究 (Qi et al., 2023; Yang et al., 2023; Zhan et al., 2023; Lermen et al., 2023; Yi et al., 2024a) 揭示了 RLHF 或 SFT 对齐的 LLM 在经过明确/隐含有害数据微调后，可能被“越狱 (jail-broken)”。其内在机制也受到广泛研究 (Leong et al., 2024; Wei et al., 2024; Peng et al., 2024; Jain et al., 2024; Qi et al., 2024b; Hsiung et al., 2025; Guo et al., 2024; Poppi et al., 2024; Che et al., 2025; Chen et al., 2025)。

现有针对有害微调的解决方案可分为两类：

对齐阶段解决方案 (Alignment Stage Solutions)：
- Vaccine (Huang et al., 2024d)：通过在对齐阶段添加嵌入扰动 (embedding perturbation) 来“疫苗接种”模型，增强其鲁棒性。
- RepNoise (Rosati et al., 2024b;a)：使用表示噪声技术 (representation noising technique) 强制有害数据的表示分布变为随机高斯噪声，从而使模型更难学习生成有害内容。
- 其他：CTRL (Liu et al., 2024c), TAR (Tamirisa et al., 2024), Booster (Huang et al., 2024a), SN-Tune (Zhao et al., 2025b), T-Vaccine (Liu et al., 2024a), CTRAP (Yi et al., 2025b), KT-IPA (Cheng et al., 2025), SAM unlearning (Fan et al., 2025), Reward Neutralization (Cao, 2025), SEAM (Wang et al., 2025c)。
微调阶段解决方案 (Fine-tuning-Stage Solutions)：
- LDIFS (Mukhoti et al., 2023)：引入一个正则化器，强制微调迭代的嵌入 (embedding) 保持在与对齐模型接近的范围。
- Lisa (Huang et al., 2024b)：交替优化对齐数据和微调数据，并使用近似正则化器 (proximal regularizer) 来强制迭代之间的接近性。
- 其他：(Bianchi et al., 2023; Zong et al., 2024; Wang et al., 2024; Lyu et al., 2024; Qi et al., 2024a; Shen et al., 2024; Choi et al., 2024; Du et al., 2024; Li et al., 2025; Eiras et al., 2024; Li & Kim, 2025; Li et al., 2024b; Liu et al., 2024b; Zhao et al., 2025a; Liu et al., 2025; Li, 2025; Wu et al., 2025; Peng et al., 2025)。

3.2.3. 模型稀疏化 (Model Sparsification)

模型稀疏化旨在通过移除不重要的权重来压缩模型。其核心问题是根据重要性评分对权重进行排序。

The Lottery Ticket Hypothesis (Frankle & Carbin, 2018)：提出在训练大型网络时，存在一些子网络（“彩票”）能够被独立训练到与完整网络相媲美的性能。
SparseGPT (Frantar & Alistarh, 2023)：提出通过解决层级重建问题来形成重要性分数，实现 LLM 的一次性剪枝。
Wanda score (Sun et al., 2023)：利用权重/激活联合度量来衡量参数的重要性。
OWL (Yin et al., 2023)：在 Wanda score 的基础上，提出了层级稀疏化 (layer-wise sparsity) 进一步提高了模型压缩率。

本文借用 Wanda score 的思想来识别和移除有害参数。

3.2.4. 差异化分析

现有防御方法主要集中在对齐阶段（如 Vaccine, RepNoise）或微调阶段（如 Lisa, LDIFS）。它们的共同局限性在于对微调阶段的训练超参数（如学习率、训练轮数）敏感，当超参数设置不当时，防御效果会大打折扣。这是因为这些方法试图在训练过程中控制模型的行为，但如果训练强度过大，模型仍然可能偏离安全对齐。

Antidote 的创新点在于它是一个后微调阶段 (post-fine-tuning stage) 解决方案。它在模型完成所有微调（包括潜在的有害微调）之后才介入。这种设计使其对微调阶段的超参数设置不敏感，因为无论有害参数是如何形成的，Antidote 都旨在识别并移除它们。这是一种“亡羊补牢”的策略，但它规避了现有方法在训练超参数选择上的两难困境。

同时，论文也提到了一些同期工作 (concurrent defenses) 也在探索后微调阶段的防御，例如 RESTA (Bhardwaj et al., 2024), LAT (Casper et al., 2024), Safe LoRA (Hsu et al., 2024), SOMF (Yi et al., 2024c), IRR (Wu et al., 2024), NLSR (Yi et al., 2024b), SafetyLock (Zhu et al., 2024), Panacea (Wang et al., 2025b) 等。这些方法通过不同的技术（如安全向量插值、嵌入空间扰动、有害更新投影、神经元校正、激活补丁、优化扰动等）在微调后净化模型。本文强调，尽管这些方法可能也对微调超参数不敏感，但在本文之前，并没有对“超参数敏感性问题”进行系统性研究，这凸显了后微调阶段防御的重要性。Antidote 的独特性在于其利用了模型稀疏化领域中的 Wanda score 进行一次性剪枝。

4. 方法论

4.1. 方法原理

Antidote 的核心思想是，无论有害行为是如何通过微调阶段学习到的，都可以通过识别并移除模型中负责生成有害内容的“有害参数 (harmful parameters)”来恢复模型的安全对齐。这种方法对微调阶段的训练超参数（如学习率和训练轮数）具有无关性，因为其操作是在微调完成后进行的。

Antidote 采用了“一次性剪枝 (one-shot pruning)”的策略。具体来说，它首先通过计算参数的重要性分数来识别有害参数，然后通过将这些有害参数归零来“剪枝”它们。

4.2. 核心方法详解

Antidote 的工作流程可以概括为一个三阶段管道 (three-stage pipeline)，如图 1 所示：

安全对齐 (Safety Alignment)：一个预训练的 LLM (Pretrained LLM) 首先在对齐数据 (Alignment data) 上进行训练，以学习安全行为并拒绝生成有害内容，得到一个安全对齐模型。
用户微调 (User Fine-tuning)：用户使用其定制任务的数据对安全对齐模型进行微调。这个数据集可能混入了少量的有害数据 (Harmful data)，导致模型在微调后表现出有害行为，即所谓的“安全对齐被破坏的微调模型 (Safety Alignment Broken Fine-tuned Model)”。
一次性剪枝 (One-shot Pruning)：这是 Antidote 介入的阶段。在此阶段，Antidote 会识别并移除在微调过程中形成的有害参数，从而将模型从有害行为中恢复，得到一个重新对齐的模型 (Re-aligned Model)。

以下是 Antidote 算法的详细步骤，如算法 1 所示：

Algorithm 1 Antidote: a post-fine-tuning safety alignment
input Mask ratio, α
      Re-alignment dataset, D_realign
      Safety alignment-broken fine-tuned model, w;
output The re-aligned model w_tilde ready for deployment.

Calculate importance score h(w, D_realign) with Eq. (1)
m = ArgTopK_α(h(w, D_realign))
w_tilde = (1 - m) ⊙ w

Antidote Pipeline
图 4. Antidote 的三阶段流程示意图。

4.2.1. 识别有害参数 (Identify Harmful Parameters)

为了实现防御目标，Antidote 首先需要识别模型中重要的参数，这些参数被认为是“有害参数”。这一步通过计算 Wanda score 来完成，Wanda score 能够衡量给定重对齐数据集 (re-alignment dataset) $\mathcal{D}_{realign}$ 下参数的重要性。

Wanda score 的计算公式如下： $[ h ( \pmb { w } , \mathcal { D } _ { r e a l i g n } ) ] _ { j } = \frac { 1 } { | \mathcal { D } | } \sum _ { \pmb { x } \in \mathcal { D } _ { r e a l i g n } } | \pmb { w } _ { j } | \cdot \| \pmb { A } _ { j } ( \pmb { x } , \pmb { w } ) \| _ { 2 }$

符号解释：

$[ h ( \pmb { w } , \mathcal { D } _ { r e a l i g n } ) ] _ { j }$ ：表示模型权重向量 $\pmb{w}$ 中第 $j$ 个坐标 (即单个权重参数) 在重对齐数据集 $\mathcal{D}_{realign}$ 上的重要性分数。
$\pmb{w}$ ：代表安全对齐被破坏的微调模型的权重向量。
$\mathcal{D}_{realign}$ ：是一个包含有害问题-有害答案对的有害数据集，用于评估参数的重要性。
$|\mathcal{D}|$ ：表示重对齐数据集 $\mathcal{D}_{realign}$ 中的样本数量。
$\sum _ { \pmb { x } \in \mathcal { D } _ { r e a l i g n } }$ ：表示对重对齐数据集中的所有数据点 $\pmb{x}$ 进行求和。
$| \pmb { w } _ { j } |$ ：表示权重向量 $\pmb{w}$ 中第 $j$ 个权重参数的绝对值。
$\| \pmb { A } _ { j } ( \pmb { x } , \pmb { w } ) \| _ { 2 }$ ：表示数据点 $\pmb{x}$ 的隐藏激活 (hidden activation) 中与第 $j$ 个权重参数相关联的部分的 L2 范数。这直观地表示了该权重在处理该数据点时被“激活”或“影响”的程度。

直觉解释： Wanda score 的直觉是，一个参数的重要性与其绝对值以及其输入（即激活值）的强度有关。如果一个参数的绝对值很大，并且它所乘的激活值也很大，那么它对模型输出的影响就越大，因此被认为越重要。通过在有害数据集上计算这个分数，可以识别出对生成有害内容贡献最大的参数。

在计算出所有参数的 Wanda score 后，下一步是识别出其中最重要（即最有害）的参数。这通过 $ArgTopK_α$ 函数实现： $\pmb { m } = \mathrm { A r g T o p K } _ { \alpha } \big ( h ( \pmb { w } , \mathcal { D } _ { r e a l i g n } ) \big )$

符号解释：

$\pmb{m}$ ：是一个二元掩码向量 (binary mask vector)。
$\mathrm { A r g T o p K } _ { \alpha } ( \mathbf { \Sigma } )$ ：这是一个函数，它接收一个重要性分数向量 $\mathbf{\Sigma}$ (在这里是 $h ( \pmb { w } , \mathcal { D } _ { r e a l i g n } )$ )，并返回一个掩码向量。在该掩码向量中，得分最高的 $\alpha$ 比例的坐标（参数位置）被设置为 1，其余坐标设置为 0。
$\alpha$ ：是一个超参数，称为掩码比例 (mask ratio)，表示要保留（或在这里是识别为有害）的参数的比例。

这个掩码 $\pmb{m}$ 标识了模型中被认为最重要、最可能导致有害行为的参数。

4.2.2. 移除有害参数 (Removal of Harmful Parameters)

得到有害掩码 $\pmb{m}$ 后，下一步就是从微调后的模型权重 $\pmb{w}$ 中“移除”这些有害参数。这里的移除操作实际上是将这些参数的值设置为零。 $\tilde { \pmb { w } } = ( \mathbf { 1 } - \pmb { m } ) \odot \pmb { w }$

符号解释：

$\tilde { \pmb { w } }$ ：是经过重新对齐后的模型权重，可以准备部署。
$\mathbf{1}$ ：是一个全 1 的向量，与 $\pmb{m}$ 具有相同的维度。
$(\mathbf{1} - \pmb{m})$ ：将掩码 $\pmb{m}$ 中设置为 1 的位置变为 0，设置为 0 的位置变为 1。这意味着，之前被识别为有害（即 $\pmb{m}$ 中为 1）的参数，现在其对应的乘数变为 0；而之前被识别为无害（即 $\pmb{m}$ 中为 0）的参数，现在其对应的乘数变为 1。
$\odot$ ：表示阿达玛乘积 (Hadamard product)，即两个向量的对应元素相乘。

直觉解释： 通过这个操作，所有被识别为有害的参数（在 $\pmb{m}$ 中为 1 的位置）其值将被归零，从而有效地从模型中移除它们的影响。而那些被认为无害的参数（在 $\pmb{m}$ 中为 0 的位置）则保持其原始值不变。这样，模型在移除有害参数后，理论上就能从有害行为中恢复。

整个 Antidote 流程在模型微调完成后一次性执行，因此其有效性不依赖于微调阶段的超参数设置。它通过“后处理”的方式，净化已被污染的模型。

5. 实验设置

5.1. 数据集

实验中使用了三种不同类型的相关数据集：

对齐数据集 (Alignment Dataset)：包含有害提示与安全答案对 (harmful prompt-safe answers)。这些数据用于安全对齐预训练模型。
微调数据集 (Fine-tuning Dataset)：这个数据集由两部分混合而成：
- $p$ (百分比) 的有害数据：包含有害提示与有害答案对 (harmful prompt-harmful answer)。
- 1-p (百分比) 的下游任务数据：例如 SST2, GSM8K 等。
重对齐数据集 (Re-alignment Dataset)：专门由有害数据构成，用于 Antidote 方法中计算 Wanda score 并识别有害参数。

数据来源：

安全对齐数据和有害数据： 均从开源的红队数据集 BeaverTails (Ji et al., 2023) 中采样。
- 安全对齐数据：从 BeaverTails 中 is_safe=True 的样本中采样。
- 微调数据集和重对齐数据集中的有害数据：从 BeaverTails 中 is_safe=False 的样本中采样。需要注意的是，微调数据集和重对齐数据集中的有害数据是不同的样本。
  
  微调任务数据集： 实验考虑了四种不同的下游任务数据集：
SST2 (Stanford Sentiment Treebank)：情感分析任务，评估模型理解和生成情感倾向的能力。
AGNEWS (AG News Corpus)：新闻分类任务，评估模型对文本进行多类别分类的能力。
GSM8K (Grade School Math 8K)：小学数学问答任务，评估模型的推理和数学计算能力。
AlpacaEval：一个指令遵循评估基准，用于评估模型遵循复杂指令的能力。

样本示例 (Prompt 模板)： 论文附录提供了用于构建监督数据集的 Prompt 模板：

Prompt:Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request. Instruction:{instruction} Input: {input} Response: Output: {output}

这个模板将指令、输入和期望输出结构化，用于监督式微调。

5.2. 评估指标

遵循多篇现有研究 (Rosati et al., 2024a; Hsu et al., 2024; Huang et al., 2024d;b;a)，本文使用两个核心指标进行评估，这些指标均在微调后的模型（Antidote 情况下为重对齐后的模型）上衡量。

5.2.1. 微调准确率 (Finetune Accuracy, FA)

概念定义： 微调准确率衡量模型在特定下游任务的测试数据集上执行任务的准确程度。它反映了模型在微调后学习和保留原始任务知识的能力。
数学公式： 对于分类任务，微调准确率通常定义为正确预测样本数占总样本数的比例。对于生成任务，可能采用更复杂的指标（如 ROUGE, BLEU），但这里主要指分类准确率（例如 Top-1 accuracy）。 $\text{FA} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Samples}}$
符号解释：
- $\text{Number of Correct Predictions}$ ：模型在测试集上做出正确预测的样本数量。
- $\text{Total Number of Samples}$ ：测试集中的总样本数量。

5.2.2. 有害分数 (Harmful Score, HS)

概念定义： 有害分数衡量模型在面对恶意指令时生成不安全（即有害）输出的倾向。它反映了模型的安全对齐程度。分数越高，表示模型越容易生成有害内容，安全性越差。
数学公式： 有害分数定义为模型对未曾见过的恶意指令生成不安全输出的比例。 $\text{HS} = \frac{\text{Number of Flagged Unsafe Outputs}}{\text{Total Number of Malicious Instructions}}$
符号解释：
- $\text{Number of Flagged Unsafe Outputs}$ ：模型在接收恶意指令后，其生成的输出被审核模型 (moderation model) 标记为不安全的数量。本文使用 Ji et al., 2023 提出的审核模型。
- $\text{Total Number of Malicious Instructions}$ ：用于测试模型安全性的恶意指令的总数量。

测试细节：

为了计算有害分数，从 BeaverTails 采样了 1000 条有害指令。
为了计算微调准确率，分别从相应的微调测试数据集中采样了 872 (SST2), 1000 (AGNEWS), 1000 (GSM8K), 122 (AlpacaEval) 个样本。
在测试时，文本生成使用贪婪解码 (greedy decoding)。

5.3. 对比基线

实验主要考虑了五个基线方法与 Antidote 进行比较：

SFT (Supervised Fine-Tuning)：
- 描述： 这是一种标准的监督式微调方法，模型在对齐数据和用户微调数据集上进行训练。它作为最基本的基线，代表了没有专门防御措施的情况。
- 实现： 在对齐阶段和微调阶段都使用 SFT 进行训练。
RepNoise (Rosati et al., 2024a)：
- 类别： 对齐阶段解决方案 (Alignment-stage solution)。
- 核心思想： 在对齐阶段使用表示噪声技术 (representation noising technique)，通过注入随机高斯噪声来改变有害数据的表示分布，使得模型更难学习生成有害内容，从而提高模型对后续有害微调的鲁棒性。
- 实现： 使用 RepNoise 对预训练模型进行对齐，然后在用户微调数据集上进行 SFT。
Vaccine (Huang et al., 2024d)：
- 类别： 对齐阶段解决方案 (Alignment-stage solution)。
- 核心思想： 在对齐阶段通过添加嵌入扰动 (embedding perturbation) 来“疫苗接种”模型。它模拟了微调阶段可能出现的有害嵌入漂移，并通过最小最大化 (minimax optimization) 强制模型对这种扰动免疫，增强模型鲁棒性。
- 实现： 使用 Vaccine 对预训练模型进行对齐，然后在用户微调数据集上进行 SFT。默认扰动强度 $\rho=2$ 。
Lisa (Huang et al., 2024b)：
- 类别： 微调阶段解决方案 (Fine-tuning-stage solution)。
- 核心思想： 将微调阶段分为两个状态，交替优化对齐数据和用户微调数据。同时，引入近似正则化器 (proximal regularizer) 来强制微调迭代 (iterate) 保持在与对齐模型接近的范围，以避免遗忘安全知识。
- 实现： 对预训练模型进行 SFT 对齐，然后使用 Lisa 在用户数据上进行微调。默认近似惩罚项 $\rho=1$ 。
LDIFS (Mukhoti et al., 2023)：
- 类别： 微调阶段解决方案 (Fine-tuning-stage solution)。
- 核心思想： 引入一个正则化器，强制微调迭代的嵌入 (embedding) 保持在与对齐模型接近的范围。这种方法旨在在学习用户任务知识的同时，减轻安全对齐知识的遗忘。
- 实现： 对预训练模型进行 SFT 对齐，然后使用 LDIFS 在用户数据上进行微调。正则化系数 $\lambda$ 从 $\{0.1, 0.01, 0.001, 0.0001, 0.00001\}$ 中选择最佳值 0.0001。

5.4. 训练细节和超参数

模型骨干： 默认使用 Llama2-7B，也对 Mistral-7B 和 Gemma-7B 进行了评估。
高效微调 (PEFT)： 遵循 Huang et al., 2024d，在对齐和微调阶段均使用 LoRA (Low-Rank Adaptation)。LoRA 适配器 (adaptor) 的秩 (rank) 设为 256。LoRA 的 alpha 值设置为 $r * 2$ 。
对齐阶段：
- 安全样本数量：5000 条。
- 优化器：AdamW。
- 学习率：1e-3。
- 训练轮数：20 epochs。
微调阶段 (默认设置)：
- 微调样本总数： $n = 5000$ 条。
- 有害数据比例： $p = 0.2$ (即 20% 的样本是有害的)。
- 优化器：AdamW。
- 学习率： $lr = 1e-4$ 。
- 训练轮数： $ep = 20$ epochs。
- 默认数据集：SST2。
Antidote 超参数 (默认设置)：
- 掩码比例 (mask ratio)： $\alpha = 0.2$ (特殊地，GSM8K 任务为 $\alpha = 0.05$ )。
- 重对齐数据集大小：2000 条有害样本。
计算资源： 所有实验均使用 H100 GPU 进行。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 对有害数据比例的鲁棒性

以下是原文 Table 1 的结果，展示了不同有害数据比例下各种方法的有害分数 (Harmful Score, HS) 和微调准确率 (Finetune Accuracy, FA)。

以下是原文 Table 1 的结果：

Methods	Harmful score						Finetune accuacy
Methods	clean	p=0.05	p=0.1	p=0.2	p=0.5	Average	clean	p=0.05	p=0.1	p=0.2	p=0.5	Average
SFT	52.30	76.70	79.00	79.40	80.20	73.52	95.87	95.18	95.07	95.18	93.69	95.00
Repnoise	42.40	79.20	79.50	77.90	82.60	72.32	95.07	94.84	94.84	94.38	94.61	94.75
Vaccine	44.80	80.20	80.00	81.50	81.90	73.68	95.53	95.53	94.04	95.18	94.04	94.86
Lisa	53.00	60.90	64.80	68.20	72.10	63.80	93.92	93.69	93.58	93.23	91.17	93.12
LDIFS	51.70	67.70	68.80	72.30	71.80	66.46	93.46	93.23	93.69	93.23	94.04	93.53
Antidote	52.90	61.20	61.20	64.60	64.50	60.88	93.58	93.46	93.12	93.35	91.74	93.05

分析：

Antidote 在大多数有害数据比例设置下实现了最低的有害分数 (HS)，平均有害分数仅为 60.88。这比没有任何防御的 SFT (73.52) 显著降低了 12.64 个百分点，即 11.56% (1 - 60.88/73.52) 的相对降低。
尽管有害分数大幅降低，Antidote 的平均微调准确率 (FA) 仅略微下降至 93.05，相对于 SFT (95.00) 损失了 1.95 个百分点，即 1.45% 的相对损失 (1 - 93.05/95.00)。这表明 Antidote 在保持任务性能的同时，有效提升了安全性。
值得注意的是，当有害数据比例 $p$ 较高时（例如 $p=0.5$ ），Antidote 的防御效果依然稳健，其有害分数没有明显的恶化趋势（64.50）。相比之下，其他方法（如 Lisa）在有害比例高时防御效果会显著下降 (从 $p=0.05$ 的 60.90 增加到 $p=0.5$ 的 72.10，增加了 11.2%)。
Antidote 的优势源于其后微调阶段的设计，使其对有害数据比例如何影响模型对齐不敏感。
两个对齐阶段的解决方案 RepNoise 和 Vaccine 在所有设置中似乎表现不佳，其有害分数甚至高于 SFT。这可能与默认超参数有关，但初步显示它们对有害数据比例的鲁棒性不强。

6.1.2. 对微调样本数量的鲁棒性

以下是原文 Table 2 的结果，展示了不同微调样本数量下各种方法的有害分数 (HS) 和微调准确率 (FA)。

以下是原文 Table 2 的结果：

Methods	Harmful score						Finetune accuacy
Methods	n=100	n=1000	n=2000	n=3000	n=5000	Average	n=100	n=1000	n=2000	n=3000	n=5000	Average
SFT	65.50	76.90	77.80	80.70	79.40	76.06	92.20	94.72	94.27	94.50	95.18	94.17
Repnoise	66.50	77.60	78.80	78.60	77.90	75.88	89.45	92.66	93.69	94.72	94.38	92.98
Vaccine	66.40	79.00	78.60	81.10	81.50	77.32	90.48	93.92	94.95	95.30	95.18	93.97
Lisa	52.80	52.40	54.00	64.30	68.20	58.34	26.72	33.72	49.54	91.17	93.23	58.88
LDIFS	55.70	64.60	67.10	68.90	72.30	65.72	87.73	91.17	92.32	92.43	93.23	91.38
Antidote	57.00	60.70	62.80	61.70	64.60	61.36	90.02	92.43	93.12	93.00	93.35	92.38

分析：

Antidote 在不同微调样本数量下再次展现出最佳的防御性能，平均有害分数降低了 13.42 个百分点，同时保持了较高的微调准确率。
Antidote 是唯一一种对不同样本数量都普遍鲁棒的防御方法。其有害分数在样本量变化时保持相对稳定 (57.00 - 64.60)。
Lisa 虽然在样本量较小时（n=100, n=1000, n=2000）有害分数较低，但其微调准确率极低，不可接受 (26.72% - 49.54%)，表明它牺牲了任务性能来换取安全性。只有当样本量足够大时，其准确率才能恢复。

6.1.3. 对无害微调攻击的鲁棒性

以下是原文 Table 5 的结果，展示了无害微调攻击下各种方法的有害分数 (HS) 和微调准确率 (FA)。实验在 GSM8K 数据集上进行。

以下是原文 Table 5 的结果：

Harmful Score		Fine-tune Accuracy
SFT	61.50	27.60
RepNoise	66.10	27.40
Vaccine	58.90	26.60
LDIFS	64.40	6.70
Lisa	59.20	27.60
Antidote	57.10	27.80

分析：

即使是无害数据微调也可能损害模型的安全对齐。Antidote 在这种情况下依然表现出色，将有害分数降低到 57.10，是所有方法中最低的，同时其微调准确率 (27.80) 保持了与 SFT 相当的水平，甚至略高。
LDIFS 再次显示出显著的准确率下降 (6.70)，表明其对任务性能的牺牲。

6.1.4. 对微调学习率的鲁棒性

以下是原文 Table 3 的结果，展示了在固定微调轮数为20时，不同学习率下各种方法的有害分数和微调准确率。实验在 GSM8K 数据集上进行。

Harmful score and finetune accuracy with different learning rates after fine-tuning.
图 2. 微调后不同学习率下的有害分数和微调准确率。微调轮数固定为20。

以下是原文 Table 3 的结果：

Methods	Harmful score						Finetune accuacy
Methods	lr=1e-7	lr=1e-6	lr=1e-5	lr=1e-4	lr=1e-3	Average	lr=1e-7	lr=1e-6	lr=1e-5	lr=1e-4	lr=1e-3	Average
SFT	52.80	70.30	80.10	77.80	79.80	72.16	4.30	14.00	23.10	21.90	23.30	17.32
Repnoise	52.50	70.10	79.00	80.20	75.50	71.46	4.80	12.60	24.90	23.50	24.70	18.10
Vaccine	46.50	66.00	79.40	80.60	77.50	70.00	1.80	10.90	25.50	24.20	25.80	17.64
Lisa	52.30	55.00	64.40	73.20	77.30	64.44	4.00	5.70	13.60	21.90	24.70	13.98
LDIFS	53.20	56.10	59.00	68.50	78.50	63.06	4.00	4.80	5.40	6.10	14.10	6.88
Antidote	53.50	61.80	65.60	65.30	68.80	63.00	4.10	11.20	17.50	16.10	20.40	13.86

分析：

Antidote 的平均有害分数 (63.00) 表现出色，虽然略高于 Lisa (64.44) 和 LDIFS (63.06)，但其微调准确率 (13.86) 远高于 LDIFS (6.88)，并且与 Lisa (13.98) 相当。
当学习率较高时（例如 $lr=1e-3$ ），Lisa 和 LDIFS 的有害分数显著上升 (77.30 和 78.50)，这印证了论文提出的“超参数敏感性问题”。而 Antidote 在大学习率下，有害分数依然保持在相对较低的水平 (68.80)，证明其对学习率的敏感性较低。
从微调准确率来看，为了保证较好的任务性能，通常需要较大的学习率。Lisa 和 LDIFS 在低学习率下（例如 $lr=1e-7$ 到 $lr=1e-5$ ）的准确率非常低（特别是 LDIFS），这表明它们在保证安全性的同时，严重损害了模型在下游任务上的学习能力。Antidote 避免了这种极端性能下降。

6.1.5. 对微调训练轮数的鲁棒性

以下是原文 Table 4 的结果，展示了固定微调学习率为1e-5时，不同微调训练轮数下各种方法的有害分数和微调准确率。实验在 GSM8K 数据集上进行。

Harmful score and finetune accuracy with different finetuning epochs after user fine-tuning.
图 3. 用户微调后不同微调轮数下的有害分数和微调准确率。微调学习率固定为1e-5。

以下是原文 Table 4 的结果：

Methods	Harmful score						Finetune accuacy
Methods	ep=1	ep=5	ep=10	ep=20	ep=40	Average	ep=1	ep=5	ep=10	ep=20	ep=40	Average
SFT	76.50	78.90	79.90	77.80	78.70	78.36	21.00	25.80	26.50	21.90	24.60	23.96
Repnoise	76.30	79.50	79.00	80.20	80.80	79.16	19.70	26.20	26.10	23.50	22.70	23.64
Vaccine	75.80	82.10	79.60	80.60	80.40	79.70	20.40	26.00	25.10	24.20	22.60	23.66
Lisa	55.40	54.80	71.50	73.20	75.00	65.98	4.50	4.50	21.70	21.90	24.40	15.40
LDIFS	56.70	61.50	64.90	68.50	72.40	64.80	4.90	5.00	5.70	6.10	6.10	5.56
Antidote	61.50	66.80	66.60	65.30	63.60	64.76	13.60	17.80	19.80	16.10	13.90	16.24

分析：

当微调轮数增加时，其他防御方法（尤其是 Lisa 和 LDIFS）的有害分数往往会增加，再次验证了超参数敏感性问题。例如，LDIFS 从 $ep=10$ 到 $ep=40$ 有害分数从 64.90 上升到 72.40。
Antidote 的有害分数在轮数增加时反而略有下降 (从 $ep=10$ 的 66.60 降到 $ep=40$ 的 63.60)，表明其对训练轮数的不敏感性甚至在某些情况下表现出更好的安全性。
Antidote 的平均有害分数 (64.76) 和平均微调准确率 (16.24) 在与其他方法的权衡中表现出较好的平衡。

6.1.6. 对不同微调数据集的泛化性

以下是原文 Table 6 的结果，展示了在 SST2, AGNEWS, GSM8K, AlpacaEval 四个不同的微调数据集上，各种方法的有害分数 (HS) 和微调准确率 (FA)。

以下是原文 Table 6 的结果：

Methods	SST2		AGNEWS		GSM8K		AlpacaEval		Average
Methods	HS	FA	HS	FA	HS	FA	HS	FA	HS	FA
SFT	79.40	95.18	79.60	92.70	77.80	21.90	73.80	43.27	77.65	63.26
Repnoise	77.90	94.38	82.30	92.20	80.20	23.50	73.50	42.00	78.90	63.14
Vaccine	81.50	95.18	81.10	93.00	80.60	24.20	73.40	40.10	79.15	63.12
Lisa	68.20	93.23	74.80	90.80	73.20	21.90	65.20	39.90	72.45	61.92
LDIFS	72.30	93.23	69.60	87.10	68.50	6.10	66.60	39.81	69.25	56.56
Antidote	64.60	93.35	69.50	88.00	65.30	16.10	60.50	41.83	64.98	59.82

分析：

Antidote 在所有四种不同的微调任务数据集上都展现出良好的泛化能力，平均有害分数降低了 11.75% (相对于 SFT 的 77.65)，同时微调准确率仅损失了 3.08%。
在 SST2 和 AlpacaEval 上，Antidote 的有害分数最低。在 AGNEWS 上与 LDIFS 相当。在 GSM8K 上也是最低，但其准确率低于 SFT 和对齐阶段防御。
这证实了 Antidote 的方法并非特定于某个任务，而是可以广泛应用于各种下游任务。作者提到，掩码比例 $α$ 可以根据不同数据集进行调整，以平衡有害分数和微调准确率。

6.1.7. 对不同对齐数据集的泛化性

以下是原文 Table 7 的结果，展示了使用 BeaverTails refusal (Rosati et al., 2024a) 作为更强的安全对齐数据集时，SFT, Lisa 和 Antidote 在不同有害数据比例下的有害分数 (HS) 和微调准确率 (FA)。

以下是原文 Table 7 的结果：

	p=0		p=0.05		p=0.1		p=0.2		p=0.5
Methods	HS	FA	HS	FA	HS	FA	HS	FA	HS	FA
SFT	13.5	29.2	80.3	28.2	78.8	28.1	78.6	26.8	82.3	24.1
Lisa	45.5	29.7	67.8	28.5	75.5	28.5	78.7	27.2	78.7	24.1
Antidote	2.3	22.2	11.3	22.6	15.5	21.9	21.8	20.6	36.5	19.3

分析：

当使用更强的安全对齐数据集时，Antidote 能够实现更好的防御性能。在 $p=0.2$ 的有害比例下，有害分数降低了 40% 以上。
Antidote 在 $p=0$ (纯净微调) 时有害分数极低 (2.3)，表明其在模型本身已经很安全时，仍能保持这种安全性。
这表明 Antidote 与更强的安全对齐数据集兼容，并且能在此基础上进一步提升安全性。

6.1.8. 对不同模型架构的泛化性

以下是原文 Table 8 的结果，展示了在 Llama2-7B, Mistral-7B, Gemma-7B 三种主流 LLMs 上，各种方法的有害分数 (HS) 和微调准确率 (FA)。

以下是原文 Table 8 的结果：

Methods	Llama2-7B		Mistral-7B		Gemma-7b		Average
Methods	HS	FA	HS	FA	HS	FA	HS	FA
SFT	79.40	95.18	80.30	95.99	80.90	96.22	80.20	95.80
Repnoise	77.90	94.38	79.00	94.95	80.70	88.76	79.20	92.70
Vaccine	81.50	95.18	80.60	94.04	79.10	94.72	80.40	94.65
Lisa	68.20	93.23	65.30	95.07	75.40	96.22	69.63	94.84
LDIFS	72.30	93.23	69.50	92.09	72.70	93.35	71.50	92.89
Antidote	64.60	93.35	64.80	94.95	59.40	94.04	62.93	94.11

分析：

Antidote 在 Llama2-7B, Mistral-7B, Gemma-7B 上均表现出最佳或接近最佳的有害分数，平均有害分数降低了 11.6% (Llama2-7B), 20.0% (Mistral-7B), 22.5% (Gemma-7B)。
同时，Antidote 仅导致微小的微调准确率下降 (分别为 1.49%, 0.92%, 1.72%)。
实验结果还暗示，当骨干模型 (backbone model) 越强大时，Antidote 在降低有害分数方面的效果可能越好，例如在 Gemma-7B 上表现最突出。

以下是原文 Table 9 的结果，展示了 Antidote 在更先进模型 Llama3-8B 上的评估。

以下是原文 Table 9 的结果：

Methods	Harmful Score	Finetune Accuracy
SFT	80.30	42.40
Vaccine	77.50	36.90
RepNoise	78.30	41.40
Lisa	74.40	41.30
LDIFS	71.50	15.90
Antidote	71.20	39.00

分析：

Antidote 在 Llama3-8B 模型上仍然有效，有害分数降低到 71.20，是所有方法中最低的，且微调准确率 (39.00) 表现良好，优于 LDIFS。这进一步证明了 Antidote 对不同模型架构的泛化能力。

6.2. 统计和系统评估

6.2.1. 有害嵌入漂移 (Harmful Embedding Drift, HED)

Harmful embedding drift (HED) under different learning rate and epochs in fine-tuning stage. Antidote obtains a relatively small HED.
图 5. 微调阶段不同学习率和轮数下的有害嵌入漂移 (HED)。Antidote 获得了相对较小的 HED。

分析：

HED 衡量了模型安全对齐知识的保留程度。图 5 显示，在不同学习率和训练轮数下，Antidote 始终保持较低的 HED。
Antidote 和 SFT 在前两个阶段是相同的，因此在微调完成前它们的 HED 趋势一致。然而，在 Antidote 的后微调剪枝阶段之后，HED 显著降低。这表明 Antidote 通过移除有害参数，有效地恢复了模型中保留的安全对齐知识。

6.2.2. 输出逻辑漂移可视化 (Output Logit Drift Visualization)

Visualization of output logit. Each dot represents the output logit of the model, given a harmful sample or a GSM8K sample as its input. For example, to generate a red point, we input a GSM8K sample into the before-prune model and extract its logit.
图 6. 输出逻辑的可视化。每个点代表模型给定有害样本或 `GSM8K` 样本作为输入时的输出逻辑。

分析：

图 6 可视化了模型在剪枝前后对有害样本和正常样本 (GSM8K) 的输出逻辑 (output logit) 的漂移。
Antidote 相较于随机剪枝，在 GSM8K 样本上引入了较小的漂移 (13058 vs. 22000)，同时在有害样本上具有相似的漂移 (24469 vs. 26172)。
这意味着 Antidote 剪枝能够更好地将逻辑从有害状态转移到无害状态，而不会显著改变无害样本上的逻辑，从而避免了对通用性能的过度损害。

6.2.3. 系统性能 (System Performance)

以下是原文 Table 10 的结果，展示了不同解决方案在运行时间 (Clock time) 和 GPU 内存使用 (GPU Memory) 方面的系统性能对比。

以下是原文 Table 10 的结果：

Methods	Clock time (hour)				GPU Memory (GB)
Methods		\|Alignment Fine-tuning Post-FT		Sum	Alignment	Fine-tuning Post-FT		Max
SFT	0.92 (1x)	0.78 (1x)	0	1.70 (1x)	35.45 (1x)	33.06 (1x)	0	35.45 (1x)
Repnoise	1.97 (2.14x)	0.78 (1x)	0	2.75 (1.62x)	75.26 (2.12x)	33.06 (1x)	0	75.26 (2.12x)
Vaccine	1.84 (2x)	0.78 (1x)	0	2.63 (1.54x)	56.46 (1.71x)	33.06 (1x)	0	56.46 (1.71x)
Lisa	0.92 (1x)	0.80 (1.03x)	0	1.72 (1.01x)	35.45 (1x)	52.95 (1.60x)	0	52.95 (1.49x)
LDIFS	0.92 (1x)	1.19 (1.53x)	0	2.11 (1.24x)	35.45 (1x)	64.53 (1.95x)	0	64.53 (1.82x)
Antidote	0.92 (1x)	0.78 (1x)	0.04	1.78 (1.02x)	35.45 (1x)	33.06 (1x)	22.35	35.45 (1x)

分析：

与没有防御的 SFT 相比，现有防御方法（RepNoise, Vaccine, Lisa, LDIFS）在对齐或微调阶段引入了显著的额外开销。
- Vaccine 和 RepNoise 在对齐阶段的运行时间超过 2x，GPU 内存消耗超过 1.7x。
- Lisa 和 LDIFS 在微调阶段的 GPU 内存使用超过 1.6x，LDIFS 的微调运行时间也增加了 1.5x。
相比之下，Antidote 的总运行时间开销非常小 (1.02x)，总 GPU 内存使用与 SFT 相同 (1x)。
Antidote 引入的额外开销主要来自后微调阶段，用于计算 Wanda score 并应用剪枝掩码，这部分开销非常小（运行时间仅 0.04 小时，GPU 内存 22.35 GB，但最大内存与 SFT 持平，说明这部分计算没有额外峰值内存）。这表明 Antidote 在计算效率上具有显著优势。

6.3. 消融实验/参数分析

6.3.1. 掩码比例 $α$ 的影响

以下是原文 Table 11 的结果，展示了 Antidote 在不同掩码比例 $α$ 下的有害分数 (HS) 和微调准确率 (FA)。

以下是原文 Table 11 的结果：

	α=0.01	α=0.05	α=0.1	α=0.15	α=0.2	α=0.25
HS	73.60	68.70	64.60	58.90	58.40	57.00
FA	94.95	94.50	93.35	91.06	86.58	80.05

分析：

随着掩码比例 $α$ 的增加（即剪枝的参数越多），有害分数 (HS) 和微调准确率 (FA) 都会同时下降。这符合预期，因为移除更多参数既能进一步去除有害行为，也可能影响模型完成下游任务的能力。
这种权衡关系允许用户根据具体应用场景的需求，通过调整 $α$ 来平衡安全性和任务性能。
作者指出，增加掩码比例还可能带来模型推理加速的额外好处，但这不是本文的重点。

6.3.2. 重对齐数据集的必要性 (Necessity of Re-alignment Dataset)

以下是原文 Table 12 的结果，展示了使用不同数据集计算 Wanda score 时 Antidote 的防御性能，以及与使用有害数据作为重对齐数据集的基准 Antidote 的分数差异。

以下是原文 Table 12 的结果：

	p=0.05	p=0.1	p=0.2	p=0.5	Average
HS (w/ harmful data)	63.10	68.30	68.80	69.20	67.35
HS (w/ fine-tuning data)	63.30 (+0.20)	69.80 (+1.50)	68.50 (-0.30)	70.50 (+1.30)	68.03 (+0.68)
HS (w/ benign data)	63.80 (+0.70)	69.70 (+1.40)	69.20 (+0.40)	71.20 (+2.00)	68.48 (+1.13)

分析：

使用专门的有害数据作为重对齐数据集 (HS (w/ harmful data)) 是识别有害参数的最佳方式。
如果将重对齐数据集替换为包含有害和无害数据的微调数据集 (HS (w/ fine-tuning data))，平均有害分数会略微上升 (0.68)。
如果替换为无害数据集 (HS (w/ benign data))，性能会变得最差，平均有害分数上升 1.13。这是因为无害数据无法充分揭示模型中的有害参数。
这证实了使用专门的重对齐数据集对于 Antidote 的有效性是至关重要的。

6.3.3. 重对齐数据集大小的影响

以下是原文 Table 13 的结果，展示了 Antidote 在重对齐数据集中有害样本数量不同时的有害分数 (HS)。当 $| \mathcal { D } _ { r e a l i g n } | = 0$ 时，Wanda score 退化为权重的幅度。

以下是原文 Table 13 的结果：

\|Drealign\|	0	5	10	100	1k	2k	5k
HS	72.1	70.60	70.30	70.20	69.30	69.20	69.40
	(0)	(-1.5)	(-1.8)	(-1.9)	(-2.8)	(-2.9)	(-2.7)

分析：

普遍趋势是，重对齐数据集中包含的有害样本数量越多，有害分数越低，防御效果越好。这是因为更多的有害样本能够更准确地反映真实的有害分布，从而更精确地识别有害参数。
然而，当样本数量达到 1k 时，性能提升的边际效益开始递减。从 1k 增加到 5k 样本，有害分数变化不大。
收集 1k 条有害样本并非过于严格的限制，这验证了 Antidote 的可行性。
当 $| \mathcal { D } _ { r e a l i g n } | = 0$ 时，Wanda score 退化为仅考虑权重幅度，此时有害分数最高 (72.1)，表明仅依赖权重幅度来识别有害参数效果不佳。

6.4. 扩展 (Extensions)

Antidote 作为一个后微调阶段的解决方案，可以与对齐阶段或微调阶段的防御方法结合使用。作者探索了三种组合：

V-S-A: Vaccine (对齐阶段) + SFT (微调阶段) + Antidote
S-L-A: SFT (对齐阶段) + Lisa (微调阶段) + Antidote
V-L-A: Vaccine (对齐阶段) + Lisa (微调阶段) + Antidote

以下是原文 Table 14 的结果，展示了这些扩展组合的有害分数 (HS) 和微调准确率 (FA)，并与原始的 Antidote 进行了比较。

以下是原文 Table 14 的结果：

	HS		FA
	\|p=0.1 p=0.2 p=0.5	Average	\|p=0.1 p=0.2 p=0.5	Average
Antidote	61.20 64.60 64.50	63.43	93.12 93.35 91.74	92.74
V-S-A	58.90 62.30 61.70	60.97 (-2.46)	94.04 93.00 91.74	92.93 (+0.19)
S-L-A	61.10 61.60 60.90	61.20 (-2.23)	91.28 92.89 91.86	92.01 (-0.73)
V-L-A	63.70 63.70 60.60	62.67 (-0.76)	93.12 93.58 91.51	92.74 (0)

分析：

V-S-A (结合了对齐阶段的 Vaccine)：在平均有害分数上进一步降低了 2.46，同时微调准确率略微提高了 0.19。这表明将 Antidote 与对齐阶段的强防御结合，可以实现更好的整体性能。
S-L-A (结合了微调阶段的 Lisa)：平均有害分数降低了 2.23，但微调准确率也略有下降 (0.73)。这可能反映了 Lisa 在保持安全性的同时，对任务性能的权衡。
V-L-A (结合了 Vaccine 和 Lisa)：平均有害分数仅降低了 0.76，但微调准确率保持不变。这表明更复杂的组合不一定总是带来更大的收益，可能存在协同效应或互相抵消。

总的来说，结果表明 Antidote 可以与其他防御阶段的解决方案结合使用，尤其是与对齐阶段的防御 (Vaccine) 结合时，可以进一步提升安全性并保持任务性能。

6.5. 可视化 (Visualization)

作者还展示了不同方法对恶意提示的响应。结果显示，Antidote 能够对敏感问题给出拒绝响应，而其他方法则不能。这直观地展示了 Antidote 在实际场景中的防御效果。

7. 总结与思考

7.1. 结论总结

本文首先系统性地研究了现有针对有害微调攻击的对齐阶段和微调阶段防御方法。研究发现，这些现有解决方案普遍存在“超参数敏感性问题”，即在微调阶段采用大学习率或大量训练轮数时，它们的防御效果会显著下降。然而，这些超参数设置对于确保模型在下游任务上的性能往往是必要的。

为了解决这一问题，论文提出了 Antidote，一个创新的后微调阶段安全对齐解决方案。Antidote 的核心哲学是：通过识别并移除模型中导致有害行为的有害参数，无论这些参数是如何在微调阶段形成的，模型都可以从有害行为中恢复。该方法通过引入一个一次性剪枝阶段，利用 Wanda score 识别有害权重并将其归零。

广泛的实验结果表明，Antidote 能够显著降低有害分数，同时在下游任务上保持可观的准确率，并且对微调阶段的训练超参数（学习率和训练轮数）具有良好的鲁棒性。它还在不同的有害数据比例、微调样本数量、无害微调攻击、数据集以及多种主流 LLM 模型架构上展现出优秀的泛化能力和系统效率，引入的额外计算开销极小。此外，Antidote 可以与其他防御阶段的解决方案结合，进一步提升防御效果。

7.2. 局限性与未来工作

模型加速： 论文提到，增加掩码比例 ( $α$ ) 可能会在剪枝后带来模型推理加速的潜力，但本文并未深入研究这一点，而是将其作为未来的工作。
动态调整 $α$ ： 默认情况下，Antidote 对所有下游任务设置了固定的 $α$ 值（除了 GSM8K 有特殊设置）。未来工作可以探索如何根据特定任务或模型，动态或自适应地确定最佳的掩码比例 $α$ ，以更好地平衡安全性和任务性能。
更复杂的有害参数识别： 尽管 Wanda score 简单有效，但未来的研究可以探索更高级的参数重要性评分方法，或者结合其他模型可解释性技术，以更精确地识别和移除有害参数。
防御其他攻击类型： 本文主要关注有害微调攻击。未来的工作可以研究 Antidote 或类似后处理机制是否能推广到防御其他类型的 LLM 攻击，例如数据中毒攻击 (data poisoning attacks) 或后门攻击 (backdoor attacks)。

7.3. 个人启发与批判

7.3.1. 个人启发

“后处理”思想的价值： Antidote 的核心在于其“后处理”的视角，即在模型训练完成后再进行安全干预。这避开了在训练过程中同时兼顾任务性能和安全性所带来的复杂性及超参数敏感性问题。这种思路在其他机器学习模型的安全或鲁棒性问题中也可能具有借鉴意义。
模型稀疏化技术的新应用： 将传统的模型稀疏化 (pruning) 技术创造性地应用于 LLM 的安全对齐领域，提供了一个简单却有效的新思路。这表明跨领域知识的融合往往能带来意想不到的创新。
实用性： Antidote 的设计目标之一是对微调超参数不敏感，这极大地提高了其在“微调即服务”场景中的实用性。服务提供商无需担心用户如何微调模型，只需在微调完成后应用 Antidote 即可。

7.3.2. 批判与潜在改进

“尴尬的简单性”：论文自称“令人尴尬的简单性 (embarrassing simplicity)”，这既是优点也可能是缺点。虽然简单性带来了效率和易用性，但也可能意味着其理论深度和对有害机制的根本性理解可能不如一些更复杂的对齐方法。是否能从理论上进一步解释为何简单剪枝如此有效？
对齐数据集的质量和获取： Antidote 的有效性高度依赖于重对齐数据集的质量和代表性。虽然论文提到获取 1k 样本不难，但在实际应用中，如何持续、高效地获取多样化且能全面覆盖潜在有害行为的重对齐数据集，是一个持续的挑战。如果有害行为发生演变，重对齐数据集是否需要及时更新？
剪枝粒度： Antidote 采用的是一次性权重剪枝。未来的工作可以探索更细粒度的剪枝策略，例如结构化剪枝（移除整个神经元或层），或者结合知识蒸馏 (knowledge distillation) 等技术，在剪枝的同时尽可能保留任务性能。
“有害参数”的定义：论文通过 Wanda score 来定义“有害参数”，但 Wanda score 本质上是衡量参数对输出贡献的重要性。一个参数对有害输出贡献大，是否意味着它本身是“有害”的，而不是在特定上下文被“激活”而产生有害输出？对“有害参数”更严格的定义和识别机制值得深入研究。
对其他攻击的鲁棒性： 尽管 Antidote 在有害微调攻击中表现出色，但其对其他更隐蔽或高级的攻击（如对抗性样本攻击、数据投毒攻击中的隐蔽后门）的鲁棒性仍需验证。例如，如果有害行为是通过模型内部更复杂的逻辑而非特定权重组合形成的，剪枝是否依然有效？
长期效果： 剪枝操作是永久性的，模型一旦剪枝，这些参数就永远归零。如果用户希望模型能适应新的、可能是良性的但在剪枝时被误判为“有害”的任务，这可能会造成不必要的性能损失。长期来看，是否存在更“软”的干预方式？

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 33 分钟读完 · 22,387 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 安全对齐 (Safety Alignment)

3.2.2. 有害微调 (Harmful Fine-tuning)

3.2.3. 模型稀疏化 (Model Sparsification)

3.2.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 识别有害参数 (Identify Harmful Parameters)

4.2.2. 移除有害参数 (Removal of Harmful Parameters)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 微调准确率 (Finetune Accuracy, FA)

5.2.2. 有害分数 (Harmful Score, HS)

5.3. 对比基线

5.4. 训练细节和超参数

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 对有害数据比例的鲁棒性

6.1.2. 对微调样本数量的鲁棒性

6.1.3. 对无害微调攻击的鲁棒性

6.1.4. 对微调学习率的鲁棒性

6.1.5. 对微调训练轮数的鲁棒性

6.1.6. 对不同微调数据集的泛化性

6.1.7. 对不同对齐数据集的泛化性

6.1.8. 对不同模型架构的泛化性

6.2. 统计和系统评估

6.2.1. 有害嵌入漂移 (Harmful Embedding Drift, HED)

6.2.2. 输出逻辑漂移可视化 (Output Logit Drift Visualization)

6.2.3. 系统性能 (System Performance)

6.3. 消融实验/参数分析

6.3.1. 掩码比例 ααα 的影响

6.3.2. 重对齐数据集的必要性 (Necessity of Re-alignment Dataset)

6.3.3. 重对齐数据集大小的影响

6.4. 扩展 (Extensions)

6.5. 可视化 (Visualization)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

6.3.1. 掩码比例 $α$ 的影响