AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
有害微调风险缓解
Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
发表:2025/10/11
有害微调风险缓解大语言模型安全机制大语言模型微调
本文提出Pharmacist,一种针对大型语言模型有害微调的安全对齐数据筛选方法。通过训练数据选择器,Pharmacist优先挑选高质量且安全关键的对齐数据,显著提升防御效果与推理性能,同时减少训练时间,优于现有防御策略。
02
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
发表:2024/8/19
有害微调风险缓解大语言模型微调大语言模型安全机制
针对大语言模型易被有害微调破坏安全对齐问题,提出Antidote,一种后微调阶段的安全恢复方法。通过一次性剪枝去除有害权重,无需依赖微调超参数。实验表明,Antidote有效降低有害输出,且保持任务准确率。代码已开源。
02
Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
发表:2024/9/3
有害微调风险缓解大语言模型微调大语言模型安全机制权重扰动缓解方法模型对齐阶段优化
本文提出Booster方法,通过在对齐训练阶段引入损失正则化,有效减弱模型权重的有害扰动,缓解因有害微调造成的安全风险。实验证明该方法降低有害行为生成概率,同时保持下游任务性能,提升了大语言模型的安全微调能力。
04
Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack
发表:2024/2/2
有害微调风险缓解大语言模型微调大语言模型安全机制嵌入表示鲁棒性
针对微调即服务中的有害数据攻击,本文揭示有害嵌入漂移现象,提出扰动感知对齐技术“Vaccine”,通过对齐阶段逐步施加扰动,生成稳健隐层嵌入,有效抵御有害扰动引发的对齐失效,提升主流开源大模型的安全性与推理能力。
06