论文
登录后可查看剩余解析次数。
标签筛选
大语言模型安全机制
Pharmacist: Safety Alignment Data Curation for Large Language Models
against Harmful Fine-tuning
发表:2025/10/11
有害微调风险缓解大语言模型安全机制大语言模型微调
本文提出Pharmacist,一种针对大型语言模型有害微调的安全对齐数据筛选方法。通过训练数据选择器,Pharmacist优先挑选高质量且安全关键的对齐数据,显著提升防御效果与推理性能,同时减少训练时间,优于现有防御策略。
02
Multi-Turn Jailbreaking Large Language Models via Attention Shifting
发表:2025/4/11
大语言模型安全机制多轮对话越狱攻击注意力机制弱点分析遗传算法攻击策略
本文深入分析单轮与多轮越狱的差异,发现多轮越狱通过转移模型对有害关键词的注意力实现高效攻击。基于此,提出ASJA方法,利用遗传算法迭代伪造对话历史,成功诱导大型语言模型生成有害内容,显著提升攻击有效性。
05
Antidote: Post-fine-tuning Safety Alignment for Large Language Models
against Harmful Fine-tuning
发表:2024/8/19
有害微调风险缓解大语言模型微调大语言模型安全机制
针对大语言模型易被有害微调破坏安全对齐问题,提出Antidote,一种后微调阶段的安全恢复方法。通过一次性剪枝去除有害权重,无需依赖微调超参数。实验表明,Antidote有效降低有害输出,且保持任务准确率。代码已开源。
02
CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG
发表:2025/4/11
大语言模型微调检索增强推理大语言模型安全机制可信度感知注意力修改大语言模型推理能力增强
本文提出可信度感知注意力修改(CrAM)方法,通过调整大型语言模型关键注意力头的权重,减少低可信度文档对检索增强生成(RAG)的负面影响。实验证明,CrAM在多种模型和数据集上显著提升了对错误信息的抵抗力,优于监督微调。
03
Booster: Tackling Harmful Fine-tuning for Large Language Models via
Attenuating Harmful Perturbation
发表:2024/9/3
有害微调风险缓解大语言模型微调大语言模型安全机制权重扰动缓解方法模型对齐阶段优化
本文提出Booster方法,通过在对齐训练阶段引入损失正则化,有效减弱模型权重的有害扰动,缓解因有害微调造成的安全风险。实验证明该方法降低有害行为生成概率,同时保持下游任务性能,提升了大语言模型的安全微调能力。
04
Vaccine: Perturbation-aware Alignment for Large Language Models against
Harmful Fine-tuning Attack
发表:2024/2/2
有害微调风险缓解大语言模型微调大语言模型安全机制嵌入表示鲁棒性
针对微调即服务中的有害数据攻击,本文揭示有害嵌入漂移现象,提出扰动感知对齐技术“Vaccine”,通过对齐阶段逐步施加扰动,生成稳健隐层嵌入,有效抵御有害扰动引发的对齐失效,提升主流开源大模型的安全性与推理能力。
06