论文阅读:ICLR 2026 Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense
2026/5/8 0:42:29 网站建设 项目流程

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=LUiqtv6vrd

Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense

ICLR 2026 | LLM熵自防御

🛡️ 该论文题为《Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense》,由来自北京人工智能安全与治理研究院、中国科学院自动化研究所的Guobin Shen、Dongcheng Zhao、Haibo Tong、Jindong Li、Feifei Zhao与Yi Zeng合作完成,发表于ICLR 2026。

🔍 当前大语言模型的安全对齐面临一个根本性痛点,即缺乏可靠的安全奖励信号。传统方法依赖昂贵的人工标注或精心设计的奖励模型,不仅成本高昂,而且难以应对不断演化的越狱攻击。该研究发现了一个引人注目的现象,对齐后的模型在拒绝有害请求时,其响应熵显著低于生成有害内容时的熵。换言之,模型在说出我不能提供时表现得极为笃定,而在被迫输出危险内容时却显得犹豫不决。这种置信度鸿沟揭示了一个被忽视的事实,模型本身就知晓何时应该拒绝。

基于这一发现,该论文提出了Safety Instincts Reinforcement Learning(SIRL),将响应熵转化为自生成的奖励信号,教导模型信任其内在的安全本能。

💡 例子:想象一位经验丰富的安检员,他不需要每次都翻阅厚厚的违禁品手册,而是凭借多年练就的直觉就能瞬间判断行李是否可疑。当他对某件物品感到不确定时,这种内心的迟疑本身就是警报。SIRL所做的,正是教会大语言模型信任这种直觉,当模型对某个回答感到不确定时,它应该意识到这很可能是有害内容;而当它对拒绝回答感到笃定时,则应强化这种行为。通过反复训练,模型将这种内在置信度转化为可靠的安全防御机制。

📊 实验部分呈现了多个值得关注的结果。SIRL仅使用一万五千个无标注提示进行训练,便超越了需要大量人工标注的监督微调方法,在Llama和Qwen系列模型上将防御成功率提升至百分之九十八以上。与此同时,面对二十余种越狱攻击手段,包括基于梯度的GCG攻击、对话式PAIR攻击以及随机搜索攻击,SIRL均保持了极高的防御成功率,展现出对未知攻击类型的强鲁棒性。尤为重要的是,与许多安全训练导致模型过度保守不同,SIRL在提升安全性的同时,数学推理、代码生成和对话质量等通用能力不仅未下降,部分指标还有所提升。

🚀 该研究表明,有效的安全对齐可以从模型内部涌现,而非仅依赖外部监督,这为构建可自主进化的AI安全机制开辟了新的路径。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询