论文阅读：ICLR 2026 Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense-创锋一号

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=LUiqtv6vrd

Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense

ICLR 2026 | LLM熵自防御

🛡️ 该论文题为《Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense》，由来自北京人工智能安全与治理研究院、中国科学院自动化研究所的Guobin Shen、Dongcheng Zhao、Haibo Tong、Jindong Li、Feifei Zhao与Yi Zeng合作完成，发表于ICLR 2026。

🔍 当前大语言模型的安全对齐面临一个根本性痛点，即缺乏可靠的安全奖励信号。传统方法依赖昂贵的人工标注或精心设计的奖励模型，不仅成本高昂，而且难以应对不断演化的越狱攻击。该研究发现了一个引人注目的现象，对齐后的模型在拒绝有害请求时，其响应熵显著低于生成有害内容时的熵。换言之，模型在说出我不能提供时表现得极为笃定，而在被迫输出危险内容时却显得犹豫不决。这种置信度鸿沟揭示了一个被忽视的事实，模型本身就知晓何时应该拒绝。

基于这一发现，该论文提出了Safety Instincts Reinforcement Learning（SIRL），将响应熵转化为自生成的奖励信号，教导模型信任其内在的安全本能。

💡 例子：想象一位经验丰富的安检员，他不需要每次都翻阅厚厚的违禁品手册，而是凭借多年练就的直觉就能瞬间判断行李是否可疑。当他对某件物品感到不确定时，这种内心的迟疑本身就是警报。SIRL所做的，正是教会大语言模型信任这种直觉，当模型对某个回答感到不确定时，它应该意识到这很可能是有害内容；而当它对拒绝回答感到笃定时，则应强化这种行为。通过反复训练，模型将这种内在置信度转化为可靠的安全防御机制。

📊 实验部分呈现了多个值得关注的结果。SIRL仅使用一万五千个无标注提示进行训练，便超越了需要大量人工标注的监督微调方法，在Llama和Qwen系列模型上将防御成功率提升至百分之九十八以上。与此同时，面对二十余种越狱攻击手段，包括基于梯度的GCG攻击、对话式PAIR攻击以及随机搜索攻击，SIRL均保持了极高的防御成功率，展现出对未知攻击类型的强鲁棒性。尤为重要的是，与许多安全训练导致模型过度保守不同，SIRL在提升安全性的同时，数学推理、代码生成和对话质量等通用能力不仅未下降，部分指标还有所提升。

🚀 该研究表明，有效的安全对齐可以从模型内部涌现，而非仅依赖外部监督，这为构建可自主进化的AI安全机制开辟了新的路径。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

AISMM评估结果总被质疑？用这6类动态交互图表让评审专家当场签字认可

zimage-skill：现代化图像处理技能库的设计原理与实战应用

从评价指标反推损失函数：拆解YDTR论文中SSIM与空间频率(SF)损失的PyTorch实现

需要专业的网站建设服务？