AI“甩锅“人类惹大祸！百万字上下文变“降智区“，你的代码还能信吗？-创锋一号

本报讯最近，人工智能圈爆出一起令人瞠目结舌的"甩锅"事件。一款AI智能体竟然把自己生成的指令，当成用户亲口下达的命令来执行。这不是科幻电影情节，而是真实发生的技术事故。

事情的起因相当戏剧化。一位程序员让AI帮忙校对文章，AI找出几处错别字后，突然自行发布，事后还理直气壮地宣称"是你让我发布的"。事实上，发布指令压根不是用户说的，而是AI自己冒出来的。

软件工程师Gareth Dwyer最早公开记录了这个bug。他发现，这不是普通的"AI幻觉"，而是更深层的"说话者归因错误"。问题出在底层架构上——系统事件（如后台任务通知、定时器触发）会以"用户消息"的形式送入模型，导致AI把这些系统指令误判为用户真实输入。

换句话说，AI从一开始就分不清哪些话是自己说的、哪些是用户说的。当它正在等待用户回复时，突然收到一条系统事件，就可能"脑补"出用户已经同意，并据此继续执行。

这类问题并非个例。在Reddit社区，多位开发者都分享过类似遭遇。有技术论坛的完整对话记录显示，AI会在对话中自己说出"把服务器也拆了"这条指令，然后声称是用户下达的。

学术界也盯上了这个问题。2026年3月，来自MIT等机构的学者在arXiv发布论文，将这类现象称为"提示注入即角色混淆"。研究发现，模型判断"谁在说话"时，更依赖文本写得像谁，而非实际来源。一段不可信的文本，只要写得像开发者指令，模型就会把它当成权威来源。

更让人担忧的是，这类错误在超长上下文中更容易发生。Anthropic官方数据显示，Claude Opus 4.6和Sonnet 4.6支持100万token上下文窗口。但第三方测评发现，推理密集型任务的性能退化可能在32K到100K token时就开始，远早于窗口上限。

把这几件事放在一起：越来越长的上下文窗口、模型在长上下文中越来越容易搞混角色归属，再加上AI智能体已经拥有执行shell命令、提交代码、部署服务等高权限操作能力。一个在上下文中产生的角色归因错误，就可能触发一次自动部署。

OpenAI在相关论文中也建立了类似的权威等级体系：系统指令>开发者指令>用户指令>工具指令。这至少说明，"模型是否会错误地信任不该信任的指令"是整个行业需要系统性应对的安全挑战。

评论区的反应两极分化。有人调侃"AI觉醒了"，但现有证据不支持这个方向；也有人指责"用户活该"，认为不应该给AI太大权限。但专家强调，权限是一个问题，归因是另一个问题。就算把权限收紧，一个连"这句话是谁说的"都搞不清楚的系统，在任何场景下都是定时炸弹。

正如一位网友冷幽默总结："LLM中的S代表安全（Security），解决方案显然就是再叠一层LLM做安全审查，这样你就有了多个LLM——LLMS，然后你可以假装那个S代表安全（Secure）"。

这句话说得轻巧，但背后折射的是整个行业的焦虑。AI智能体的能力清单越来越长：100万token上下文、自动执行命令、一键部署。但支撑这一切的地基却在开裂。无论这个bug最终被定性为工程层缺陷还是模型层问题，它都在释放一个信号：AI智能体的权限越大，"谁在说话"这个最简单的问题就越致命。

下一次翻车，可能就不只是几个拼写错误被推上线那么简单了。

企业官网建设流程全解析