90%的提示词方法正在失效:GPT-5.5发布后的真相
2026/5/14 2:37:10 网站建设 项目流程

昨天晚上复盘,我们组一个新人花了半天精心打磨了一段2000多字的提示词,代码生成准确率85%。我一分钟换了个写法,把步骤全部删掉,只留目标和约束,准确率飙到了94%。

那位新人一脸懵。

他很快就不用懵了——因为就在这个月,行业连续甩出了几个重磅信号。

5月10日,OpenAI正式宣布全面关停微调API,现有用户可用到2027年1月,之后彻底关闭。官方原因直白得让人破防:新一代基座模型在指令遵循和格式控制上已经足够强大,Prompt+RAG比微调更便宜、更快,覆盖绝大多数场景。

四天前,GPT-5.5更新后发布的新提示词指南给出了一条让很多人不适应的结论:直接将旧版模型的提示词套用到新模型上,效果可能不升反降。因为过度指定步骤反而会压缩模型的探索空间,新指南的核心逻辑是——只定义成功标准,不规定执行流程。

再往前推一点,4月30日,Karpathy在红杉的炉边谈话里直接喊了一句不给人留面子的话:提示词工程已死,上下文工程崛起。他把当下趋势定义为“Software 3.0”——工作流从编写代码转向编排Agent,上下文窗口就是新的程序杠杆。

我跟这个转变正面刚了一回

上个月接手一个电商客服意图分类任务,传统做法是:写2000字提示词,里面塞满举例、异常边界、各种步骤约束,把模型当小学生一样手把手教。准确率是85%-90%浮动。

我把同一个任务交了给了一个用LangGraph搭建的Agent,提示词压到了500字以内,只在开头定义清楚目标和结果质量红线。Agent自己调用搜索工具去查歧义、通过上下文窗口管理历史对话、自主做多轮消歧。

上线跑了两周,Agent方案把人力标注量削减了62%。因为不只是分类更准了,Agent还会在遇到低置信度案例时主动反问用户进入澄清流程,把错误拦截在回答之前。

对比鲜明到让人怀疑以前的自己到底在忙什么。

不只是写提示词的方法变了

我看到有人开始焦虑:不写提示词,那AI应用怎么控制?

这个方向最近出了更系统化的答案。从Prompt Engineering,到Context Engineering,再到今年刚提出的Harness Engineering(驾驭工程)——给AI套马具,而不是教它背指令。

一个精辟的共识正在行业里成形:Agent = Model + Harness。模型负责智能,Harness负责约束、反馈和流程控制。HashiCorp联合创始人Mitchell说得更直接:Harness Engineering就是每当发现Agent犯错时,你就花时间去工程化一个解决方案,让它永远不再犯同样的错。

这才是2026年AI工程化的真实走向。我们需要的不是更牛逼的提示词写手,而是会设计Agent规则环境的人。

开放讨论

  • 如果你组里有个自称“提示词工程师”的同事,你觉得Ta未来两年会被淘汰吗?还是这个角色会被重新定义成什么?

  • 你的业务场景里,有没有“怎么教AI都教不会”的案例?尝试过扔掉步骤、只定目标吗?

声明:图片由AI辅助生成

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询