昨天晚上复盘,我们组一个新人花了半天精心打磨了一段2000多字的提示词,代码生成准确率85%。我一分钟换了个写法,把步骤全部删掉,只留目标和约束,准确率飙到了94%。
那位新人一脸懵。
他很快就不用懵了——因为就在这个月,行业连续甩出了几个重磅信号。
5月10日,OpenAI正式宣布全面关停微调API,现有用户可用到2027年1月,之后彻底关闭。官方原因直白得让人破防:新一代基座模型在指令遵循和格式控制上已经足够强大,Prompt+RAG比微调更便宜、更快,覆盖绝大多数场景。
四天前,GPT-5.5更新后发布的新提示词指南给出了一条让很多人不适应的结论:直接将旧版模型的提示词套用到新模型上,效果可能不升反降。因为过度指定步骤反而会压缩模型的探索空间,新指南的核心逻辑是——只定义成功标准,不规定执行流程。
再往前推一点,4月30日,Karpathy在红杉的炉边谈话里直接喊了一句不给人留面子的话:提示词工程已死,上下文工程崛起。他把当下趋势定义为“Software 3.0”——工作流从编写代码转向编排Agent,上下文窗口就是新的程序杠杆。
我跟这个转变正面刚了一回
上个月接手一个电商客服意图分类任务,传统做法是:写2000字提示词,里面塞满举例、异常边界、各种步骤约束,把模型当小学生一样手把手教。准确率是85%-90%浮动。
我把同一个任务交了给了一个用LangGraph搭建的Agent,提示词压到了500字以内,只在开头定义清楚目标和结果质量红线。Agent自己调用搜索工具去查歧义、通过上下文窗口管理历史对话、自主做多轮消歧。
上线跑了两周,Agent方案把人力标注量削减了62%。因为不只是分类更准了,Agent还会在遇到低置信度案例时主动反问用户进入澄清流程,把错误拦截在回答之前。
对比鲜明到让人怀疑以前的自己到底在忙什么。
不只是写提示词的方法变了
我看到有人开始焦虑:不写提示词,那AI应用怎么控制?
这个方向最近出了更系统化的答案。从Prompt Engineering,到Context Engineering,再到今年刚提出的Harness Engineering(驾驭工程)——给AI套马具,而不是教它背指令。
一个精辟的共识正在行业里成形:Agent = Model + Harness。模型负责智能,Harness负责约束、反馈和流程控制。HashiCorp联合创始人Mitchell说得更直接:Harness Engineering就是每当发现Agent犯错时,你就花时间去工程化一个解决方案,让它永远不再犯同样的错。
这才是2026年AI工程化的真实走向。我们需要的不是更牛逼的提示词写手,而是会设计Agent规则环境的人。
开放讨论
如果你组里有个自称“提示词工程师”的同事,你觉得Ta未来两年会被淘汰吗?还是这个角色会被重新定义成什么?
你的业务场景里,有没有“怎么教AI都教不会”的案例?尝试过扔掉步骤、只定目标吗?
声明:图片由AI辅助生成