AI自动化不是接工具就行，得补缺点搭轨道-创锋一号

你有没有过这种经历？点了一杯定制奶茶，本来想着 “全自动机器做，我啥也不用管，等着拿就行”。结果呢？机器煮茶到一半，弹出来问你：“我要开始煮茶了哦，确认一下？” 加珍珠的时候，又问：“珍珠加 30g 可以吗？” 摇茶的时候，又问：“我要摇了，你要不要看看？” 测温度的时候，又问：“60 度，要不要调整？” 前前后后问了你 9 次，你本来想躺平刷手机，结果比自己动手做奶茶还累。

我们最近做 AI 研发自动化，就遇到了一模一样的事。本来想搞个 “全链路全自动”，让 AI 从需求到部署全搞定，结果第一次实战，人工介入了 9 次，比手动还折腾。折腾了 20 多天，踩了一堆坑，我们终于把人工介入减到了 3 次。这不是什么 “AI 提效 100 倍” 的爽文，就是我们的真实踩坑记录，看完你就知道，AI 自动化到底该怎么玩。

一开始我以为 AI 能搞定一切，结果踩了大雷

最开始的时候，我跟很多人一样，觉得现在 AI 这么强，给它接上工具，不就能自己搞定一切了？我花了 6 天，给 AI 接上了我们的需求系统、代码仓库、CI/CD、小程序开发工具，甚至还有日志和监控工具，做了 73 个工具函数，让它能自己看需求、写代码、跑测试、部署。然后我扔了个需求给它，想着：行，你自己搞吧，我下班了。

结果呢？它倒是能干活，但是干到一半就停了，问我：“这个代码我要提交了哦，你确认一下？” 然后又问：“CI 跑好了，我要部署了，你看看？” 6 天下来，25 个对话，修了 10 多个 bug，我才发现不对：这 AI 根本不是全能管家，就是个笨手笨脚的帮工，啥都要问你，生怕做错了。

更离谱的是，我让它自己审自己的代码，它审了 6 轮，最后跟我说： “我就是个 LLM 啊，我没有真正的理解，我最多把事情做到 70-80 分，再往上，每一分的成本都指数级涨。” 哦，合着我之前想让它把所有事都做好，根本就是碰了当前 AI 的天花板？

推倒重来：我们在新目录里重建了整个系统

那时候我才想明白，不能指望 AI 自己变聪明，我得用工程的手段，把它的笨手笨脚给约束住。既然修修补补没用，那干脆推倒重来，在新目录里从零做 v2 版本。说白了，就是给这个笨帮工定规矩：

不是你想干嘛就干嘛，所有的步骤都给我按流程来，不许乱停
所有的敏感操作，比如部署、改代码，都给我过白名单，不许乱搞
你记不住的东西，我给你存起来，就算你上下文爆了，回来也能接着干
所有的操作都给我记日志，谁干了啥，干了啥，都给我记下来，出了问题能查

就这么着，7 个小时，我们搞出了一个新的系统：62 个工具，有网关管安全，有 session 管状态，还有专门的桥接器操控小程序开发工具。简单说，就是给 AI 做了个“轨道”，让它只能在轨道上跑，不会乱跑，也不会忘了自己干到哪了。

第一次实战：理想很丰满，现实要人工介入9次

新系统做好了，我们赶紧找了个需求试试：给小程序加个搜索功能，能搜物种、活动、记录。本来我想得挺好：我就审查一下技术方案，剩下的你全自动搞定，人工就介入 1 次就行。结果呢？现实给了我一巴掌。整个过程，人工介入了 9 次：

我审完方案，说 “按这个来”，这是第一次，正常。
编码完了，AI 突然停下来问我：“我要 commit push 了，你确认一下？”—— 按规矩你应该自动继续啊！
我问它为啥不继续，它说：哦，我以为编码完就结束了。—— 合着你把中间步骤当终点了？
我骂了它一顿，说你要把整个流程跑完，它说：哦，那我一个个来，先建个 task。—— 你就不能一次拆好？
然后我发现页面有双导航栏的 bug，它的 E2E 测试只跑了 3 条，技术方案里的 20 条测试用例它根本没看！
然后又发现，DevTools 连错了目录，白忙活半天。
然后它又问我：DevTools 怎么拉起来啊？我不会。
然后上下文爆了，CI 轮询返回了一堆没用的日志，把 token 吃完了，又停了。
最后，新会话要我发个消息才能继续，不然它就等着。

就这么着，本来理想235分钟的活，干了346分钟，多花了快2小时，我本来想躺平，结果比自己干还累。就跟你点奶茶，店员前前后后问你9次，你都快烦死了一样。

踩完坑我们改了10个点，全部落地

踩了这么多坑，当然不能白踩，我们把所有的问题都列出来，改了10个点，一个都没落下。

步骤之间自动衔接，不许中途停下来问东问西
任务必须拆成 4 个子任务：编码、CI/CD、E2E、修复，不许把整个流程当一个活
E2E 必须对照技术方案里的测试清单，不许只跑 3 条就完事
E2E 必须加视觉验证，要截图看页面长啥样，不能只查数据
CI 轮询只返回状态，不许把整个配置文件都吐出来，浪费 token
Agent 瘦身，把 995 行的代码砍到 167 行，把流程委托给独立规则
三阶段 session 持久化，把每个阶段的状态存在数据库里，就算 AI 上下文爆了，回来也能接着干
DevTools 连接前先校验目录，不许连错了白忙活
导航策略优化，减少页面跳转的问题
把 CI 的状态返回精简，再也不吐一堆没用的东西了

这里最绝的就是那个 session 持久化，我们把它做成了必经之路：你不调这个工具，你就干不了活，所以 AI 必须用它，把状态存下来。就算你上下文爆了，开个新会话，调用一下状态，就能回到断点接着干，再也不用从头来了。

第二次实战：终于把人工介入砍到3次了

改完这些，我们赶紧又找了个需求试试：修复搜索功能的 9 个 UI 问题，比如缺图标、宽度不对、导航栏不对之类的。这次怎么样？整个过程下来，人工只介入了 3 次！

第一次，AI 停下来问我：“确认一下修复方向？”—— 其实方案都已经定好了，他还是有点保守，问了一句。
第二次，Agent 调用超时了，token 扛不住全链路，又问了我一下。
第三次，CI 轮询了 2 次，问我：“要继续等吗？”—— 其实它应该自己等到结束的。

就这 3 次！剩下的所有步骤，他都自己跑完了：改代码、提交、跑 CI、部署、E2E 验证，9 个问题全部修复，一个都没落下。 E2E 测试也把 9 个问题全验证了，再也没漏，视觉验证也把 UI 的问题都查出来了。整个过程，我就只需要回答这 3 个问题，剩下的时间，我真的能躺平刷手机了！就跟那个优化后的奶茶机一样，你只需要选口味、确认甜度、最后取餐，3 步搞定，剩下的机器自己就干完了，再也不用不停地问你了。

哦对了，这次我们还顺手用这套系统追了个线上的 bug：用户上传 HEIC 图片失败，我们用它查日志、加 debug 日志、部署测试、找到根因，最后修复了，全程我都没怎么动手，AI 自己就搞定了。原来 AI 的能力，真的取决于你给它接了多少 “感官”，你给它接上了日志、监控，它就能自己查问题，不然它啥也看不见。

我们这套系统，和 Devin 那些比怎么样？

做完这个，我也好奇，我们这个跟现在网上火的那些，比如 Devin、

gstack 比，怎么样？我列了个表对比了一下：

能力	Devin	Factory	gstack	Dark Factory	我们的系统
写代码	✅	✅	✅	✅	✅
跑测试	✅	✅	✅	✅	✅
触发 CI/CD	✅	✅	❌	-	✅
查运行时数据	⚠️ 只有 Datadog	❌	❌	❌	✅ 我们的全链路监控
操控客户端 E2E	❌	❌ 只有浏览器	❌	沙箱	✅ 能操控微信开发者工具
跨会话恢复	❌	❌	-	❌	✅ 三阶段 session
真实全链路数据	黑盒	无	无	无	✅ 我们的实测数据

说白了，那些通用的 AI 工具，啥都能做，但是跟我们自己的业务、我们的技术栈，都没那么贴合。我们这个虽然定制化程度高，但是能跟我们的小程序、我们的云服务、我们的流程完美贴合，反而能做到更多它们做不到的事。

为什么我们做不到 100% 全自动？

很多人肯定会问，那你为啥不做到0次人工介入，100%全自动？说实话，我们试过，但是现在真的做不到，不是工具的问题，是AI本身的硬约束：

AI 太保守了：现在的模型，都是 RLHF 训出来的，就怕做错事，所以到了关键节点，比如要提交代码、要部署，它就忍不住要问你一下，确认没错，就算你跟它说 “不许问”，它还是会问，就怕担责任。
上下文还是不够用：就算现在的模型有 128k、200k 的上下文，但是全链路跑下来，读代码、改代码、CI 日志、E2E 的结果，加起来还是很多，很容易就把上下文吃满了，规则写在前面，跑着跑着就忘了。
它没有真正的理解：就像之前它说的，它最多做到 80 分，剩下的 20 分，还是需要人来把关，比如一些很复杂的业务逻辑，它还是搞不定，需要人来确认。

就像那个自动奶茶机，就算它能自己煮茶、加配料、摇茶，最后做好了，店员还是要检查一下，有没有少珍珠，有没有做错口味，万一机器出点小错，那不是砸招牌了？所以现在，我们还做不到 100% 全自动，但是能从 9 次砍到 3 次，已经省了太多事了。

我们的自动化飞轮，越用越顺手

现在我们这套系统，其实是个飞轮：

我们用它做需求，遇到问题，就优化规则
优化完规则，再做新的需求，又遇到新的问题，再优化
越用，规则越完善，AI 能自己搞定的事就越多，人工介入的次数就越少

就像那个奶茶机，你用一次，发现它加珍珠加少了，你调一下参数；下次发现它温度不对，你再调一下；用的次数越多，它就越准，你要动手的地方就越少。现在我们已经在做下一步了，就是最小 MVP 的黑灯工厂，争取以后能做到更少的人工介入，甚至真的有一天，能做到全自动。

最后，我们学到了什么？

折腾了这 20 多天，我最大的感受就是： AI 自动化，真的不是把工具接上 AI 就完事了，也不是指望 AI 自己变聪明。而是你要知道 AI 的天花板在哪，然后用工程的手段，把它的缺点给补上，给它定规矩，给它搭轨道，让它能在它的能力范围内，把事做好。你不用指望它能做所有的事，你只要把那些重复的、繁琐的、它能搞定的事，都交给它，你只需要做那些它搞不定的、需要人来决策的事，就够了。

这样一来，你就能从那些繁琐的小事里解放出来，去做更重要的事，这才是 AI 提效的真正意义。

看完我们的踩坑记录，你有没有试过用 AI 做自动化？有没有遇到过类似的，AI 啥都要问你，比自己干还累的情况？评论区聊聊你的经历吧！

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

如何将Illustrator矢量图层完美迁移到Photoshop？Ai2Psd脚本深度解析

【信息科学与工程学】计算机科学与自动化——第一百五十一篇 云计算操作系统函数说明02

中文NLP预训练模型资源导航与实战指南

需要专业的网站建设服务？

【信息科学与工程学】计算机科学与自动化——第一百五十一篇云计算操作系统函数说明02