AI自动化不是接工具就行,得补缺点搭轨道
2026/5/14 10:05:12 网站建设 项目流程

你有没有过这种经历? 点了一杯定制奶茶,本来想着 “全自动机器做,我啥也不用管,等着拿就行”。 结果呢? 机器煮茶到一半,弹出来问你:“我要开始煮茶了哦,确认一下?” 加珍珠的时候,又问:“珍珠加 30g 可以吗?” 摇茶的时候,又问:“我要摇了,你要不要看看?” 测温度的时候,又问:“60 度,要不要调整?” 前前后后问了你 9 次,你本来想躺平刷手机,结果比自己动手做奶茶还累。

我们最近做 AI 研发自动化,就遇到了一模一样的事。 本来想搞个 “全链路全自动”,让 AI 从需求到部署全搞定,结果第一次实战,人工介入了 9 次,比手动还折腾。 折腾了 20 多天,踩了一堆坑,我们终于把人工介入减到了 3 次。 这不是什么 “AI 提效 100 倍” 的爽文,就是我们的真实踩坑记录,看完你就知道,AI 自动化到底该怎么玩。

一开始我以为 AI 能搞定一切,结果踩了大雷

最开始的时候,我跟很多人一样,觉得现在 AI 这么强,给它接上工具,不就能自己搞定一切了? 我花了 6 天,给 AI 接上了我们的需求系统、代码仓库、CI/CD、小程序开发工具,甚至还有日志和监控工具,做了 73 个工具函数,让它能自己看需求、写代码、跑测试、部署。 然后我扔了个需求给它,想着:行,你自己搞吧,我下班了。

结果呢? 它倒是能干活,但是干到一半就停了,问我:“这个代码我要提交了哦,你确认一下?” 然后又问:“CI 跑好了,我要部署了,你看看?” 6 天下来,25 个对话,修了 10 多个 bug,我才发现不对: 这 AI 根本不是全能管家,就是个笨手笨脚的帮工,啥都要问你,生怕做错了。

更离谱的是,我让它自己审自己的代码,它审了 6 轮,最后跟我说: “我就是个 LLM 啊,我没有真正的理解,我最多把事情做到 70-80 分,再往上,每一分的成本都指数级涨。” 哦,合着我之前想让它把所有事都做好,根本就是碰了当前 AI 的天花板?

推倒重来:我们在新目录里重建了整个系统

那时候我才想明白,不能指望 AI 自己变聪明,我得用工程的手段,把它的笨手笨脚给约束住。 既然修修补补没用,那干脆推倒重来,在新目录里从零做 v2 版本。 说白了,就是给这个笨帮工定规矩:

  • 不是你想干嘛就干嘛,所有的步骤都给我按流程来,不许乱停

  • 所有的敏感操作,比如部署、改代码,都给我过白名单,不许乱搞

  • 你记不住的东西,我给你存起来,就算你上下文爆了,回来也能接着干

  • 所有的操作都给我记日志,谁干了啥,干了啥,都给我记下来,出了问题能查

就这么着,7 个小时,我们搞出了一个新的系统:62 个工具,有网关管安全,有 session 管状态,还有专门的桥接器操控小程序开发工具。 简单说,就是给 AI 做了个“轨道”,让它只能在轨道上跑,不会乱跑,也不会忘了自己干到哪了。

第一次实战:理想很丰满,现实要人工介入9次

新系统做好了,我们赶紧找了个需求试试:给小程序加个搜索功能,能搜物种、活动、记录。 本来我想得挺好:我就审查一下技术方案,剩下的你全自动搞定,人工就介入 1 次就行。 结果呢? 现实给了我一巴掌。 整个过程,人工介入了 9 次:

  1. 我审完方案,说 “按这个来”,这是第一次,正常。

  2. 编码完了,AI 突然停下来问我:“我要 commit push 了,你确认一下?”—— 按规矩你应该自动继续啊!

  3. 我问它为啥不继续,它说:哦,我以为编码完就结束了。—— 合着你把中间步骤当终点了?

  4. 我骂了它一顿,说你要把整个流程跑完,它说:哦,那我一个个来,先建个 task。—— 你就不能一次拆好?

  5. 然后我发现页面有双导航栏的 bug,它的 E2E 测试只跑了 3 条,技术方案里的 20 条测试用例它根本没看!

  6. 然后又发现,DevTools 连错了目录,白忙活半天。

  7. 然后它又问我:DevTools 怎么拉起来啊?我不会。

  8. 然后上下文爆了,CI 轮询返回了一堆没用的日志,把 token 吃完了,又停了。

  9. 最后,新会话要我发个消息才能继续,不然它就等着。

就这么着,本来理想235分钟的活,干了346分钟,多花了快2小时,我本来想躺平,结果比自己干还累。 就跟你点奶茶,店员前前后后问你9次,你都快烦死了一样。

踩完坑我们改了10个点,全部落地

踩了这么多坑,当然不能白踩,我们把所有的问题都列出来,改了10个点,一个都没落下。

  1. 步骤之间自动衔接,不许中途停下来问东问西

  2. 任务必须拆成 4 个子任务:编码、CI/CD、E2E、修复,不许把整个流程当一个活

  3. E2E 必须对照技术方案里的测试清单,不许只跑 3 条就完事

  4. E2E 必须加视觉验证,要截图看页面长啥样,不能只查数据

  5. CI 轮询只返回状态,不许把整个配置文件都吐出来,浪费 token

  6. Agent 瘦身,把 995 行的代码砍到 167 行,把流程委托给独立规则

  7. 三阶段 session 持久化,把每个阶段的状态存在数据库里,就算 AI 上下文爆了,回来也能接着干

  8. DevTools 连接前先校验目录,不许连错了白忙活

  9. 导航策略优化,减少页面跳转的问题

  10. 把 CI 的状态返回精简,再也不吐一堆没用的东西了

这里最绝的就是那个 session 持久化,我们把它做成了必经之路:你不调这个工具,你就干不了活,所以 AI 必须用它,把状态存下来。 就算你上下文爆了,开个新会话,调用一下状态,就能回到断点接着干,再也不用从头来了。

第二次实战:终于把人工介入砍到3次了

改完这些,我们赶紧又找了个需求试试:修复搜索功能的 9 个 UI 问题,比如缺图标、宽度不对、导航栏不对之类的。 这次怎么样? 整个过程下来,人工只介入了 3 次!

  1. 第一次,AI 停下来问我:“确认一下修复方向?”—— 其实方案都已经定好了,他还是有点保守,问了一句。

  2. 第二次,Agent 调用超时了,token 扛不住全链路,又问了我一下。

  3. 第三次,CI 轮询了 2 次,问我:“要继续等吗?”—— 其实它应该自己等到结束的。

就这 3 次!剩下的所有步骤,他都自己跑完了:改代码、提交、跑 CI、部署、E2E 验证,9 个问题全部修复,一个都没落下。 E2E 测试也把 9 个问题全验证了,再也没漏,视觉验证也把 UI 的问题都查出来了。 整个过程,我就只需要回答这 3 个问题,剩下的时间,我真的能躺平刷手机了! 就跟那个优化后的奶茶机一样,你只需要选口味、确认甜度、最后取餐,3 步搞定,剩下的机器自己就干完了,再也不用不停地问你了。

哦对了,这次我们还顺手用这套系统追了个线上的 bug:用户上传 HEIC 图片失败,我们用它查日志、加 debug 日志、部署测试、找到根因,最后修复了,全程我都没怎么动手,AI 自己就搞定了。 原来 AI 的能力,真的取决于你给它接了多少 “感官”,你给它接上了日志、监控,它就能自己查问题,不然它啥也看不见。

我们这套系统,和 Devin 那些比怎么样?

做完这个,我也好奇,我们这个跟现在网上火的那些,比如 Devin、

gstack 比,怎么样? 我列了个表对比了一下:

能力

Devin

Factory

gstack

Dark Factory

我们的系统

写代码

跑测试

触发 CI/CD

-

查运行时数据

⚠️ 只有 Datadog

✅ 我们的全链路监控

操控客户端 E2E

❌ 只有浏览器

沙箱

✅ 能操控微信开发者工具

跨会话恢复

-

✅ 三阶段 session

真实全链路数据

黑盒

✅ 我们的实测数据

说白了,那些通用的 AI 工具,啥都能做,但是跟我们自己的业务、我们的技术栈,都没那么贴合。 我们这个虽然定制化程度高,但是能跟我们的小程序、我们的云服务、我们的流程完美贴合,反而能做到更多它们做不到的事。

为什么我们做不到 100% 全自动?

很多人肯定会问,那你为啥不做到0次人工介入,100%全自动? 说实话,我们试过,但是现在真的做不到,不是工具的问题,是AI本身的硬约束:

  1. AI 太保守了:现在的模型,都是 RLHF 训出来的,就怕做错事,所以到了关键节点,比如要提交代码、要部署,它就忍不住要问你一下,确认没错,就算你跟它说 “不许问”,它还是会问,就怕担责任。

  2. 上下文还是不够用:就算现在的模型有 128k、200k 的上下文,但是全链路跑下来,读代码、改代码、CI 日志、E2E 的结果,加起来还是很多,很容易就把上下文吃满了,规则写在前面,跑着跑着就忘了。

  3. 它没有真正的理解:就像之前它说的,它最多做到 80 分,剩下的 20 分,还是需要人来把关,比如一些很复杂的业务逻辑,它还是搞不定,需要人来确认。

就像那个自动奶茶机,就算它能自己煮茶、加配料、摇茶,最后做好了,店员还是要检查一下,有没有少珍珠,有没有做错口味,万一机器出点小错,那不是砸招牌了? 所以现在,我们还做不到 100% 全自动,但是能从 9 次砍到 3 次,已经省了太多事了。

我们的自动化飞轮,越用越顺手

现在我们这套系统,其实是个飞轮:

  • 我们用它做需求,遇到问题,就优化规则

  • 优化完规则,再做新的需求,又遇到新的问题,再优化

  • 越用,规则越完善,AI 能自己搞定的事就越多,人工介入的次数就越少

就像那个奶茶机,你用一次,发现它加珍珠加少了,你调一下参数;下次发现它温度不对,你再调一下;用的次数越多,它就越准,你要动手的地方就越少。 现在我们已经在做下一步了,就是最小 MVP 的黑灯工厂,争取以后能做到更少的人工介入,甚至真的有一天,能做到全自动。

最后,我们学到了什么?

折腾了这 20 多天,我最大的感受就是: AI 自动化,真的不是把工具接上 AI 就完事了,也不是指望 AI 自己变聪明。 而是你要知道 AI 的天花板在哪,然后用工程的手段,把它的缺点给补上,给它定规矩,给它搭轨道,让它能在它的能力范围内,把事做好。 你不用指望它能做所有的事,你只要把那些重复的、繁琐的、它能搞定的事,都交给它,你只需要做那些它搞不定的、需要人来决策的事,就够了。

这样一来,你就能从那些繁琐的小事里解放出来,去做更重要的事,这才是 AI 提效的真正意义。


看完我们的踩坑记录,你有没有试过用 AI 做自动化?有没有遇到过类似的,AI 啥都要问你,比自己干还累的情况?评论区聊聊你的经历吧!

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询