当前位置：首页 > article >正文

AI自动化不是接工具就行，得补缺点搭轨道

article 2026/5/14 10:05:49

你有没有过这种经历点了一杯定制奶茶本来想着 “全自动机器做我啥也不用管等着拿就行”。结果呢机器煮茶到一半弹出来问你“我要开始煮茶了哦确认一下” 加珍珠的时候又问“珍珠加 30g 可以吗” 摇茶的时候又问“我要摇了你要不要看看” 测温度的时候又问“60 度要不要调整” 前前后后问了你 9 次你本来想躺平刷手机结果比自己动手做奶茶还累。我们最近做 AI 研发自动化就遇到了一模一样的事。本来想搞个 “全链路全自动”让 AI 从需求到部署全搞定结果第一次实战人工介入了 9 次比手动还折腾。折腾了 20 多天踩了一堆坑我们终于把人工介入减到了 3 次。这不是什么 “AI 提效 100 倍” 的爽文就是我们的真实踩坑记录看完你就知道AI 自动化到底该怎么玩。一开始我以为 AI 能搞定一切结果踩了大雷最开始的时候我跟很多人一样觉得现在 AI 这么强给它接上工具不就能自己搞定一切了我花了 6 天给 AI 接上了我们的需求系统、代码仓库、CI/CD、小程序开发工具甚至还有日志和监控工具做了 73 个工具函数让它能自己看需求、写代码、跑测试、部署。然后我扔了个需求给它想着行你自己搞吧我下班了。结果呢它倒是能干活但是干到一半就停了问我“这个代码我要提交了哦你确认一下” 然后又问“CI 跑好了我要部署了你看看” 6 天下来25 个对话修了 10 多个 bug我才发现不对这 AI 根本不是全能管家就是个笨手笨脚的帮工啥都要问你生怕做错了。更离谱的是我让它自己审自己的代码它审了 6 轮最后跟我说 “我就是个 LLM 啊我没有真正的理解我最多把事情做到 70-80 分再往上每一分的成本都指数级涨。” 哦合着我之前想让它把所有事都做好根本就是碰了当前 AI 的天花板推倒重来我们在新目录里重建了整个系统那时候我才想明白不能指望 AI 自己变聪明我得用工程的手段把它的笨手笨脚给约束住。既然修修补补没用那干脆推倒重来在新目录里从零做 v2 版本。说白了就是给这个笨帮工定规矩不是你想干嘛就干嘛所有的步骤都给我按流程来不许乱停所有的敏感操作比如部署、改代码都给我过白名单不许乱搞你记不住的东西我给你存起来就算你上下文爆了回来也能接着干所有的操作都给我记日志谁干了啥干了啥都给我记下来出了问题能查就这么着7 个小时我们搞出了一个新的系统62 个工具有网关管安全有 session 管状态还有专门的桥接器操控小程序开发工具。简单说就是给 AI 做了个“轨道”让它只能在轨道上跑不会乱跑也不会忘了自己干到哪了。第一次实战理想很丰满现实要人工介入9次新系统做好了我们赶紧找了个需求试试给小程序加个搜索功能能搜物种、活动、记录。本来我想得挺好我就审查一下技术方案剩下的你全自动搞定人工就介入 1 次就行。结果呢现实给了我一巴掌。整个过程人工介入了 9 次我审完方案说 “按这个来”这是第一次正常。编码完了AI 突然停下来问我“我要 commit push 了你确认一下”—— 按规矩你应该自动继续啊我问它为啥不继续它说哦我以为编码完就结束了。—— 合着你把中间步骤当终点了我骂了它一顿说你要把整个流程跑完它说哦那我一个个来先建个 task。—— 你就不能一次拆好然后我发现页面有双导航栏的 bug它的 E2E 测试只跑了 3 条技术方案里的 20 条测试用例它根本没看然后又发现DevTools 连错了目录白忙活半天。然后它又问我DevTools 怎么拉起来啊我不会。然后上下文爆了CI 轮询返回了一堆没用的日志把 token 吃完了又停了。最后新会话要我发个消息才能继续不然它就等着。就这么着本来理想235分钟的活干了346分钟多花了快2小时我本来想躺平结果比自己干还累。就跟你点奶茶店员前前后后问你9次你都快烦死了一样。踩完坑我们改了10个点全部落地踩了这么多坑当然不能白踩我们把所有的问题都列出来改了10个点一个都没落下。步骤之间自动衔接不许中途停下来问东问西任务必须拆成 4 个子任务编码、CI/CD、E2E、修复不许把整个流程当一个活E2E 必须对照技术方案里的测试清单不许只跑 3 条就完事E2E 必须加视觉验证要截图看页面长啥样不能只查数据CI 轮询只返回状态不许把整个配置文件都吐出来浪费 tokenAgent 瘦身把 995 行的代码砍到 167 行把流程委托给独立规则三阶段 session 持久化把每个阶段的状态存在数据库里就算 AI 上下文爆了回来也能接着干DevTools 连接前先校验目录不许连错了白忙活导航策略优化减少页面跳转的问题把 CI 的状态返回精简再也不吐一堆没用的东西了这里最绝的就是那个 session 持久化我们把它做成了必经之路你不调这个工具你就干不了活所以 AI 必须用它把状态存下来。就算你上下文爆了开个新会话调用一下状态就能回到断点接着干再也不用从头来了。第二次实战终于把人工介入砍到3次了改完这些我们赶紧又找了个需求试试修复搜索功能的 9 个 UI 问题比如缺图标、宽度不对、导航栏不对之类的。这次怎么样整个过程下来人工只介入了 3 次第一次AI 停下来问我“确认一下修复方向”—— 其实方案都已经定好了他还是有点保守问了一句。第二次Agent 调用超时了token 扛不住全链路又问了我一下。第三次CI 轮询了 2 次问我“要继续等吗”—— 其实它应该自己等到结束的。就这 3 次剩下的所有步骤他都自己跑完了改代码、提交、跑 CI、部署、E2E 验证9 个问题全部修复一个都没落下。 E2E 测试也把 9 个问题全验证了再也没漏视觉验证也把 UI 的问题都查出来了。整个过程我就只需要回答这 3 个问题剩下的时间我真的能躺平刷手机了就跟那个优化后的奶茶机一样你只需要选口味、确认甜度、最后取餐3 步搞定剩下的机器自己就干完了再也不用不停地问你了。哦对了这次我们还顺手用这套系统追了个线上的 bug用户上传 HEIC 图片失败我们用它查日志、加 debug 日志、部署测试、找到根因最后修复了全程我都没怎么动手AI 自己就搞定了。原来 AI 的能力真的取决于你给它接了多少 “感官”你给它接上了日志、监控它就能自己查问题不然它啥也看不见。我们这套系统和 Devin 那些比怎么样做完这个我也好奇我们这个跟现在网上火的那些比如 Devin、gstack 比怎么样我列了个表对比了一下能力DevinFactorygstackDark Factory我们的系统写代码✅✅✅✅✅跑测试✅✅✅✅✅触发 CI/CD✅✅❌-✅查运行时数据⚠️ 只有 Datadog❌❌❌✅ 我们的全链路监控操控客户端 E2E❌❌ 只有浏览器❌沙箱✅ 能操控微信开发者工具跨会话恢复❌❌-❌✅ 三阶段 session真实全链路数据黑盒无无无✅ 我们的实测数据说白了那些通用的 AI 工具啥都能做但是跟我们自己的业务、我们的技术栈都没那么贴合。我们这个虽然定制化程度高但是能跟我们的小程序、我们的云服务、我们的流程完美贴合反而能做到更多它们做不到的事。为什么我们做不到 100% 全自动很多人肯定会问那你为啥不做到0次人工介入100%全自动说实话我们试过但是现在真的做不到不是工具的问题是AI本身的硬约束AI 太保守了现在的模型都是 RLHF 训出来的就怕做错事所以到了关键节点比如要提交代码、要部署它就忍不住要问你一下确认没错就算你跟它说 “不许问”它还是会问就怕担责任。上下文还是不够用就算现在的模型有 128k、200k 的上下文但是全链路跑下来读代码、改代码、CI 日志、E2E 的结果加起来还是很多很容易就把上下文吃满了规则写在前面跑着跑着就忘了。它没有真正的理解就像之前它说的它最多做到 80 分剩下的 20 分还是需要人来把关比如一些很复杂的业务逻辑它还是搞不定需要人来确认。就像那个自动奶茶机就算它能自己煮茶、加配料、摇茶最后做好了店员还是要检查一下有没有少珍珠有没有做错口味万一机器出点小错那不是砸招牌了所以现在我们还做不到 100% 全自动但是能从 9 次砍到 3 次已经省了太多事了。我们的自动化飞轮越用越顺手现在我们这套系统其实是个飞轮我们用它做需求遇到问题就优化规则优化完规则再做新的需求又遇到新的问题再优化越用规则越完善AI 能自己搞定的事就越多人工介入的次数就越少就像那个奶茶机你用一次发现它加珍珠加少了你调一下参数下次发现它温度不对你再调一下用的次数越多它就越准你要动手的地方就越少。现在我们已经在做下一步了就是最小 MVP 的黑灯工厂争取以后能做到更少的人工介入甚至真的有一天能做到全自动。最后我们学到了什么折腾了这 20 多天我最大的感受就是 AI 自动化真的不是把工具接上 AI 就完事了也不是指望 AI 自己变聪明。而是你要知道 AI 的天花板在哪然后用工程的手段把它的缺点给补上给它定规矩给它搭轨道让它能在它的能力范围内把事做好。你不用指望它能做所有的事你只要把那些重复的、繁琐的、它能搞定的事都交给它你只需要做那些它搞不定的、需要人来决策的事就够了。这样一来你就能从那些繁琐的小事里解放出来去做更重要的事这才是 AI 提效的真正意义。看完我们的踩坑记录你有没有试过用 AI 做自动化有没有遇到过类似的AI 啥都要问你比自己干还累的情况评论区聊聊你的经历吧

AI自动化不是接工具就行，得补缺点搭轨道

相关文章：

AI自动化不是接工具就行，得补缺点搭轨道

EPLAN电气设计许可不够用？自动回收闲置，盘活工程资源

从服务端到登录器：《传奇世界》单机架设全流程拆解与工具选择指南（AFT/彩虹/凤凰引擎对比）

Windows系统移植macOS光标主题：设计原理与安装实践

【信息科学与工程学】计算机科学与自动化——第一百五十一篇云计算操作系统函数说明02

3分钟让键盘操作在屏幕上“跳舞“：Keyviz完全指南 [特殊字符]

# 软考软件设计师每日精练 | 2026-04-25

如何在3分钟内免费解锁城通网盘的全速下载能力？

AK7739 TDM调试避坑指南：从tinymix命令到SA6125平台时钟极性BUG排查

AI智能体安全治理：DashClaw平台部署与集成实战指南

微信支付微信转账微信退款订单流程链路指南文档

图灵奖得主断言“AI Agent最后全是数据库问题”，YashanDB如何破解 AI落地困

如何高效下载B站4K视频：bilibili-downloader实用指南

WechatDecrypt：如何安全解密微信聊天记录的完整技术指南

Browser-Use：基于LLM的智能浏览器自动化框架入门与实践

C++ 显式类型转换详解

VCNL系列接近传感器特性与工程应用解析

让普通鼠标在macOS上超越触控板的智能解决方案

通过 TaoToken CLI 工具一键配置开发环境接入大模型聚合服务

手把手图解：用‘阻挫’和‘复本’理解自旋玻璃、自旋冰与量子自旋液体

RustClaw：构建私有化AI助手，实现数据主权与本地化部署

YOLOX核心创新点深度剖析：从Anchor-Based到Anchor-Free的演进之路

利用Taotoken统一管理多个AI项目的API密钥与访问权限

LLM在硬件断言生成中的应用与优化

Excel数据分析工具库 vs. Python手动计算：手把手教你搞定一元线性回归的全部检验

量子网络模拟器SeQUeNCe的并行化设计与性能优化

常用命令大全

初创公司技术选型时为何应考虑 Taotoken 这类大模型聚合平台

QuPath 65张病理图像批量通道复制：如何通过Groovy脚本实现自动化处理

基于GPT-5.5构建智能问答系统的实现方案