当前位置: 首页 > article >正文

AI自动化不是接工具就行,得补缺点搭轨道

你有没有过这种经历 点了一杯定制奶茶本来想着 “全自动机器做我啥也不用管等着拿就行”。 结果呢 机器煮茶到一半弹出来问你“我要开始煮茶了哦确认一下” 加珍珠的时候又问“珍珠加 30g 可以吗” 摇茶的时候又问“我要摇了你要不要看看” 测温度的时候又问“60 度要不要调整” 前前后后问了你 9 次你本来想躺平刷手机结果比自己动手做奶茶还累。我们最近做 AI 研发自动化就遇到了一模一样的事。 本来想搞个 “全链路全自动”让 AI 从需求到部署全搞定结果第一次实战人工介入了 9 次比手动还折腾。 折腾了 20 多天踩了一堆坑我们终于把人工介入减到了 3 次。 这不是什么 “AI 提效 100 倍” 的爽文就是我们的真实踩坑记录看完你就知道AI 自动化到底该怎么玩。一开始我以为 AI 能搞定一切结果踩了大雷最开始的时候我跟很多人一样觉得现在 AI 这么强给它接上工具不就能自己搞定一切了 我花了 6 天给 AI 接上了我们的需求系统、代码仓库、CI/CD、小程序开发工具甚至还有日志和监控工具做了 73 个工具函数让它能自己看需求、写代码、跑测试、部署。 然后我扔了个需求给它想着行你自己搞吧我下班了。结果呢 它倒是能干活但是干到一半就停了问我“这个代码我要提交了哦你确认一下” 然后又问“CI 跑好了我要部署了你看看” 6 天下来25 个对话修了 10 多个 bug我才发现不对 这 AI 根本不是全能管家就是个笨手笨脚的帮工啥都要问你生怕做错了。更离谱的是我让它自己审自己的代码它审了 6 轮最后跟我说 “我就是个 LLM 啊我没有真正的理解我最多把事情做到 70-80 分再往上每一分的成本都指数级涨。” 哦合着我之前想让它把所有事都做好根本就是碰了当前 AI 的天花板推倒重来我们在新目录里重建了整个系统那时候我才想明白不能指望 AI 自己变聪明我得用工程的手段把它的笨手笨脚给约束住。 既然修修补补没用那干脆推倒重来在新目录里从零做 v2 版本。 说白了就是给这个笨帮工定规矩不是你想干嘛就干嘛所有的步骤都给我按流程来不许乱停所有的敏感操作比如部署、改代码都给我过白名单不许乱搞你记不住的东西我给你存起来就算你上下文爆了回来也能接着干所有的操作都给我记日志谁干了啥干了啥都给我记下来出了问题能查就这么着7 个小时我们搞出了一个新的系统62 个工具有网关管安全有 session 管状态还有专门的桥接器操控小程序开发工具。 简单说就是给 AI 做了个“轨道”让它只能在轨道上跑不会乱跑也不会忘了自己干到哪了。第一次实战理想很丰满现实要人工介入9次新系统做好了我们赶紧找了个需求试试给小程序加个搜索功能能搜物种、活动、记录。 本来我想得挺好我就审查一下技术方案剩下的你全自动搞定人工就介入 1 次就行。 结果呢 现实给了我一巴掌。 整个过程人工介入了 9 次我审完方案说 “按这个来”这是第一次正常。编码完了AI 突然停下来问我“我要 commit push 了你确认一下”—— 按规矩你应该自动继续啊我问它为啥不继续它说哦我以为编码完就结束了。—— 合着你把中间步骤当终点了我骂了它一顿说你要把整个流程跑完它说哦那我一个个来先建个 task。—— 你就不能一次拆好然后我发现页面有双导航栏的 bug它的 E2E 测试只跑了 3 条技术方案里的 20 条测试用例它根本没看然后又发现DevTools 连错了目录白忙活半天。然后它又问我DevTools 怎么拉起来啊我不会。然后上下文爆了CI 轮询返回了一堆没用的日志把 token 吃完了又停了。最后新会话要我发个消息才能继续不然它就等着。就这么着本来理想235分钟的活干了346分钟多花了快2小时我本来想躺平结果比自己干还累。 就跟你点奶茶店员前前后后问你9次你都快烦死了一样。踩完坑我们改了10个点全部落地踩了这么多坑当然不能白踩我们把所有的问题都列出来改了10个点一个都没落下。步骤之间自动衔接不许中途停下来问东问西任务必须拆成 4 个子任务编码、CI/CD、E2E、修复不许把整个流程当一个活E2E 必须对照技术方案里的测试清单不许只跑 3 条就完事E2E 必须加视觉验证要截图看页面长啥样不能只查数据CI 轮询只返回状态不许把整个配置文件都吐出来浪费 tokenAgent 瘦身把 995 行的代码砍到 167 行把流程委托给独立规则三阶段 session 持久化把每个阶段的状态存在数据库里就算 AI 上下文爆了回来也能接着干DevTools 连接前先校验目录不许连错了白忙活导航策略优化减少页面跳转的问题把 CI 的状态返回精简再也不吐一堆没用的东西了这里最绝的就是那个 session 持久化我们把它做成了必经之路你不调这个工具你就干不了活所以 AI 必须用它把状态存下来。 就算你上下文爆了开个新会话调用一下状态就能回到断点接着干再也不用从头来了。第二次实战终于把人工介入砍到3次了改完这些我们赶紧又找了个需求试试修复搜索功能的 9 个 UI 问题比如缺图标、宽度不对、导航栏不对之类的。 这次怎么样 整个过程下来人工只介入了 3 次第一次AI 停下来问我“确认一下修复方向”—— 其实方案都已经定好了他还是有点保守问了一句。第二次Agent 调用超时了token 扛不住全链路又问了我一下。第三次CI 轮询了 2 次问我“要继续等吗”—— 其实它应该自己等到结束的。就这 3 次剩下的所有步骤他都自己跑完了改代码、提交、跑 CI、部署、E2E 验证9 个问题全部修复一个都没落下。 E2E 测试也把 9 个问题全验证了再也没漏视觉验证也把 UI 的问题都查出来了。 整个过程我就只需要回答这 3 个问题剩下的时间我真的能躺平刷手机了 就跟那个优化后的奶茶机一样你只需要选口味、确认甜度、最后取餐3 步搞定剩下的机器自己就干完了再也不用不停地问你了。哦对了这次我们还顺手用这套系统追了个线上的 bug用户上传 HEIC 图片失败我们用它查日志、加 debug 日志、部署测试、找到根因最后修复了全程我都没怎么动手AI 自己就搞定了。 原来 AI 的能力真的取决于你给它接了多少 “感官”你给它接上了日志、监控它就能自己查问题不然它啥也看不见。我们这套系统和 Devin 那些比怎么样做完这个我也好奇我们这个跟现在网上火的那些比如 Devin、gstack 比怎么样 我列了个表对比了一下能力DevinFactorygstackDark Factory我们的系统写代码✅✅✅✅✅跑测试✅✅✅✅✅触发 CI/CD✅✅❌-✅查运行时数据⚠️ 只有 Datadog❌❌❌✅ 我们的全链路监控操控客户端 E2E❌❌ 只有浏览器❌沙箱✅ 能操控微信开发者工具跨会话恢复❌❌-❌✅ 三阶段 session真实全链路数据黑盒无无无✅ 我们的实测数据说白了那些通用的 AI 工具啥都能做但是跟我们自己的业务、我们的技术栈都没那么贴合。 我们这个虽然定制化程度高但是能跟我们的小程序、我们的云服务、我们的流程完美贴合反而能做到更多它们做不到的事。为什么我们做不到 100% 全自动很多人肯定会问那你为啥不做到0次人工介入100%全自动 说实话我们试过但是现在真的做不到不是工具的问题是AI本身的硬约束AI 太保守了现在的模型都是 RLHF 训出来的就怕做错事所以到了关键节点比如要提交代码、要部署它就忍不住要问你一下确认没错就算你跟它说 “不许问”它还是会问就怕担责任。上下文还是不够用就算现在的模型有 128k、200k 的上下文但是全链路跑下来读代码、改代码、CI 日志、E2E 的结果加起来还是很多很容易就把上下文吃满了规则写在前面跑着跑着就忘了。它没有真正的理解就像之前它说的它最多做到 80 分剩下的 20 分还是需要人来把关比如一些很复杂的业务逻辑它还是搞不定需要人来确认。就像那个自动奶茶机就算它能自己煮茶、加配料、摇茶最后做好了店员还是要检查一下有没有少珍珠有没有做错口味万一机器出点小错那不是砸招牌了 所以现在我们还做不到 100% 全自动但是能从 9 次砍到 3 次已经省了太多事了。我们的自动化飞轮越用越顺手现在我们这套系统其实是个飞轮我们用它做需求遇到问题就优化规则优化完规则再做新的需求又遇到新的问题再优化越用规则越完善AI 能自己搞定的事就越多人工介入的次数就越少就像那个奶茶机你用一次发现它加珍珠加少了你调一下参数下次发现它温度不对你再调一下用的次数越多它就越准你要动手的地方就越少。 现在我们已经在做下一步了就是最小 MVP 的黑灯工厂争取以后能做到更少的人工介入甚至真的有一天能做到全自动。最后我们学到了什么折腾了这 20 多天我最大的感受就是 AI 自动化真的不是把工具接上 AI 就完事了也不是指望 AI 自己变聪明。 而是你要知道 AI 的天花板在哪然后用工程的手段把它的缺点给补上给它定规矩给它搭轨道让它能在它的能力范围内把事做好。 你不用指望它能做所有的事你只要把那些重复的、繁琐的、它能搞定的事都交给它你只需要做那些它搞不定的、需要人来决策的事就够了。这样一来你就能从那些繁琐的小事里解放出来去做更重要的事这才是 AI 提效的真正意义。看完我们的踩坑记录你有没有试过用 AI 做自动化有没有遇到过类似的AI 啥都要问你比自己干还累的情况评论区聊聊你的经历吧

相关文章:

AI自动化不是接工具就行,得补缺点搭轨道

你有没有过这种经历? 点了一杯定制奶茶,本来想着 “全自动机器做,我啥也不用管,等着拿就行”。 结果呢? 机器煮茶到一半,弹出来问你:“我要开始煮茶了哦,确认一下?” 加珍…...

EPLAN电气设计许可不够用?自动回收闲置,盘活工程资源

你是不是也遇到过这种情况?画一半图纸就报错"许可证不足",项目卡在门口,手忙脚乱地扯资源,还得向领导要钱买新许可。2026年,我们团队就踩过的坑,结果直接多花了2.8万块。 关键词分析&#xff1a…...

从服务端到登录器:《传奇世界》单机架设全流程拆解与工具选择指南(AFT/彩虹/凤凰引擎对比)

从服务端到登录器:《传奇世界》单机架设全流程拆解与工具选择指南 在经典网游《传奇世界》的爱好者圈子里,单机架设一直是技术玩家热衷探索的领域。不同于简单的游戏体验,搭建一个完整的单机环境意味着对游戏架构的深度理解和技术掌控。本文将…...

Windows系统移植macOS光标主题:设计原理与安装实践

1. 项目概述:为Windows系统移植macOS光标主题如果你和我一样,长期在Windows和macOS双系统或双设备间切换工作,一定会对两者截然不同的光标设计有深刻的感受。macOS的光标以其简洁、圆润的线条和恰到好处的动画反馈,在视觉体验和操…...

【信息科学与工程学】计算机科学与自动化——第一百五十一篇 云计算操作系统函数说明02

威胁情报与狩猎模块(361-370) 编号 模块/组件类型 模块中的函数名称和函数的参数列表和函数的实现方式 函数的详细功能和计算机科学的所有性能【含参数列表】和功能说明 关联的其他函数【含上下文关系】 和对应模块【含上下文关系】 关联的软件/硬件核心知识点【需要涵…...

3分钟让键盘操作在屏幕上“跳舞“:Keyviz完全指南 [特殊字符]

3分钟让键盘操作在屏幕上"跳舞":Keyviz完全指南 🎯 【免费下载链接】keyviz Keyviz is a free and open-source tool to visualize your keystrokes ⌨️ and 🖱️ mouse actions in real-time. 项目地址: https://gitcode.com/g…...

# 软考软件设计师每日精练 | 2026-04-25

📝 软考软件设计师每日精练 | 2026-04-25📅 距离2026年5月23日软考还有 28天! 今日重点:算法策略辨析 线性规划 知识产权深化 项目管理工具🎯 模块一:算法策略辨析(必考 ★★★★★&#xff…...

如何在3分钟内免费解锁城通网盘的全速下载能力?

如何在3分钟内免费解锁城通网盘的全速下载能力? 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 你是否曾经面对城通网盘上珍贵的资源,却因为几十KB/s的下载速度而望而却步&#…...

AK7739 TDM调试避坑指南:从tinymix命令到SA6125平台时钟极性BUG排查

AK7739 TDM音频接口深度调试:从寄存器配置到时钟极性异常实战解析 当我们在嵌入式音频系统中集成AK7739编解码器时,TDM(时分复用)接口的调试往往是工程师面临的最大挑战之一。不同于标准的I2S协议,TDM接口的高度可配置…...

AI智能体安全治理:DashClaw平台部署与集成实战指南

1. 项目概述:为AI智能体装上“刹车”与“黑匣子” 如果你正在使用Claude Code、LangChain或者自己构建的AI智能体,有没有过这样的担忧:这个家伙会不会突然执行一个 rm -rf / 命令?或者未经授权就调用生产环境的API?…...

微信支付 微信转账 微信退款 订单流程链路指南文档

1.官网文档地址 https://pay.weixin.qq.com/doc/v3/merchant/4012791856 2.支付产品 JSAPI支付:提供商户在微信客户端内部浏览器网页中使用和小程序使用 APP支付:提供商户在自己的APP中使用 H5支付:提供商户在手机浏览器网页&#xff08…...

图灵奖得主断言“AI Agent最后全是数据库问题”,YashanDB如何破解 AI落地困

近日,图灵奖得主、数据库领域的泰斗级人物Mike Stonebraker的一番言论在科技圈引发轩然大波。他一针见血地指出:“AI Agent的发展,最后全都是数据库问题。”这句话扯下了当前 AI Agent 狂飙突进背后的“遮羞布”。当我们惊叹于多智能体&#…...

如何高效下载B站4K视频:bilibili-downloader实用指南

如何高效下载B站4K视频:bilibili-downloader实用指南 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 对于B站深度用户而言…...

WechatDecrypt:如何安全解密微信聊天记录的完整技术指南

WechatDecrypt:如何安全解密微信聊天记录的完整技术指南 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 在数字时代,我们的重要对话和回忆往往存储在加密的聊天记录中。当需要迁移…...

Browser-Use:基于LLM的智能浏览器自动化框架入门与实践

1. 项目概述:当AI学会“上网冲浪” 如果你和我一样,在过去的几年里尝试过各种RPA工具或者写爬虫脚本来处理网页上的重复性工作,那你一定对那种“脚本一跑就崩,网站一改版就废”的体验深有感触。我们总在幻想,要是能直…...

C++ 显式类型转换详解

C 显式类型转换详解一、C 显示类型转换详解1、static_cast2、dynamic_cast3、const_cast4、reinterpret_cast5、C 风格转换6、总体注意事项7、总结二、代码示例1、示例代码2、运行结果一、C 显示类型转换详解 在 C 中,类型转换是编程的核心概念之一。显示类型转换&…...

VCNL系列接近传感器特性与工程应用解析

1. VCNL系列接近传感器核心特性解析VCNL4010、VCNL4020和VCNL3020这三款接近传感器代表了当前集成式光学传感方案的最高水平。我在工业自动化项目中多次采用该系列传感器,其最显著的特点是"三合一"封装设计——将红外发射器、PIN光电二极管和信号处理IC集…...

让普通鼠标在macOS上超越触控板的智能解决方案

让普通鼠标在macOS上超越触控板的智能解决方案 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 你是否厌倦了在macOS上使用第三方鼠标时那种生硬…...

通过 TaoToken CLI 工具一键配置开发环境接入大模型聚合服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过 TaoToken CLI 工具一键配置开发环境接入大模型聚合服务 对于开发者而言,接入不同的大模型服务往往意味着需要处理…...

手把手图解:用‘阻挫’和‘复本’理解自旋玻璃、自旋冰与量子自旋液体

手把手图解:用‘阻挫’和‘复本’理解自旋玻璃、自旋冰与量子自旋液体 凝聚态物理中那些看似晦涩的概念,往往只需要一个恰到好处的比喻就能豁然开朗。想象你正在参加一场磁铁小人的派对,它们的箭头方向就像固执的舞伴,既想跟随音乐…...

RustClaw:构建私有化AI助手,实现数据主权与本地化部署

1. 项目概述:打造你自己的数据主权AI助手 最近在折腾一个挺有意思的项目,叫RustClaw。简单来说,这是一个用Rust写的、跑在Discord上的AI助手机器人。但和那些把对话记录全扔给云端的聊天机器人不同,它的核心设计理念是 “数据主权…...

YOLOX核心创新点深度剖析:从Anchor-Based到Anchor-Free的演进之路

1. YOLOX的诞生背景与技术挑战 记得第一次在GitHub上看到YOLOX开源项目时,我正在调试YOLOv5的检测头。当时业内普遍认为YOLOv5已经是目标检测的"天花板",但YOLOX团队却用实验数据证明:通过架构层面的创新,模型性能还能再…...

利用Taotoken统一管理多个AI项目的API密钥与访问权限

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用Taotoken统一管理多个AI项目的API密钥与访问权限 对于同时维护多个AI应用或为不同客户部署服务的开发者与团队而言&#xff0c…...

LLM在硬件断言生成中的应用与优化

1. 硬件断言生成的技术背景与挑战硬件设计验证是芯片开发流程中至关重要的环节,而断言(Assertion)作为验证的核心工具,其质量直接影响着验证的效率和可靠性。断言本质上是对设计预期行为的数学编码,用于在仿真或形式验…...

Excel数据分析工具库 vs. Python手动计算:手把手教你搞定一元线性回归的全部检验

Excel与Python双视角解析:一元线性回归的实战检验指南 当市场部的同事递给你一份用户行为数据,指着"页面停留时间"和"转化率"两列问你"这两个指标到底有没有关系"时,你会选择打开Excel的回归分析工具一键生成报…...

量子网络模拟器SeQUeNCe的并行化设计与性能优化

1. 量子网络模拟的工程挑战与SeQUeNCe的定位量子网络正逐步从理论走向工程实践,其核心价值在于利用量子纠缠特性实现传统通信无法企及的安全性和计算能力。但在实际部署前,工程师们面临一个关键问题:如何验证包含数百个量子节点的网络设计方案…...

常用命令大全

一、日常工具(最常用)calc:计算器notepad:记事本mspaint:画图工具osk:屏幕键盘write / wordpad:写字板explorer:文件资源管理器shell:recyclebinfolder:回收站shell:down…...

初创公司技术选型时为何应考虑 Taotoken 这类大模型聚合平台

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创公司技术选型时为何应考虑 Taotoken 这类大模型聚合平台 对于初创公司而言,技术栈的早期选择往往决定了未来数年的…...

QuPath 65张病理图像批量通道复制:如何通过Groovy脚本实现自动化处理

QuPath 65张病理图像批量通道复制:如何通过Groovy脚本实现自动化处理 【免费下载链接】qupath QuPath - Open-source bioimage analysis for research 项目地址: https://gitcode.com/gh_mirrors/qu/qupath 在数字病理图像分析领域,研究人员经常面…...

基于GPT-5.5构建智能问答系统的实现方案

概要GPT-5.5 是 OpenAI 于 2026 年 4 月发布的旗舰模型,Terminal-Bench 2.0 得分 82.7%,在 Agent 能力、多步骤自动化、工具调用等方面较前代有显著提升。该模型沿用 Chat Completions API 接口格式,支持文本和图像输入,具备 func…...