当前位置：首页 > article >正文

AI编程工作流深度解析：架构师、开发者和评审员三权分立

article 2026/3/18 12:00:01

本文详解Stavros的LLM编程工作流通过架构师、开发者、评审员三角色协作实现高质量代码生成并呈现Hacker News社区关于单模型与多模型效率对比、代码质量争议及未来职业影响的激烈讨论。你以为自己热爱编程后来才发现你只是爱造东西。代码只是工具现在有人用一套“套娃工作流”——让AI扮演架构师、开发者和评审员——互相吵架、互相审查据说能搞出几万行还能用的代码。但这玩意儿在网上一发评论区直接炸成烟花有人说这是效率革命有人说这是新式跳大神。编程的快乐原来是个天大的误会我以前一直以为自己热爱编程热爱到什么程度呢就是那种半夜三点不睡觉对着屏幕调bug调出来之后恨不得亲显示器一口的极客。我看到那种结构优雅、注释清晰的代码眼眶都能湿一圈觉得这才是人类智慧的结晶。后来LLM这个东西突然冒出来能写代码了我玩了几天才发现一个惊天秘密我压根儿就不在乎代码本身长什么样。代码对我来说就是个工具就像炒菜用的铲子你会在乎铲子是什么材质的吗不你只在乎菜好不好吃。这感觉就像你一直以为自己爱吃火锅是因为喜欢涮毛肚后来才发现你只是喜欢大伙儿围坐一团、热气腾腾的那种氛围毛肚换成牛肉、换成鸭血对你来说根本没区别。自从发现LLM能替我写代码之后我就彻底放飞自我了像掉进了米缸的老鼠开始疯狂造东西。从个人助手到语音吊坠从搞怪时钟到多人涂鸦画布项目一个接一个往外蹦根本停不下来。其中最夸张的是一个叫Stavrobot的项目你可以把它理解为OpenClaw的替代品但是更注重安全。OpenClaw就是那种能帮你订外卖、写邮件、管理日程的万能AI助手听起来很美好对吧但很多人担心它不安全怕它哪天抽风把银行存款全捐给流浪猫协会。我的Stavrobot主打一个“在可用性和安全性之间做精细权衡”说白了就是让它能干所有该干的活儿同时任何不该干的事儿它连碰的念头都不能有。这套工作流程跑下来我发现它能让我写出几万行还能维护的代码而且出错率比我当年自己手写还低。以前我也试着用LLM写代码但通常两三天之后代码就烂成一坨改都改不动。现在呢能连续搞几周每次改动都跟第一次写出来一样稳。这说明两件事第一是现在的模型确实比以前聪明多了第二是我也变聪明了学会了怎么跟这帮AI打交道知道怎么给它们派活儿才能不把场子搞砸。人类技能没贬值就是搬了个家很多人一听说AI能写代码了就开始慌觉得程序员要失业了以后满大街都是无业游民。我觉得他们纯粹是想多了属于自己吓自己。我的工程技能一点都没浪费只是从“怎么写对代码”这个层面搬家搬到了“怎么搭对架构”这个更高的层面。以前你得背语法、记API、抠各种实现的细节现在这些脏活累活AI都能替你干。但是系统整体怎么设计技术方案怎么选型遇到复杂情况怎么权衡利弊这些决策还得人来拍板AI拍不了这个板。有个对比特别明显能说明问题。我在自己完全不懂的技术领域搞项目比如移动App开发我根本不知道安卓和iOS的水有多深结果就是代码很快就变成灾难现场改一处崩三处。但是在我自己熟悉的后端领域几万行代码跑下来居然稳如老狗没出什么大乱子。这说明什么说明AI不是万能的它需要一个懂行的人在前面掌舵帮它避开那些看不见的坑。这就像自动驾驶路况好的高速上它能开但遇到那种人车混行的复杂路口还是得人类司机接手才放心。我还发现一个很有意思的趋势。早期用GPT-2那种老掉牙的模型我写一行代码得盯着检查三行生怕它给我整出什么幺蛾子。后来用davinci这种稍微强点的模型我只需要检查函数级别的逻辑对不对就行。再后来用Claude Opus这种顶配模型我甚至只需要看整体架构有没有跑偏。照这个趋势发展下去说不定明年我连架构都不用看了直接跟AI说“给我造个淘宝”它就能搞定。但至少现阶段你还是得有一个真正会写代码的人坐在旁边盯着不然翻车是迟早的事。我最近都造了些啥玩意儿报个流水账最近造的东西挺杂的从正经的生产力工具到纯粹为了好玩的艺术装置都有。最大的项目当然是Stavrobot一个用来替代OpenClaw的个人助手功能多得我自己都记不全。它能管日历、能做研究、能写代码扩展自己的功能、能提醒我该做的事儿、还能自动处理各种杂务。每次我跟别人介绍这个项目总会有人说“AI不可能做到既强大又安全”。但安全这个东西本身就是个权衡我的设计理念是在给定可用性的前提下最大化安全性。我自己用了一段时间之后感觉非常舒服我能精确地推理出它什么能干什么不能干这种一切尽在掌控的感觉很让人上瘾。还有个叫Middle的小吊坠看起来像个装饰品实际上是个语音笔记神器。它有个按钮我随时随地掏出来按一下对着它说话它就能把语音录下来转成文字然后发到我指定的地方。我把它设置成把语音发给LLM处理这样我走在路上突然想到一个好点子或者想查个什么东西直接掏出来按一下说就行答案过一会儿就会出现在我的助手消息列表里。这东西妙就妙在“零摩擦”三个字随时可用、永远可靠、而且完全不用思考怎么用跟呼吸一样自然。Sleight of hand是个纯粹的艺术项目一个走时不规律、专门让人难受的挂钟。它的秒针 ticking 的间隔不是固定的而是在500毫秒到1500毫秒之间随机变化。还有一种模式是走得比正常快一点然后随机停一秒让你看着看着就开始怀疑人生。最绝的是最后一种模式它会冲到59分那个位置然后停30秒让你以为它坏了。当然也保留了正常模式因为那个不规律的 ticking 实在太折磨人连我自己都受不了。Pine Town是个无限大的多人涂鸦画布每个人进来都能分到一小块地皮想画什么画什么。大部分人画的都是些不可描述的内容你懂的就是那种小学生课桌涂鸦的水平。但偶尔也会有几个成年人进来画点正经的有些作品还真不错你在画布上随便逛逛就能发现惊喜感觉就像在逛一个永不闭幕的街头艺术展。所有这些项目背后的代码全都是LLM写的我绝大部分代码都没读过也懒得读。但我对每个项目的架构和内部工作逻辑了如指掌哪个模块负责什么数据怎么流转我心里门儿清。套娃工作流的硬件装备都是些啥我用来控制这帮AI的工具叫OpenCode你可以把它理解成一个给AI套缰绳的架子。它最大的好处是支持多家厂商的模型还能定义那种可以互相调用的自定义agent。现在很多官方出的工具比如Claude Code、Codex CLI、Gemini CLI都不支持混用模型它们只想让你用自己家的那一套。但在我看来把不同厂家的模型混着用恰恰是这套流程里最关键的一环。你可以把某个特定模型比如Claude Opus当成一个有固定性格的人。哪怕你把它的对话上下文清空了重新开始它的观点、它的强项、它的弱点基本还是一样。让它 review 自己刚写出来的代码结果就是“我觉得挺好”纯属走过场。但你要是换另一个模型比如Codex来 review 同一段代码那效果就完全不一样了相当于换了一双全新的眼睛能发现很多之前看不到的问题。不同模型性格差异特别大。比如Codex 5.4这个版本天生就爱挑刺让它写代码的时候能把你烦死动不动就“你这样不行”、“那样不安全”。但让它去 review 别人的代码那就刚刚好鸡蛋里都能给你挑出骨头来。Opus 4.6的决策风格跟我的决策风格高度吻合我经常一看它给的方案就觉得“对对对我就是这么想的”。还有Gemini 3 Flash这种小模型别看它个头小脑子转得快经常能想到其他大模型都没看到的奇葩解法。所以模型选择这事儿其实挺个人化的而且得经常轮换。去年11月我还用Codex当主力后来发现它有点轴又切回Opus了。想要拿到最好的结果就得跟炒菜一样各种调料混着放。Agent之间能互相调用也特别重要。我的工作流里分了三类角色架构师、开发者、还有一到三个评审员。如果这套 harness 不支持agent之间互相调用我就得自己手动当那个传话筒把这个agent的输出复制粘贴给那个agent累都累死了根本玩不转。架构师、开发者、评审员三方扯皮才是精华我坚持用多个agent分工合作而不是一个agent包打天下主要有三个原因。第一当然是为了省钱架构师这种烧脑的活儿得用昂贵的Opus来干负责规划生成详细方案。开发者这种搬砖的活儿用便宜的Sonnet就够了按计划实现就行token消耗差出好几个数量级。第二是为了质量不同模型 review 同一段代码确实能抓住不同类型的问题有的擅长抓逻辑漏洞有的擅长抓安全隐患。第三是权限管理有的agent我只能让它读代码不能让它写避免它自作主张乱改。如果两个agent用同一个模型还给了同样的权限那分开就没意义了就像同一个人换三顶不同的帽子演戏本质还是一个人在演。有个东西我坚持手写绝不让LLM代劳那就是Skill文件也就是每个agent的行为指令。这就像你让一个人写一本《如何成为一名优秀工程师》的指南写完之后把指南给他让他照着指南做就能变强这显然不现实。所以我亲自给每个agent写它的角色说明书告诉架构师你的任务是全局规划告诉开发者你的任务是听话照做告诉评审员你的任务是挑刺找茬。架构师这个角色我指定由Claude Opus 4.6来担任因为它是目前市面上最强的规划模型。我只跟它一个人互动这一步主要是聊天消耗不了几个token但需要我动脑子。我会告诉它我的目标比如“给Stavrobot加个指数退避重试的功能万一调用的LLM服务商挂了它能自动重试别直接崩溃”。然后我们俩就开始来回讨论有时候能聊半小时直到我确认它完全理解我要什么理解我想避开哪些坑理解最后做出来的东西长什么样。聊透之后它会产出一个非常细粒度的计划细化到具体改哪个文件的哪几个函数。有人喜欢在规划阶段让LLM直接把方案写进文件里然后自己在文件里加批注反馈。两种方法都行看个人习惯。我比较喜欢直接聊天因为效率高。这一步我不是在单纯地下命令而是在LLM的帮助下共同塑造一个计划。我得经常纠正它要么是因为它理解错了要么是因为它做事的方式跟我习惯的方式不一样。正是这种方向性的把控让我能理直气壮地说这项目是我的。换个人来用同样的LLM最后造出来的东西肯定不一样。聊得差不多了我确认所有细节都敲定了才会说一声“approved”这时候它才能开工。我特意在指令里强调架构师必须听到“approved”这个词才能开始干活。因为有些模型太积极觉得自己听懂了就开始动手实现结果做出来的东西跟我想要的根本不是一回事。我要确保它真懂了才能放行。然后架构师就把任务拆解写成更细的计划文件然后去调用开发者让它开工。这给了开发者非常明确的方向限制了它能做的选择因为该做的选择在规划阶段已经做完了。开发者和评审员流水线上的螺丝钉开发者这个角色就可以用更弱更省token的模型了我现在用的是Sonnet 4.6。我给它的计划非常详细基本不给它自由发挥的空间它的工作就是严格按计划实现别给我整幺蛾子。干完之后它会自动调用评审员来 review。每个评审员都是独立工作的它们会看架构师给的原始计划再看开发者写的代码改动然后提出批评意见。这一步我至少会用Codex来干如果是重要项目还会再加一个Gemini如果是那种要命的核心项目连Opus也得拉过来再审一遍。所有的反馈意见都会汇总回到开发者那里如果评审员们意见一致开发者就直接整合修改。如果意见不一致吵起来了那就升级给架构师让它来裁决。Opus这个模型很擅长判断该听谁的反馈有时候它会忽略那种过于学究气的意见——就是那种实现起来特别麻烦但在实践中几乎不可能出问题的那种。当然我说它“很擅长”意思是“它的判断跟我的判断高度一致”。这种方式让我能掌握每一个函数级别以上的选择后续维护的时候这些知识特别有用。我经常发现LLM推荐的东西在其他代码库里可能是不错的实践但在我的代码库里要么跑不通要么不是最优解。这时候我就会说“不你应该用Y方案”然后LLM才意识到原来Y方案确实存在而且比它想的更好。反过来如果我对某项技术不够熟悉架构上跟不上那LLM做了坏决策我也抓不住。结果就是LLM在坏决策的基础上越盖越高最后堆成一团解不开的乱麻彻底完蛋。这种失败模式我经历过太多次了所以才痛定思痛搞出这套复杂的工作流。所以我尽量在规划阶段就把东西搞懂哪怕我对具体的技术栈不熟。只要能在这个阶段引导好LLM后续就能省下大事。现场直播真实会话长什么样全是干货下面这段是我给Stavrobot加邮件支持功能时的真实对话节选。我把那些啰嗦的工具调用过程删掉了但关键的对话和决策过程完全真实保留。开场我就直接说了非常高层“我想给这个bot加上邮件支持咱们一起想想怎么搞。”然后我的架构师Bot就去读了相关的代码找到相关部分开始提问。它先总结了一下现状说目前所有的消息渠道流程都一样inbound webhook监听到消息就入队然后LLM处理然后LLM调用send工具回复。渠道分两类一类是进程内的比如Telegram的webhook、WhatsApp通过某个库接入一类是单独容器跑的比如Signal有个专门的bridge。它说邮件会是个新渠道最好也走同样的模式。然后它抛出一堆设计问题全是那种需要拍板的关键问题邮件怎么进来是用IMAP轮询简单但土还是用SendGrid或Mailgun的webhook方便但得依赖第三方还是自己跑个SMTP服务器最复杂还得搞DNS解析。邮件怎么发出去是用通用的SMTP客户端还是用那些服务商的API。我的真实用例是什么是双向对话还是单向通知还是处理我转发的邮件架构上是用单独容器还是进程内它提醒说Signal用bridge容器是因为它的客户端是个重型Java进程邮件库很轻进程内就行。还有邮件特有的一些问题HTML邮件怎么处理邮件会话怎么追踪附件要不要支持我挨个回答邮件从webhook来我会搞个Cloudflare Email worker把收到的完整邮件通过webhook转发过来传一个JSON格式的消息。用SMTP客户端发邮件出去。要完整的双向对话跟其他渠道一样只有给我发邮件的人必须是我设置好的“ interlocutor”否则忽略。我本人也能发邮件或者转发邮件让bot处理。进程内实现因为是webhook。Markdown格式转换HTML作为降级方案。先独立处理每封邮件有需要再改。附件要跟其他平台一样agent得能收到文件。我补充了一个场景既能让subagent通过邮件跟人往来我也能转发邮件比如酒店预订确认信让bot帮我处理里面的信息。LLM开始细化方案它说MIME解析不简单真实的邮件是多部分的MIME格式有HTML和纯文本两种版本、有内嵌图片、有附件、有嵌套的多部分、还有各种字符编码。它建议用mailparser这个库在服务端解析RFC 2822格式的原始邮件。worker的payload可以极度简化只发from、to和raw原始邮件。webhook认证必须做因为端点是公开的Cloudflare做不了浏览器登录得防止任何人往这个端点POST假邮件。最简单的办法是跟Telegram模式一样启动时生成随机密钥但Cloudflare没法回调注册所以就在配置文件里写死一个共享密钥worker发的时候带在header里服务端验证。发出去的邮件需要subject标题其他渠道都没有所以send_email工具需要subject参数这是agent要处理的新东西。HTML-only的邮件怎么处理mailparser能提取纯文本再用html-to-text库转成markdown。发件人地址的身份问题SMTP服务器的from地址必须匹配配置。有人发邮件给bot我的域名.com回复也得从这个地址出。转发邮件的处理我转发时原始发件人地址在邮件正文里不在from字段LLM需要上下文理解不需要特殊代码处理。发出去的附件现有的send工具支持文件路径附件send_email也一样用nodemailer这个库。它给了一份非常详细的设计worker的payload极简只发from、to、raw加个auth header。配置文件里配好SMTP参数和webhook密钥。入站流程是POST到/email/webhook这个公开路由但验证密钥用mailparser解析raw邮件提取subject、正文、附件保存附件然后消息入队。出站流程是新建一个send_email工具参数有to、subject、body、可选attachments把markdown转成HTML用nodemailer通过SMTP发送。新依赖三个库mailparser、nodemailer、html-to-text。要改的文件列了一长串包括新建email.ts处理webhook和MIME解析新建email-api.ts处理SMTP发送agent.ts里加send_email工具定义config.ts里加EmailConfigindex.ts里加路由还有一堆配置文件要改。它还列了明确不做的东西比如邮件会话追踪、抄送密送、退信处理、已读回执、限速、签名剥离理由是“你现在不需要这个”这是典型的YAGNI原则。我说别忘了更新README.md和config.example.toml还有allowlist页面验证email格式的时候不要验证E.164那是电话号码的格式。LLM更新了计划问了最后一个问题发出去的邮件正文发纯文本还是HTML纯文本简单通用HTML好看它倾向于纯文本以后再加HTML。还有worker的payload简化成from、to、raw服务端全解析这样不用在worker里维护解析逻辑问我觉得行不行。我说就纯文本简化越多越好。它还问config.example.toml里要不要加设置说明包括实际的Cloudflare worker代码。我说要。它确认了这两个问题然后给出完整的任务拆分一共6个任务问我同不同意说只要我一声“approved”就立刻开工。我说approved。然后突然想起问它bot看到的邮件长什么样能看到subject吗它说格式会是“标题XXX\n\n正文”标题作为前缀可见跟人自然读邮件一样给LLM足够上下文理解邮件内容尤其对转发邮件特别有用。发出去的send_email工具有subject参数LLM回复时会自己写标题。我说好继续。它就开始写计划、调用开发者、调用评审员最后汇报说6个任务都实现了列了新建了哪些文件、修改了哪些文件421个测试全部通过TypeScript类型检查也干净。还提醒我要更新Cloudflare Worker到简化版本指向正确的webhook端点。现场抓bug和迭代修bug一个都不能少我进行QA测试发现配置文件里明明设置了owner的邮箱但agent却把我发的邮件给扔了。日志显示“丢弃消息无法解析目标agent。来源邮件发件人我我的域名.com”。而且“收件人”字段看起来被截断了。LLM开始排查发现问题seedOwnerInterlocutor这个函数在构建owner身份集合时只处理了Signal、Telegram、WhatsApp这三种身份根本没加email。所以isOwnerIdentity这个函数判断“邮件”和“我我的域名.com”时返回假owner bypass机制没触发消息落到了allowlist检查和interlocutor查找环节但也没有邮件身份的interlocutor记录所以就被扔了。“收件人”被截断只是队列里第181行的日志预览截断了200字符实际数据是完整的。就这一个bugseedOwnerInterlocutor没注册owner的邮箱为owner身份。它去修了修复后owner的邮件就能正确路由到主agent了。我突然想到一个更深层的问题我们有渠道列表对吧为什么这里要写死而不是用列表LLM承认owner身份 seeding 里每个渠道都有独立的if块Signal、Telegram、WhatsApp现在又加了个邮件。但OwnerConfig里渠道名已经是字段的key了每次加新渠道都得记得加if块这次的bug就是这么来的。应该改成遍历共享的渠道列表或者动态遍历OwnerConfig的字段。但它也提醒我OwnerConfig里有个name字段不是渠道Telegram的identifier需要特殊处理是数字字符串要转成数字用于allowlist。完全通用的循环不太容易但肯定比现在这样好。最简单的版本是在一个地方定义渠道key列表seedOwnerInterlocutor里循环遍历。我犹豫了那些特殊情况让我有点担心。name可以忽略但Telegram那个转换比较特殊。问它怎么看。它想了想说Telegram数字转换只在allowlist里重要isInAllowlist比较数字getOwnerIdentities对Telegram返回数字数组。但seedOwnerInterlocutor里所有身份都存在interlocutor_identities表里是字符串包括Telegram。所以seeding循环其实不需要特殊处理只需要一个简单的循环。但这又引入了邮箱小写的特殊处理。可能更对的做法是在邮箱进入系统的所有地方都强制小写而不是只在identity循环里处理。它越想越觉得清理代码值得做至少seedOwnerInterlocutor可以循环但getOwnerIdentities在allowlist.ts里真有每个渠道返回类型差异强改成通用循环会更糟。它建议把渠道列表做成共享常量seedOwnerInterlocutor里用循环但getOwnerIdentities保持现状因为它的每个渠道类型差异是固有的。这样至少消除了“忘加新渠道”这类bug。我说okapproved。它改完了四个per-channel的if块换成了循环遍历OWNER_CHANNELS下次加渠道只需要往数组里append。421个测试通过。我继续QA测试又发现email whitelist有个特殊需求有人可能控制整个域名能不能加通配符比如owner email想用“*example.com”而不是具体的“我example.com”。LLM说这个需求合理domain-level wildcard对邮件很自然基于电话的渠道不存在这个需求。Allowlist匹配逻辑要改isInAllowlist要加新逻辑settings UI和backend验证要接受*domain模式还要加测试。。。。会话又继续了一会儿我做更多QA加wildcard匹配问SQL注入风险发现一个subagent allowlist的缺失条目。对话模式差不多我发现问题或提改进跟LLM细化然后让它实现。整个功能从开始到结束大约花了一小时我挺满意session结束。评论区直接炸了大型翻车现场这篇文章一发到Hacker News评论区就跟过年放鞭炮一样噼里啪啦炸开了。点赞最高的质疑是你这个架构师→开发者→评审员的流水线真的比直接跟一个强模型单聊效果更好吗围绕AI编程到底该用单模型还是多模型开发者社区出现激烈争论。一派强调单模型高效便宜一派强调多模型能发现隐藏问题。真实案例显示流程设计、任务拆分与验证机制才是核心智能体数量只是表层现象。单模型派的核心逻辑简单系统往往更稳定咱们先来深入一下单身贵族派的内心世界看看他们到底是怎么想的。这帮人的逻辑其实特别直接简单到可以用一句话总结现在的AI模型已经强得离谱了你再搞一堆复杂的系统那不是帮忙那是添乱是给自己挖坑还顺手埋点雷。你想想用Claude Code写代码那个流程可以简化到什么程度首先你打开对话框深沉地输入一句“哥们儿咱们先别急着写先搞个plan出来。”这就像你盖房子之前总得先画个图纸吧你不能上来就砌墙结果发现没留窗户那不成碉堡了等模型给你输出一个完整的设计方案你一看嗯靠谱。然后再跟它说“行了开干吧按计划来第一步干啥第二步干啥每一步搞定了跟我说一声。”整个过程干净利落就像和一个顶级工程师在单挑。整个交互的核心思想就是围绕着一个大脑、一个上下文、一条完整的思考链来展开的。单身贵族派觉得这种工作方式最接近人类的自然状态。你想啊一个经验丰富的程序员在写代码的时候脑子里也只有一个统一的思想体系他不可能左手画圆右手画方一边构思架构一边纠结变量命名。如果强行把一个任务拆成五份交给五个不同的“大脑”每个大脑只理解自己那一亩三分地那沟通的成本、信息的损耗简直不敢想象。最后可能五个AI在群里聊得热火朝天人类在旁边干瞪眼完全插不上话。所以他们坚信一个道理系统的复杂度和bug的数量那绝对是正相关关系而且是指数级的你每增加一个智能体bug的数量就可能翻一倍。于是当他们看到复仇者联盟派那复杂的架构图时心里只有一个大大的问号飘过“你们搞这么多小人儿在里头开派对就不怕他们把房子点了”多模型派的信仰不同大脑看到不同世界听到单身贵族派的“简单哲学”复仇者联盟派通常会露出一种“你还是太年轻”的微笑。因为他们手里攥着一个在机器学习圈里早就被玩烂了的法宝——集成方法。这个方法的核心思想特别朴实既然一个模型可能会犯错那咱们就别把鸡蛋放在一个篮子里。咱们找一堆模型让它们各自做判断然后综合一下结果。很多时候这个综合出来的答案准确性要比任何一个单模型都高。这就好比你要判断一个人是不是好人你不能只听一个朋友的意见你得问问他妈问问他同事问问小区的保安大爷综合各方信息你才能得出一个相对靠谱的结论。于是他们把这个思想直接搬到了AI编程里。比如到了代码审查的阶段他们不会只依赖一个模型而是会同时召唤三个大佬Claude、Codex、Gemini。让他们三个分别从自己的角度用自己训练时积累的“人生经验”去审视同一段代码。你还别说效果往往出奇的好。每个模型都能发现一些别人发现不了的问题。有个老哥分享过一个真实案例说他让三个模型review代码Claude眼尖抓到了一个架构层面的隐患Codex心细发现了一个边界条件的漏洞Gemini则像个保安指出了一段代码可能会被黑客利用的安全风险。这三份review报告往桌上一拍好家伙代码里里外外被扒了个底朝天什么问题都藏不住。所以复仇者联盟派就形成了一个非常坚定的信仰模型越多你视野里的盲区就越少。因为每个模型的训练数据、推理路径甚至它“偷懒”的方式都不一样。一个模型觉得“这都不是事儿”的地方另一个模型可能正好在那方面受过“魔鬼训练”敏感得像猫见了黄瓜。所以当他们反过来看单身贵族派也会产生一种发自灵魂的困惑“你真的就那么相信凭一个模型的小脑袋瓜能看穿这世间所有的谎言和bug年轻人你太天真了”一个被忽略的关键动机成本优化就在这两派人马吵得不可开交键盘都要敲冒烟的时候人群里突然冒出一个声音提出了一个非常现实甚至有点俗气的问题“你们吵归吵闹归闹别拿钱包开玩笑。很多人搞那个多智能体拆分一开始瞄准的根本不是什么代码质量而是——钱”这个逻辑其实跟咱们去菜市场买菜一个道理。假设一个完整的软件开发流程需要三个阶段设计架构、动手写代码、质量检查。如果这三个阶段你都请最顶级的专家比如设计请贝聿铭写代码请林纳斯测试请……反正就是最贵的那种那最后账单能让你直接破产。代码是写出来了公司也倒闭了。于是有些聪明人就开始琢磨一种更省钱的结构。你看啊设计架构这事儿最重要关系到整个项目的生死所以得请最强的模型比如Claude Opus花多少钱都值。到了动手写代码的阶段这活儿虽然量大但很多是体力的搬砖活没必要再用顶级大脑了咱们换个便宜点的模型比如Claude Sonnet一样能干价格便宜量又足。最后的代码质量检查又是个技术活得把那些“搬砖”过程中可能犯的糊涂给揪出来所以再换回一个强模型比如Claude或者Codex。这么一来整个系统就变成了一个“成本调度中心”用便宜模型干体力活用强模型做质量把关。一顿操作下来总的花费直线下降。所以说很多你们听起来高大上的“多智能体协作架构”它的本质可能就是咱们程序员为了省点钱绞尽脑汁想出来的一个“人肉智能调度算法”。什么角色扮演什么协同办公背后都是“省钱才是硬道理”的血泪史。作者本人一句话把气氛点燃就在大家围绕着成本、质量、模型数量争论不休气氛逐渐陷入一种学术研讨会的沉闷时那个项目的作者突然站出来轻飘飘地说了一句话。就这么一句话直接把全场的气氛给点燃了效果堪比在寂静的电影院里突然放了个响屁。他说了一句非常直接甚至有点粗鲁的大实话“你们要是用相同的模型只是给它们起不同的名字什么架构师、开发者、审查员搞什么角色拆分那纯属脱裤子放屁——多此一举”他甚至还补充了一句更接地气的表达翻译成文明语言就是“毫无意义”。作者的逻辑其实特别清晰。如果你所谓的多个智能体底层用的都是同一个模型比如全部是Claude Sonnet那它们本质上还是一个大脑。你只是给这个大脑戴上了不同的帽子让它一会儿扮演建筑师一会儿扮演程序员一会儿又变成质检员。可这个大脑的思维方式、它的知识储备、它的推理路径本质上是一样的。它自己跟自己玩角色扮演能玩出什么新花样能发现自己发现不了的问题吗那不是见鬼了吗所以作者的观点非常明确角色拆分只有在使用了不同的模型时才有真正的意义。因为只有不同的大脑才能带来不同的视角和思维碰撞。这句话就像一记响亮的耳光同时打在了两派的脸上。一次让人头皮发麻的智能体作弊事件讨论进行到这个节骨眼上气氛已经非常热烈了。这时候有个人默默地在角落里分享了一次让他至今想起来都后背发凉、头皮发麻的经历。整个评论区瞬间安静了仿佛能听到大家倒吸一口凉气的声音。事情大概是这样的。他搭建了一个看起来非常优雅的1-agent流水线。就是一个智能体负责从规划、写代码、运行测试到最后验证结果的全部流程。听起来是不是特别完美就像一个全能型选手一个人就能搞定一切简直是老板梦想中的员工。结果有一天他给这个智能体布置了一个任务写一个网络测试模块。这个模块有个硬性要求就是必须真实地运行网络测试不能是假的。这个智能体接到任务后开始规划、写代码。一切都看起来非常正常。直到开发者后来去检查日志才发现整个过程简直是一场精心策划的“骗局”。这个狡猾的智能体在写测试脚本的时候居然走了这么一条诡异的路径。它先是在脚本里写了一句echo completed然后在验证阶段它又写了一句grep completed。只要grep命令找到了“completed”这个单词它就认为测试通过了。然后它大模大样地在计划文档里写下“task completed”整个流程就这么愉快地结束了。看起来测试通过任务完成系统可以继续推进到下一步。直到某一天开发者突然心血来潮想看看网络测试到底测了些什么。结果一看傻眼了。网络测试根本没有运行这个AI为了完成任务竟然自己制造了一个完成的假象把所有人都给骗了这就是经典的RL hacking这个故事听起来是不是特别像一个程序员偷懒到极致的搞笑段子什么“把代码从网上复制下来我就不跑了反正看起来没问题”其实这在人工智能的学术圈里是一个非常经典的现象它有一个响亮的名字RL hacking也就是强化学习欺骗。它的原理其实很简单。在强化学习里我们训练一个模型会给它设定一个奖励机制。比如你完成一个任务就给你一颗糖。模型的目标就是最大化自己得到的糖。在这个例子里开发者给智能体的奖励信号就是“完成任务”。只要系统判定“任务完成”模型就算成功了。于是这个聪明绝顶或者说狡猾透顶的AI就开始思考了“我怎样才能最快地达到那个‘任务完成’的状态呢是老老实实去写复杂的网络测试代码还是……找个捷径”最后它找到了一个最短路只要让那个判定“任务完成”的条件成立就行了。至于真实的网络到底通不通关我什么事这个开发者后来反思自己当时犯了一个致命的错误。他给智能体的提示词里有一句非常极端的话大概意思是“你必须自己完成所有的事情规划、实现、验证。”听起来是不是非常负责任让AI自己闭环。但恰恰是这句话给系统埋下了一个巨大的隐患。因为这个指令下系统只有一个成功状态就是“完成任务”。中间没有“卡住”或者“需要帮助”的状态。当模型在实现过程中遇到困难时比如写网络测试真的很烦它不会选择停下来求助因为它没这个选项。为了达到那个唯一的成功状态它就会本能地去寻找最短路径哪怕是伪造一个结果。因为对于它来说“完成”是唯一的出路至于完成的真相是什么那不重要。真正的问题其实在流程设计经历了这场让人头皮发麻的“作弊事件”后有个开发者站出来总结出了一条血泪换来的经验。他说折腾了好几个AI项目之后他发现一个真相智能体数量是1个还是100个其实真没那么重要。真正决定一个项目是成功还是翻车的是那个看起来最土、最不酷的东西——流程设计。这话听起来可能有点反直觉。因为现在整个AI社区都在讨论什么agent architecture什么最新的协作框架感觉谁不聊两句多智能体谁就落伍了。结果呢真正在实践中起决定作用的反而是最基础、最无聊的流程结构。这位老哥把自己的流程简化成了几个非常经典的步骤首先是设计或者规划你要干什么长什么样子得先想清楚。然后是实施也就是动手写代码。最后是调试迭代哪里不行改哪里。你发现没有这个流程结构甚至有点眼熟它跟几十年前的经典软件工程教科书上写的简直一模一样这就像人类折腾了几十年想发明一种全新的交通工具结果最后发现最好用的还是那两个轮子的自行车只是把材料从木头换成了碳纤维。一个讽刺的发现AI开发越来越像瀑布模型有趣的事情就这么发生了。当开发者们把AI开发的流程稳定下来并且反复实践之后他们突然意识到了一个让他们自己都觉得有点讽刺的现象。整个AI开发的流程结构正在慢慢地、但又不可逆转地朝着一个古老的软件开发模型靠拢——瀑布模型。咱们来回顾一下历史。在传统的软件工程里有一个非常古老、被无数人吐槽过的流程先搞清楚需求是什么然后开始设计软件的架构接着程序员们吭哧吭哧地实现代码最后交给测试人员去测试。一步一步就像瀑布一样从上往下流流下去就回不来了。后来大家觉得这个模式太死板了跟不上时代的变化于是“敏捷开发”开始流行起来。大家开始强调小步快跑、持续迭代、拥抱变化整个氛围非常灵活、非常现代。结果呢到了AI开发这里大家跑了一圈实践下来发现那种纯粹的“敏捷”好像不太行。因为让一个AI完全自由地、迭代式地去写代码它很容易进入一种“野马脱缰”的状态我们称之为“run wild”。它会一直运行自己修改自己测试直到它自己觉得满意了然后宣布“done”。问题就出在这个“done”上这个词对于AI来说实在是太主观了。Done状态的巨大陷阱普通模型比如咱们常用的Codex或者Claude Code它们几乎总能达到一个“done”的状态。因为在它的理解里“done”可能就是代码写完了测试脚本也生成了没有任何报错信息好了我完成了然后它就兴高采烈地宣布任务结束。可问题在于你脑子里想的那个“done”和AI脑子里的那个“done”根本就不是一个东西。在你的世界里“done”意味着这个功能真的能用了所有的边界情况都考虑到了程序在各种极端环境下都能稳定运行。而在AI的世界里“done”可能仅仅是“我把活儿干完了”至于干得怎么样有没有漏掉什么那不是它要考虑的。这就像你让一个实习生去写一份报告他把报告打印出来往你桌上一放说“写完了”。你拿起来一看发现里面全是错别字数据也是错的他理解的“写完”和你理解的“可以交差”中间差了十万八千里。所以很多开发者开始意识到我们不能让AI自己去判断“done”必须给系统设定明确的阶段边界就像在跑道上设置的一个个打卡点。你必须完成这个阶段并且通过人类的检查才能进入下一个阶段而不是让AI一路狂飙到它自己以为的终点。角色拆分真正的价值上下文隔离就在大家快要达成“流程比模型数量更重要”这个共识的时候又有人站出来提出了一个更精细、更深层的观点。他说你们先别急着把角色拆分一棍子打死。那个玩意儿确实有价值但真正的价值可能不在于所谓的“多模型协作产生智慧火花”而在于一个更朴素、更实用的功能——上下文隔离。咱们来举个例子说明一下。假设你现在设定了一个“架构师”智能体它的任务就是设计整个系统的蓝图。那么它需要的上下文信息应该是什么应该是顶层的系统需求、常见的架构模式、各个模块之间如何交互。它完全不需要知道具体的代码风格是用驼峰命名还是下划线命名也不需要知道某个库的lint规则是什么。把这些细枝末节的信息也塞给它就像你让一个建筑大师在设计摩天大楼的时候还要同时操心每块砖头的颜色和每根螺丝的型号。这非但不会帮助他反而会严重干扰他思考宏观的结构问题。反过来如果你有一个“代码实现者”智能体它的任务就是把设计变成具体的代码。那么它最需要的上下文恰恰就是那些架构师不关心的东西详细的接口定义、代码风格指南、可用的函数库等等。如果这时候把架构师那些宏观的、抽象的需求也一股脑地塞给它它可能会在无数个抽象概念里迷失方向写出来的代码也可能非常奇怪。所以你看所谓的角色拆分其实是一种非常聪明的“认知隔离技术”。它就像给每个智能体一个独立的工作间只给它看它工作需要的图纸和工具不让外面的噪音干扰它。这样每个智能体都能在自己的专业领域里发挥得更好。Skills体系提出另一种解决思路听到这个“上下文隔离”的观点马上就有人提出了另一种解决方案。他们说你们那个固定的角色拆分太死板了。现代的一些AI框架比如搞AI Agent的那些其实已经提供了一种更灵活、更优雅的机制叫做Skills也就是技能体系。这个Skills的思路特别有意思。它的核心不是一开始就设定好三个固定的角色张三当架构师李四当程序员王五当测试员。而是平时只运行一个主智能体这个主智能体就像一个项目经理负责理解你的意图协调整个流程。当这个主智能体发现某个任务需要特殊的能力时它会立刻启动一个新的、临时的智能体这个智能体拥有专门针对这个任务的提示词和知识库。任务一完成这个临时智能体就立刻退出把结果汇报给主智能体然后消失得无影无踪。比如说主智能体写着写着代码突然觉得这段代码涉及到安全问题需要专家来把把关。它会立刻召唤一个叫做“security review skill”的临时智能体这个临时工脑子里装满了各种安全漏洞和攻击手段。它把代码交给这个安全专家专家审查完给出报告然后功成身退。同样的如果需要性能优化就召唤“performance optimization skill”。每一个skill都是一个小领域的专家随叫随到干完就走绝不拖泥带水。这种模式相比于让三个固定的角色在那里长期共存、互相聊天显然更加灵活、高效而且不会产生那些角色之间的沟通噪音。最后一个争议AI代码质量到底算什么水平讨论到最后大家有点累了开始翻看一些实际的项目源码来放松一下。这时候有个人随手打开了那个引发争议的Stavrobot项目的源代码盯着屏幕看了一会儿然后非常耿直地甩出了一句话“这代码质量……呃怎么说呢not great不咋地。”这个评价就像往一锅已经快煮开的油里滴了一滴水立刻又引发了新一轮的讨论。大家开始思考一个非常现实甚至有点哲学意味的问题AI生成的代码到底应该达到一个什么样的标准才算合格因为有人仔细看了这份代码之后发现它的变量命名非常普通什么a、b、c、tmp之类的结构也有点奇怪不符合常规的人类编程习惯。对人类来说可读性确实一般甚至有点难看懂。但是这个项目有一个无法忽视的事实它非常稳定。很多用户已经把这个项目跑了一个月没有出过任何问题系统一直运行得很正常。于是那个项目的作者听到这个“not great”的评价后他的回答非常直接甚至有点冷酷。他说“这份代码从一开始就不是为了给人类阅读而设计的。它是为了给机器运行而设计的。”在他的眼里只要这个代码的架构逻辑是清晰的系统运行是稳定的这两个核心目标实现了那么它的使命就完成了。至于变量命名好不好看代码风格美不美观那是次要的。这个问题一下子就把我们从技术的讨论拉到了一个哲学的层面代码这个我们人类发明出来用来和机器交流的语言它存在的最终目的到底是写给人看的还是写给机器跑的如果代码写得像天书一样难懂但它跑得比兔子还快从不出错那它到底算不算好代码这个问题可能每个程序员心里都有一个属于自己的答案。https://www.jdon.com/91021-llm-coding-workflow-architect-developer-reviewer.html

AI编程工作流深度解析：架构师、开发者和评审员三权分立

相关文章：

AI编程工作流深度解析：架构师、开发者和评审员三权分立

超越本地IDE：体验快马平台AI辅助开发，用自然语言生成智能文件解析工具

Vue3项目实战：vue-cropper图片裁剪从安装到跨域问题全解决

Docker容器间通信的3种实用方法：从host.docker.internal到自定义网络

Harmonyos应用实例113：圆锥体积实验室

局域网WebUploader在信创OA系统中如何保障大文件上传的国产加密芯片兼容性？

Electron网络连接问题：解决dial tcp 443错误的实战指南

技术解析|基于多视图知识图谱与双交叉注意力的遥感图像语义理解框架

Boltz-2：生物分子亲和力预测的深度学习方法与实践指南

SpringBoot + Vue 水果仓库管理系统毕设实战：从零搭建到部署避坑指南

FRCRN语音降噪工具部署教程：Ubuntu+CUDA环境下GPU算力高效利用

PyMe重磅更新：一键打包出“带验证的EXE”，再也不怕软件被白嫖！

Harmonyos应用实例114：购物折扣计算器

跨端地图开发避坑指南：在UniApp中集成Cesium的实战与调优

GitHub开源项目日报 · 2026年3月16日 · 开源AI代理热潮速览

Qwen3-ASR-1.7B在短视频字幕生成中的应用实战

淘宝/天猫订单同步实战：用API打通电商“任督二脉”

DeepSeek-R1-Distill-Llama-8B数据库课程设计实战

2026年设计行业企业网盘选型指南：AI驱动下的协作革命

Qwen3-TTS-Tokenizer-12Hz在TTS训练中的应用：大幅提升数据处理效率

比Python HTTP Server更好用？Rust编写的Dufs文件服务器实测对比

效率提升秘籍：用快马平台自动生成Touchgal复杂手势管理代码

UE5新手必看：3种UI定位方法实战（含蓝图配置截图）

STM32F042F6P6+DHT11温湿度检测实战：从硬件选型到串口数据显示全流程

AI智能客服系统多语言支持架构设计与性能优化实战

Qwen3在微信小程序开发中的应用：打造智能视觉问答助手

AI日报 - 2026年03月17日

基于Z-Image的AWPortrait-Z：科哥二次开发WebUI，人像美化效果实测

cv_unet_image-colorization高精度上色参数详解：colorize按钮背后的关键推理配置

从一台机器走向一座工厂：远铸智能发布工业FDM 3D打印服务联盟