当前位置: 首页 > article >正文

AI开发烂尾病有救了!Anthropic推出Harness多Agent框架

Anthropic 把 GAN 的思路搬过来搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner 导演规划Generator 演员干活Evaluator 影评人挑毛病。你有没有过这种经历兴冲冲地打开 AI想让它帮你写个小工具、做个小应用。一开始 AI 写得飞快界面出来了基础功能也有了你还在感叹 AI 真牛解放生产力。结果写着写着不对劲了AI 开始忘事了之前说好的功能它忘了做 写出来的代码越来越乱之前的 bug 没改完又出新问题 你问它做完了吗它一脸无辜地说“我完成了呀所有功能都实现了”结果你一跑点啥都没反应整个项目直接烂尾。咖啡喝了三杯夜熬到两点最后还是得自己上手擦屁股。谁懂啊原来不是 AI 不行是你没找对方法Anthropic 官方搞出来的这个 Harness 多 Agent 框架直接把 AI 开发的烂尾病给治好了甚至能让 AI 自己花 4 小时搞定一个复杂的全栈应用今天就把这个官方干货给你扒透了看完你也能让 AI 从 “摆烂菜鸡” 变成 “全栈大佬”。谁懂啊用 AI 写代码越写越烂尾我之前踩过一个巨坑让 AI 帮我做个浏览器里的小游戏。一开始 AI 咔咔写半小时就把界面搭好了我还美滋滋地想这下不用自己写代码了。结果过了两小时我发现不对AI 写的按钮点了没反应 之前说好的角色移动功能完全没做 我问它“你是不是漏了功能” 它说“没有呀我都写完了你看代码逻辑没问题的。”我一看代码好家伙它把移动的函数写了但是根本没绑定到按键上它自己看自己的代码觉得完美但是实际跑起来根本用不了。最后这个项目就这么烂尾了。后来我才知道不止我一个人踩这个坑Anthropic 的工程团队做了大量的测试发现只要让 AI 单独做长时间的复杂任务几乎都会烂尾。为什么因为裸 AI 就像一个刚毕业的实习生你直接扔给他一个 “帮我盖个房子” 的需求他一开始干的挺好但是干着干着就忘了之前的设计图重复干活甚至卡住了都不知道。而 Harness就是给这个实习生配了个完整的项目管理团队帮他分工、帮他检查、帮他校准方向让他能踏踏实实把活干完。原来 AI 也会 “失忆” 和 “自嗨”Anthropic 发现AI 做复杂任务的时候有两个绕不开的毛病就像人一样第一个毛病AI 也会 “失忆” 和 “焦虑”你有没有过开会记笔记白板写满了前面的字看不清了然后你就开始着急怕后面的内容写不下赶紧潦草收尾AI 也一样它的上下文窗口就像那个白板对话越长写的东西越多白板就越满。等到快满的时候AI 就会开始 “上下文焦虑”—— 明明任务还没做完它就开始着急收尾质量直接跳水甚至把前面的内容都忘了。之前大家想的办法是压缩把前面的内容缩成摘要但是没用焦虑还是存在白板还是满的。Harness 的办法是什么接力赛跑跑一段就把接力棒交给下一个人前面的人跑完就下场下一个人拿着干净的白板拿着交接文档继续跑。这样每个人都有全新的上下文不会有焦虑也不会忘事。第二个毛病AI 也会 “自嗨”自己夸自己你有没有见过厨师尝自己做的菜怎么吃都觉得好吃盐放多了他都觉得刚好。但是美食评论家一尝就能挑出一堆毛病。AI 也一样你让它自己评估自己写的代码、做的设计它几乎永远会夸自己“我做的太好了完美”哪怕在我们看来这东西一堆 bug设计丑的要死它都觉得没问题。这就是自我评估偏差LLM 天生就喜欢夸自己因为训练的时候它学的就是友好的回应模式。那怎么办很简单别让它自己评自己找个独立的 “美食评论家”专门来挑它的毛病Anthropic 发现调教一个独立的评估器让它变严格比让生成器对自己的工作保持批判性容易太多了把 GAN 的思路搬过来AI 也能组 “打工天团”搞懂了这两个毛病Anthropic 直接把 GAN 的思路搬过来了你知道 GAN 吗就是造假者和鉴定师造假的不断提高技术鉴定的不断提高眼光最后造假的能做出以假乱真的东西。Harness 就是这个思路搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner导演管规划就像电影里的导演你跟他说 “我要拍个爱情片”他不会直接让演员去演而是会把你的一句话需求变成详细的剧本分镜头甚至把整个拍摄分成好几个阶段每个阶段要拍什么验收标准是什么都写的明明白白。比如你说 “帮我做个游戏制作工具”Planner 直接给你拆成 16 个功能10 个开发阶段甚至连精灵动画、音效、AI 辅助这些你都没想到的功能都给你规划进去了。Generator演员管干活就是那个实际干活的就像演员拿着导演的剧本按要求把内容拍出来写代码、做设计都是它的活。当然它也会犯错也会漏功能没关系后面有人管它。Evaluator影评人挑挑毛病就是那个严格的影评人演员拍完一段他就过来审片按之前说好的标准一条一条检查有没有漏功能有没有 bug设计好不好看发现问题了就写个详细的 bug 报告告诉 Generator“你这里不对这里要改”然后 Generator 就去改改完再给它查直到没问题了再进入下一个阶段。你看这不就是一个完整的团队吗导演管规划演员管干活影评人管质量三个人配合比一个人闷头干强一万倍终于治好了 “AI 味” 设计原来美也能打分之前我最烦的就是 AI 做的设计千篇一律的紫色渐变 白色卡片就是那种 “能看但是毫无灵魂” 的食堂味就像烹饪机器人做的菜能吃但是没有创意。Anthropic 之前也遇到这个问题Claude 默认做得设计永远都是安全、平淡没有个性。那怎么让 AI 做出好看的设计他们搞了个神操作把 “美不美” 这个主观的问题变成了可量化的打分标准他们定了四个评分维度不管是生成设计的 Generator还是评估设计的 Evaluator都按这个标准来设计质量整个设计是不是连贯的色彩排版有没有情感原创性有没有自己的设计重点是紫色渐变 白色卡片不合格工艺排版、间距、色彩是不是和谐功能性用户能不能看懂能不能用你别说这招太管用了Generator 知道自己会被这么打分就不敢再做那种千篇一律的模板了Evaluator 就按这个标准一条一条挑毛病然后反馈给 Generator让它改。迭代了几轮之后AI 居然能做出什么水平的设计有个案例他们让 AI 做荷兰艺术博物馆的网站迭代到第 10 轮的时候AI 直接把整个网站重做了做成了一个 3D 的画廊用 CSS 做了透视画作挂在墙上你能在不同的房间之间导航就像真的逛博物馆一样这种创意之前单次生成根本做不出来就是靠这个反馈循环AI 才敢跳出自己的舒适区做出真正有创意的东西。4 小时搞定全栈应用AI 自己当产品 开发 QA添加图片注释不超过 140 字可选搞定了设计Anthropic 把这个架构直接扩展到了全栈开发结果惊到我了他们做了个测试同一个需求“帮我做个浏览器里的游戏制作工具”分别用单 Agent 和 Harness 来做结果天差地别。单 Agent 版烂尾预定直接让一个 AI 从头到尾干没有规划没有评估结果呢布局乱的要死大量的空白空间操作逻辑混乱用户根本不知道该干嘛游戏完全跑不起来实体点了没反应还一脸无辜地说我做完了呀Harness 版直接出成品用了完整的三个 Agent结果呢界面布局合理用了全部的视口有统一的设计风格看起来就像专业做的功能完整不仅有编辑器还内置了 AI能帮你生成精灵、设计关卡游戏真的能玩能移动实体能交互怎么做到的其实就是把我们人类开发的流程完全复刻到了 AI 身上Planner 先当产品经理把需求拆成 10 个 Sprint每个 Sprint 都有详细的验收标准比如 “矩形填充工具要能拖拽填充”、“删除键要能删掉选中的实体”光一个 Sprint 就有 27 个验收标准然后 Generator 当开发按标准写代码写完一个 Sprint就交给 EvaluatorEvaluator 当 QA用 Playwright 实际打开这个应用点按钮、填表单真的测不是看代码是实际跑发现 bug 了就写个详细的报告精确到哪个文件哪一行比如 “LevelEditor.tsx 的 892 行删除键的判断有问题”然后 Generator 就去改改到过了测试再进下一个 Sprint。你看这不就是我们人类开发的流程吗产品、开发、QA一个都不少只不过现在这三个角色全都是 AI模型变强了框架也要 “减肥”你以为 Harness 就是一成不变的不对Anthropic 说Harness 就像小孩的学步车。小孩刚学走路的时候你要给他学步车、护膝、头盔帮他稳住别摔倒。但是等小孩长大了能自己走了这些辅助工具就没用了你还给他用反而限制他。AI 模型也是一样越来越强原来需要的那些辅助慢慢就不需要了。比如 Claude Opus 4.6 出来之后能力比之前强太多了能自己干更长时间的活不会跑偏能处理更大的代码库。那原来的 Harness那些复杂的 Sprint 分解、每个 Sprint 都要评估是不是就没用了Anthropic 做了个消融实验就像拆炸弹一次拆一个组件看哪个有用哪个没用他们把 Sprint 结构拆了发现没问题Opus 4.6 能自己连续干 2 小时的活不需要拆成小块了他们把 Evaluator 从每个 Sprint 都测改成整个做完了测一次也没问题成本直接降了好多但是 Planner 不能拆没了 PlannerAI 就会直接开始写代码忘了做规划最后做出来的功能少了一大半哦原来如此模型变强了我们的框架就要跟着 “减肥”把没用的辅助拿掉留下真正有用的部分这样既省钱又高效。花 124 刀AI 用 4 小时做了个音乐工作站最后他们用优化后的 Harness做了个终极测试让 AI 做一个浏览器里的 DAW也就是数字音频工作站就是我们用来做音乐的那种软件有音轨、混音、效果器非常复杂。结果是什么整个过程花了 3 小时 50 分钟总成本 124.7 美元。你没看错4 小时不到花了不到一千块人民币AI 就自己把这个复杂的音乐软件做出来了中间的过程也很有意思第一轮 BuildAI 花了 2 小时把主体做出来了但是 Evaluator 一测发现一堆问题音频片段不能拖、没有乐器面板、效果器没有可视化然后 AI 改了 1 小时第二轮 Build又测发现还有问题录音功能是假的、片段不能改大小、效果器还是滑块不是曲线再改 10 分钟第三轮终于搞定了最后做出来的东西居然真的能用有编排视图能拖音频片段有混音器能调音量甚至还内置了 AI你能跟它说 “帮我做个 4/4 拍的流行旋律”它就直接给你生成了你想想要是让人类团队做这个一个产品 一个前端 一个后端 一个 QA4 小时要多少钱远不止 124 块吧这效率直接拉满了最后聊聊其实 Harness 不是什么黑科技它最厉害的地方就是把我们人类社会里最有效的协作模式搬到了 AI 身上。我们都知道一个人干不过一个团队哪怕这个人再厉害。AI 也是一样哪怕模型再强一个 AI 干复杂任务也会有失忆、自嗨的毛病但是把它拆分成分工明确的团队规划的、干活的、挑毛病的互相配合就能搞定远超单个 AI 能力的复杂任务。而且最妙的是这个框架不是死的它会跟着模型一起进化模型变强了我们就把辅助的东西拿掉让 AI 更自主永远用最简单的方式解决问题。 最后问你个问题 你有没有过用 AI 开发项目烂尾的经历是 AI 写着写着失忆了还是它自我感觉良好但实际一堆 bug评论区聊聊你的踩坑经历我们一起看看怎么治 AI 的烂尾病

相关文章:

AI开发烂尾病有救了!Anthropic推出Harness多Agent框架

Anthropic 把 GAN 的思路搬过来,搞了三个 AI Agent,组成了一个打工天团,分工明确,互相配合:Planner 导演规划,Generator 演员干活,Evaluator 影评人挑毛病。 你有没有过这种经历? 兴…...

网页端如何通过jQuery完成芯片制造文档的断点续传?

政府项目大文件传输系统开发方案 一、技术选型与架构设计 作为项目技术负责人,针对政府招投标系统的特殊需求,设计以下技术方案: 1.1 核心架构 #mermaid-svg-8u3j4uQ1dCpxy0J0{font-family:"trebuchet ms",verdana,arial,sans-s…...

iperf3网络测速不准?别急,先检查这3个Linux内核参数(附调优命令)

iperf3网络测速不准?别急,先检查这3个Linux内核参数(附调优命令) 当你用iperf3测试网络性能时,是否遇到过这样的困惑:明明硬件支持万兆带宽,实测结果却只有理论值的一半?或者UDP测试…...

BilibiliDown:跨平台B站视频下载解决方案的技术架构与高效使用指南

BilibiliDown:跨平台B站视频下载解决方案的技术架构与高效使用指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/…...

帆软V9任意文件覆盖漏洞深度剖析:从无损上传到有损覆盖的实战利用

1. 帆软V9任意文件覆盖漏洞技术背景 帆软报表(FineReport)作为国内广泛使用的企业级报表工具,其V9版本存在一个高危的任意文件覆盖漏洞。这个漏洞的核心在于svginit接口对文件路径校验不严格,攻击者可以通过构造特殊路径实现文件上…...

避坑指南:VMware装Ubuntu 18.04.6时,配置静态IP后上不了网?我这样解决的

VMware虚拟机静态IP配置避坑指南:从原理到实战的完整解决方案 当你兴冲冲地在VMware Workstation Pro上装好Ubuntu 18.04.6,准备大展拳脚时,却在配置静态IP后突然发现网络连接消失了——这种挫败感我深有体会。作为一名长期与虚拟化技术打交道…...

leetcode11---先飞的笨鸟

...

别再只懂RSA了!聊聊ElGamal和Schnorr签名在区块链和HTTPS里的实战应用

别再只懂RSA了!聊聊ElGamal和Schnorr签名在区块链和HTTPS里的实战应用 当开发者讨论数字签名时,RSA总是第一个被提及的算法。但如果你只了解RSA,可能会错过更高效的解决方案。在区块链交易验证和HTTPS握手过程中,ElGamal和Schnorr…...

Web Components 介绍与推荐三款框架

1 前言 在前端开发的演进历程中,组件化早已成为行业公认的高效开发模式。但长久以来,组件复用始终被技术栈绑定——Vue 开发的组件无法直接在 React 项目中使用,不同团队的技术选型差异,让跨项目、跨团队的组件复用成本居高不下。…...

清华PPT模板终极指南:3分钟打造专业学术演示文稿

清华PPT模板终极指南:3分钟打造专业学术演示文稿 【免费下载链接】THU-PPT-Theme 清华主题PPT模板 项目地址: https://gitcode.com/gh_mirrors/th/THU-PPT-Theme 还在为学术汇报的PPT设计而烦恼吗?THU-PPT-Theme项目为你提供了一套完整的清华大学…...

避坑指南:在STM32的FreeRTOS里用LWIP写TCP Server,这些内存和任务调度问题你遇到了吗?

STM32FreeRTOSLWIP TCP Server开发避坑实战手册 在嵌入式网络通信领域,STM32与FreeRTOS、LWIP的组合堪称黄金三角。但当你真正着手开发TCP Server时,会发现这个看似成熟的架构里藏着不少"暗礁"。我曾在一个工业网关项目上连续熬夜72小时&#…...

后端开发新范式:Qwen3.5-2B作为微服务中的智能中间件

后端开发新范式:Qwen3.5-2B作为微服务中的智能中间件 1. 智能中间件如何重塑后端架构 想象一个电商平台的客服系统:用户上传商品图片询问"这件衣服适合什么场合穿?"传统方案需要人工客服介入,而采用Qwen3.5-2B作为智能…...

找出1000之内的所有完数

找出1000之内的所有完数 *5种不同风格**的C语言程序来实现这个功能。 这些方法涵盖了从基础入门到算法优化,再到递归和不同控制流的写法。 已知1000以内的完数有:6, 28, 496。 方法一:基础暴力解法(最易理解) 这是最直观的写法。外层循环遍历1到1000,内层循环寻找该数…...

京东抢购助手终极指南:3步实现自动化抢单,告别手动烦恼

京东抢购助手终极指南:3步实现自动化抢单,告别手动烦恼 【免费下载链接】jd-assistant 京东抢购助手:包含登录,查询商品库存/价格,添加/清空购物车,抢购商品(下单),查询订单等功能 项目地址: …...

终极指南:如何用Fiji实现科研级图像处理与自动化分析

终极指南:如何用Fiji实现科研级图像处理与自动化分析 【免费下载链接】fiji A "batteries-included" distribution of ImageJ :battery: 项目地址: https://gitcode.com/gh_mirrors/fi/fiji Fiji(Fiji Is Just ImageJ)是一款…...

AXI突发传输(Burst)实战:从Xilinx IP代码看Burst Length、Size与地址计算

AXI突发传输实战:从代码实现到性能优化的深度解析 在FPGA和SoC设计中,AXI总线作为高性能数据传输的核心枢纽,其突发传输(Burst Transfer)机制直接影响着系统整体带宽效率。本文将深入Xilinx IP核代码实现细节,揭示突发长度(Burst …...

保姆级教程:在CentOS 7上用Docker一步搞定Rancher 2.5.15部署(附数据持久化配置)

零基础实战:CentOS 7环境下的Rancher 2.5.15容器化部署全指南 当企业开始拥抱云原生技术栈时,Kubernetes集群管理工具的选择往往决定了后续的运维效率。作为业界领先的多集群管理平台,Rancher以其直观的图形界面和丰富的功能集成,…...

猫抓浏览器扩展架构解析:从资源嗅探到流媒体处理的技术实现

猫抓浏览器扩展架构解析:从资源嗅探到流媒体处理的技术实现 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓浏览器资源嗅探扩展通过…...

人工智能教学内容2026推荐,全链条培养

人工智能教学内容2026推荐,全链条培养选人工智能教学内容怕方案同质化、学生实践能力难提升?据中国教育科学研究院《2026年中小学人工智能教育发展报告》显示,2026年国内人工智能教育市场规模预计突破520亿元,但能提供从课程开发到…...

【2026收藏版】转行成为一名机器学习工程师,可行吗?(小白/程序员必看)

2026年,大模型技术持续爆发,机器学习工程师成为AI领域最热门的岗位之一,很多小白、传统行业从业者甚至在岗程序员,都在犹豫:零基础/跨行业,转行成为机器学习工程师,到底可行吗? 国外…...

数据结构在工程中的应用

数据结构在工程中的应用 在现代工程领域,数据结构作为计算机科学的核心基础,扮演着至关重要的角色。无论是软件开发、网络通信,还是人工智能和自动化控制,高效的数据组织方式直接影响系统的性能和可靠性。通过合理选择和应用数据…...

从ESP32到HIFI5:一文搞懂Cadence Xtensa处理器家族那些事儿(含DSP指令集差异)

从ESP32到HIFI5:Cadence Xtensa处理器家族全解析 在嵌入式处理器领域,Xtensa架构以其独特的可配置性和扩展能力脱颖而出。作为Cadence旗下的核心产品线,Xtensa处理器家族涵盖了从通用微控制器到专用DSP的广泛解决方案。本文将深入剖析这一技术…...

收藏必备!小白程序员轻松入门大模型微调实战(含Prompt-tuning、Adapter-tuning等)

本文介绍了大模型微调的重要性及其基本流程,重点讲解了参数高效微调(PEFT)方法,包括参数附加方法(如Prompt-tuning、Adapter-tuning、Prefix-tuning、Proxy-tuning)、参数选择方法(如BitFit、Ch…...

【仅限前500名开发者】2026 C安全插件离线安装包+配置模板(含SEI CERT C v2.4映射表)

https://intelliparadigm.com 第一章:现代 C 语言内存安全编码规范 2026 插件下载与安装 为应对缓冲区溢出、悬垂指针和未初始化内存等经典 C 语言安全隐患,C Safety Initiative(CSI)于 2025 年底正式发布《现代 C 语言内存安全编…...

Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill保姆级教程:Chainlit前端自定义与vLLM API对接详解

Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill保姆级教程:Chainlit前端自定义与vLLM API对接详解 1. 模型介绍与环境准备 Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于vLLM部署的文本生成模型,它在约5440万个由Gemini 2.5 Flash生成…...

从QLabel超链接到桌面集成:Qt中QDesktopServices的5个实战用法(文件、邮件、网页一键打开)

从QLabel超链接到桌面集成:Qt中QDesktopServices的5个实战用法 在桌面应用开发中,系统集成能力往往决定了用户体验的上限。想象一下:用户点击一个链接就能直接打开默认浏览器访问网页,点击邮件地址就能唤起熟悉的邮件客户端&#…...

BilibiliDown:跨平台B站视频下载解决方案

BilibiliDown:跨平台B站视频下载解决方案 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliDo…...

Qwen3.5-9B-GGUF实战教程:长文本分块处理、上下文拼接与全局一致性保障方法

Qwen3.5-9B-GGUF实战教程:长文本分块处理、上下文拼接与全局一致性保障方法 1. 项目概述与模型特点 Qwen3.5-9B-GGUF是基于阿里云通义千问3.5开源模型(2026年3月发布)的量化版本,采用GGUF格式进行优化。这个90亿参数的稠密模型采…...

终极TrollStore安装指南:30秒完成iOS 14.0-16.6.1设备越狱部署

终极TrollStore安装指南:30秒完成iOS 14.0-16.6.1设备越狱部署 【免费下载链接】TrollInstallerX A TrollStore installer for iOS 14.0 - 16.6.1 项目地址: https://gitcode.com/gh_mirrors/tr/TrollInstallerX TrollInstallerX是一款专为iOS 14.0至16.6.1系…...

避坑指南:在若依(Ruoyi)项目里上传视频,回显路径不对、跨域、大文件上传失败怎么办?

若依(Ruoyi)项目视频上传实战:从路径回显到大文件处理的完整解决方案 在若依(Ruoyi)框架中实现视频上传功能看似简单,但实际开发中开发者常会遇到各种"坑":上传成功却无法显示、路径拼接错误、跨域拦截、大文件上传失败等问题频发。…...