当前位置：首页 > article >正文

模型不是壁垒，Harness 也不是

article 2026/6/2 9:41:48

文章目录前言一、先从那个 accidents 说起吧二、Harness 到底是个啥别被唬住了三、OpenAI 和 Google 早就跟上了四、源码泄漏后我发现了啥秘密五、真正的壁垒到底在哪儿六、我实际用起来是啥感受七、给开发者的一些大实话八、这事儿还没完呢P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01前言说实话啊我第一次听说 Anthropic 要搞什么 Claude Managed Agents 的时候差点把嘴里的咖啡喷屏幕上。啥Harness这词儿听起来像是马具厂转行做 AI 了后来我花了整整三个通宵把相关文档扒了一遍又亲手把 Claude Code 的源码对就是今年 3 月 31 号那场史诗级泄漏的 51.2 万行 TypeScript逐行啃完我才猛然醒悟——模型本身压根不是护城河这套 Harness 也绝对构不成壁垒一、先从那个 accidents 说起吧今年 3 月 31 号Claude Code v2.1.88 发布。本来就是个常规版本迭代结果呢npm 包里多出来一个 59.8MB 的 source map 文件。几个小时之内全网开发者跟过年似的51.2 万行源码被镜像、逆向、逐行拆解。我当时就在想Anthropic 这是要闹哪样手滑了还是故意的后来真相大白——真的就是 CI/CD pipeline 配置失误。但你知道最搞笑的是啥吗是这 51 万行代码里暴露的 Harness 实现细节。那些所谓的核心机密说白了就是把 prompt 切成两半拼装前半段是不变的身份证跨会话复用后半段是每次现拼的任务单根据场景实时生成。就这就这我跟你说当我看到那段 assembleSystemPrompt() 函数的注释时差点没笑出声。Anthropic 在 2025 年 9 月发的《Effective context engineering for AI agents》里吹得天花乱坠的动态指令拼装原来就是字符串拼接加几个 if-else。兄弟们这不是技术壁垒这是代码能凑活用就行的务实精神啊二、Harness 到底是个啥别被唬住了搞技术的都知道大模型本质上就是个基于上下文的概率生成引擎。Prompt Engineering提示词工程是第一阶段Context Engineering上下文工程是第二阶段现在 Anthropic 力推的 Harness Engineering驾驭工程就是第三阶段。关系很简单Prompt ⊂ Context ⊂ Harness。那 Harness 具体包含啥根据我拆解的源码和官方文档一个成熟的 Harness 得有这六个模块上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。听起来高大上对吧但你仔细琢磨琢磨——这不就是给裸奔的模型套个壳子吗Claude Code 的核心套路是 CLAUDE.md项目级指令文件 scratchpad草稿本。Devin 2024 年 3 月搞的 Planner 面板也是类似思路。AutoGPT 2023 年 3 月就用 write_to_file 和 read_to_file 让模型自己管记忆了。说白了大家都在做同一件事给模型发个小本本让它把重要的事儿记下来。三、OpenAI 和 Google 早就跟上了最让我确信Harness 不是壁垒的是今年 SkillsBench 的测评结果。Claude Code 配合 Claude Opus 4.5在有 Skills技能文件加持的情况下任务成功率提升了 23.3 个百分点。听起来很牛是吧但你猜怎么着Gemini CLI Gemini 3 Flash 组合直接干到了 48.7% 的通过率位居榜首这意味着啥意味着 Google 的 Gemini CLI 已经能把同样的活儿干得八九不离十了。OpenAI 的 Codex CLI 也在 2025 年上线虽然功能还简陋点但核心架构完全照搬 Harness 那套逻辑。就连开源社区都搞出了 OpenCode、Aider 这些替代品。你看啊Anthropic 2025 年 2 月发布 Claude Code2026 年 4 月 8 号推出企业级的 Claude Managed Agents。OpenAI 紧跟着就把 Codex 集成进自家生态。Google 的 Gemini CLI 开源免费社区 Fork 数蹭蹭涨。这 Harness 的玩法三个月就被复制得七七八八。四、源码泄漏后我发现了啥秘密既然说到这儿了我得讲讲我在这 51.2 万行代码里挖到的猛料。Anthropic 官方一直在吹的多 Agent 架构其实就是三个角色Planner规划者、Generator生成者、Evaluator评估者。2025 年 11 月还是双 Agent初始化编码2026 年 3 月就进化成三 Agent 了。但我看了代码实现后整个人都不好了。所谓的Planner就是个带着特定 system prompt 的 Claude 实例Generator是另一个实例Evaluator还是它。三个进程互相发消息靠的就是读写共享目录里的 JSON 文件。这架构…怎么说呢跟我大学毕业设计做的分布式爬虫差不多水平。更逗的是权限控制。Claude Managed Agents 吹得天花乱坠的沙箱隔离代码里就是 Docker container 加几个 iptables 规则。运行时计费 $0.08/ 小时的黑科技本质上是 Redis 里存个 heartbeat timestamp定时算差值。我不是说这实现不行我是说——这玩意儿真的有护城河吗五、真正的壁垒到底在哪儿既然模型不是壁垒Harness 也不是那 Anthropic 凭啥 ARR年度经常性收入能突破 300 亿美元这事儿我想了好久直到我看到 Notion、Asana、Atlassian 这些公司的接入案例才恍然大悟。生态才是那个真正的护城河。Rakuten 五个部门接入每个专项 Agent 一周内部署完成。Sentry 从零到上线只用了几周原来预估可是要几个月。Notion 里数十个任务并行知识工作者用它生成网页和 PPT。Asana 搞出了 AI TeammatesAtlassian 把 Agent 塞进 Jira 工作流。这些案例说明啥说明企业客户要的不是你的模型有多聪明也不是你的 Harness 有多精巧——他们要的是能直接插进现有工作流的解决方案。Anthropic 从 2023 年就开始布局 Claude Platform积累的企业集成、合规认证、销售关系网这才是竞争对手短时间内抄不走的。就像你不会因为隔壁饭店买了个跟你一样的炒菜机就把吃了三年的老顾客让出去。六、我实际用起来是啥感受说一千道一万不如上手试试。我在 MacBook Pro M3 Max 上跑了 Claude Code 的本地版对就是从泄漏源码里编译出来的那个。处理一个 2000 行的 Python 项目让它重构核心模块。实话实说体验确实丝滑。Context compaction上下文压缩做得挺聪明当 token 快超限时它会自动把早期的对话历史总结成 bullet points 存进 scratchpad。Tool use 的延迟大概在 800ms 到 1.2s 之间比直接用 API 快不少。但你要说这些技术有多独家我真没觉得。同样的任务我换成 Aider开源替代品 GPT-5.2效果差了大概 15%但代码也能跑通。用 Cursor IDE 的 Agent 模式差距在 10% 以内。这说明啥模型能力的权重占 70%Harness 的加成最多 30%。而且这 30% 正在快速同质化。七、给开发者的一些大实话看到这里你可能要问那我该押注哪边我的建议是——别押注任何单边。如果你是大厂架构师记住 Martin Fowler 在 2026 年 3 月写的那篇《Harness Engineering》的核心观点Harness 的价值不在于技术复杂度而在于可积累、可进化、能持续收敛错误的闭环体系。Prompt 写错了可以改Context 不够可以加但 Harness 设计不好整个 Agent 就会陷入上下文焦虑context anxiety——这是 Anthropic 自己发明的词儿。如果你是个人开发者别被那些营销话术唬住。Claude Managed Agents 一小时收 8 美分看着不贵但你跑得多了也是笔开销。Web 搜索 $10/千次比 GPT-4 的 API 还贵。开源的 Gemini CLI、OpenCode 先用起来等确实碰到天花板了再考虑付费方案。还有最重要的一点Harness 设计正在变成显学。2026 年的面试题里肯定会出现如何设计一个支持多轮对话的 Agent 脚手架这种题。你要准备的不是背某个产品的 API而是理解那六个核心模块上下文、工具、验证、状态、观测、人类接管之间的协作关系。八、这事儿还没完呢说到结尾我突然想起 2025 年底那场关于AI 工程师定义的争论。有人说未来最值钱的是会调模型参数的。也有人说Prompt 工程师马上就得失业。但看现在这趋势——真正稀缺的是会设计 Harness 的。不是因为 Harness 技术有多难而是因为它太新了。大家都还在摸索最佳实践官方文档写得跟天书似的社区里的经验贴又支离破碎。这时候谁要是能把一套经过生产环境验证的 Harness 设计方法论开源出来谁就能收获下一波技术红利。所以你问我Anthropic 这次押对了吗我觉得押对了一半。他们正确地把战场从模型能力转移到了工程化落地但误以为 Harness 本身能成为壁垒。殊不知在硅谷只要是代码能实现的三个月内必有平替。真正的赢家永远是那个把技术转化成用户离不开的习惯的狠角色。就像微信做的不是通讯协议是朋友圈。Anthropic 做的也不该只是 Harness而是那个让企业用了就回不去的工作流操作系统。好了我得去改我的 Agent 配置文件了——刚才那段测试代码好像又触发 context limit 了心累你们要是也在折腾这玩意儿欢迎在评论区留言吐槽。咱们下回见P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01

模型不是壁垒，Harness 也不是

相关文章：

模型不是壁垒，Harness 也不是

如何快速掌握文本差异对比：Diff Checker完整使用指南

LFM2.5-1.2B-Thinking-GGUF辅助数学建模：从问题描述到MATLAB代码框架生成

智能体学习16——学习与适应（Learning-and-Adaptation）-深入解读

Rust Trait 泛型与编译优化策略

TypeScript的awaited类型：展开Promise的嵌套类型

软件语音助手中的唤醒词优化

OpenClaw 在国内的热度逐渐降温了

什么是系统性文献检索？与普通检索的区别

面向高端商用咖啡机的功率MOSFET选型分析——以高效能、高可靠电源与加热泵驱动系统为例

Windows PDF处理终极方案：5分钟部署Poppler完整工具包

三极管有源滤波电路真的可以工作吗？

电子电路中的“心脏”：电源谎

Qwen3.5-9B-AWQ-4bit多模态部署案例：双卡RTX 4090D一键启用视觉理解

MiniCPM-V-2_6部署避坑指南：Ollama安装常见问题与解决方案

ZYNQ PS+PL协同设计：从bit文件生成到QSPI Flash固化的全流程实战

基于Python的PC微信自动化探索：uiautomation+OpenCV+EasyOCR都

充电宝选取建议全流程教程

13.将手写 Agent 主流程迁移为 LangGraph 最小闭环，并接回 FastAPI + session 外壳

当AI学会编程，我们还能做什么邑

模电进阶：从混合π模型到放大电路的全频段分析

打字不如说话，说话不如截图——AI 代码助手的多模态输入实践捕

告别调参焦虑：用Halcon MLP OCR快速构建你的专用字符识别库（以工业铭牌为例）

DeepWiki 优化实战：代码行号与确定性目录生成踊

别再死记硬背了！用Arduino和面包板5分钟搞懂三极管的三种工作状态

【RK3588】开发板调试串口切换实战：从UART2到UART3的完整指南

SmartX CloudTower 2.0安全指南：从权限配置到等保合规的完整设置流程

AI原生软件监控为何总失效？揭秘3层链路追踪断点、4类Span丢失场景及零代码修复方案

终极指南：5分钟掌握AMD Ryzen处理器深度调试技巧

避坑指南：在华为昇腾服务器上，用Docker部署Qwen模型时最容易踩的5个坑