当前位置: 首页 > article >正文

模型不是壁垒,Harness 也不是

文章目录前言一、先从那个 accidents 说起吧二、Harness 到底是个啥别被唬住了三、OpenAI 和 Google 早就跟上了四、源码泄漏后我发现了啥秘密五、真正的壁垒到底在哪儿六、我实际用起来是啥感受七、给开发者的一些大实话八、这事儿还没完呢P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01前言说实话啊我第一次听说 Anthropic 要搞什么 Claude Managed Agents 的时候差点把嘴里的咖啡喷屏幕上。啥Harness这词儿听起来像是马具厂转行做 AI 了后来我花了整整三个通宵把相关文档扒了一遍又亲手把 Claude Code 的源码对就是今年 3 月 31 号那场史诗级泄漏的 51.2 万行 TypeScript逐行啃完我才猛然醒悟——模型本身压根不是护城河这套 Harness 也绝对构不成壁垒一、先从那个 accidents 说起吧今年 3 月 31 号Claude Code v2.1.88 发布。本来就是个常规版本迭代结果呢npm 包里多出来一个 59.8MB 的 source map 文件。几个小时之内全网开发者跟过年似的51.2 万行源码被镜像、逆向、逐行拆解。我当时就在想Anthropic 这是要闹哪样手滑了还是故意的后来真相大白——真的就是 CI/CD pipeline 配置失误。但你知道最搞笑的是啥吗是这 51 万行代码里暴露的 Harness 实现细节。那些所谓的核心机密说白了就是把 prompt 切成两半拼装前半段是不变的身份证跨会话复用后半段是每次现拼的任务单根据场景实时生成。就这就这我跟你说当我看到那段 assembleSystemPrompt() 函数的注释时差点没笑出声。Anthropic 在 2025 年 9 月发的《Effective context engineering for AI agents》里吹得天花乱坠的动态指令拼装原来就是字符串拼接加几个 if-else。兄弟们这不是技术壁垒这是代码能凑活用就行的务实精神啊二、Harness 到底是个啥别被唬住了搞技术的都知道大模型本质上就是个基于上下文的概率生成引擎。Prompt Engineering提示词工程是第一阶段Context Engineering上下文工程是第二阶段现在 Anthropic 力推的 Harness Engineering驾驭工程就是第三阶段。关系很简单Prompt ⊂ Context ⊂ Harness。那 Harness 具体包含啥根据我拆解的源码和官方文档一个成熟的 Harness 得有这六个模块上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。听起来高大上对吧但你仔细琢磨琢磨——这不就是给裸奔的模型套个壳子吗Claude Code 的核心套路是 CLAUDE.md项目级指令文件 scratchpad草稿本。Devin 2024 年 3 月搞的 Planner 面板也是类似思路。AutoGPT 2023 年 3 月就用 write_to_file 和 read_to_file 让模型自己管记忆了。说白了大家都在做同一件事给模型发个小本本让它把重要的事儿记下来。三、OpenAI 和 Google 早就跟上了最让我确信Harness 不是壁垒的是今年 SkillsBench 的测评结果。Claude Code 配合 Claude Opus 4.5在有 Skills技能文件加持的情况下任务成功率提升了 23.3 个百分点。听起来很牛是吧但你猜怎么着Gemini CLI Gemini 3 Flash 组合直接干到了 48.7% 的通过率位居榜首这意味着啥意味着 Google 的 Gemini CLI 已经能把同样的活儿干得八九不离十了。OpenAI 的 Codex CLI 也在 2025 年上线虽然功能还简陋点但核心架构完全照搬 Harness 那套逻辑。就连开源社区都搞出了 OpenCode、Aider 这些替代品。你看啊Anthropic 2025 年 2 月发布 Claude Code2026 年 4 月 8 号推出企业级的 Claude Managed Agents。OpenAI 紧跟着就把 Codex 集成进自家生态。Google 的 Gemini CLI 开源免费社区 Fork 数蹭蹭涨。这 Harness 的玩法三个月就被复制得七七八八。四、源码泄漏后我发现了啥秘密既然说到这儿了我得讲讲我在这 51.2 万行代码里挖到的猛料。Anthropic 官方一直在吹的多 Agent 架构其实就是三个角色Planner规划者、Generator生成者、Evaluator评估者。2025 年 11 月还是双 Agent初始化 编码2026 年 3 月就进化成三 Agent 了。但我看了代码实现后整个人都不好了。所谓的Planner就是个带着特定 system prompt 的 Claude 实例Generator是另一个实例Evaluator还是它。三个进程互相发消息靠的就是读写共享目录里的 JSON 文件。这架构…怎么说呢跟我大学毕业设计做的分布式爬虫差不多水平。更逗的是权限控制。Claude Managed Agents 吹得天花乱坠的沙箱隔离代码里就是 Docker container 加几个 iptables 规则。运行时计费 $0.08/ 小时的黑科技本质上是 Redis 里存个 heartbeat timestamp定时算差值。我不是说这实现不行我是说——这玩意儿真的有护城河吗五、真正的壁垒到底在哪儿既然模型不是壁垒Harness 也不是那 Anthropic 凭啥 ARR年度经常性收入能突破 300 亿美元这事儿我想了好久直到我看到 Notion、Asana、Atlassian 这些公司的接入案例才恍然大悟。生态才是那个真正的护城河。Rakuten 五个部门接入每个专项 Agent 一周内部署完成。Sentry 从零到上线只用了几周原来预估可是要几个月。Notion 里数十个任务并行知识工作者用它生成网页和 PPT。Asana 搞出了 AI TeammatesAtlassian 把 Agent 塞进 Jira 工作流。这些案例说明啥说明企业客户要的不是你的模型有多聪明也不是你的 Harness 有多精巧——他们要的是能直接插进现有工作流的解决方案。Anthropic 从 2023 年就开始布局 Claude Platform积累的企业集成、合规认证、销售关系网这才是竞争对手短时间内抄不走的。就像你不会因为隔壁饭店买了个跟你一样的炒菜机就把吃了三年的老顾客让出去。六、我实际用起来是啥感受说一千道一万不如上手试试。我在 MacBook Pro M3 Max 上跑了 Claude Code 的本地版对就是从泄漏源码里编译出来的那个。处理一个 2000 行的 Python 项目让它重构核心模块。实话实说体验确实丝滑。Context compaction上下文压缩做得挺聪明当 token 快超限时它会自动把早期的对话历史总结成 bullet points 存进 scratchpad。Tool use 的延迟大概在 800ms 到 1.2s 之间比直接用 API 快不少。但你要说这些技术有多独家我真没觉得。同样的任务我换成 Aider开源替代品 GPT-5.2效果差了大概 15%但代码也能跑通。用 Cursor IDE 的 Agent 模式差距在 10% 以内。这说明啥模型能力的权重占 70%Harness 的加成最多 30%。而且这 30% 正在快速同质化。七、给开发者的一些大实话看到这里你可能要问那我该押注哪边我的建议是——别押注任何单边。如果你是大厂架构师记住 Martin Fowler 在 2026 年 3 月写的那篇《Harness Engineering》的核心观点Harness 的价值不在于技术复杂度而在于可积累、可进化、能持续收敛错误的闭环体系。Prompt 写错了可以改Context 不够可以加但 Harness 设计不好整个 Agent 就会陷入上下文焦虑context anxiety——这是 Anthropic 自己发明的词儿。如果你是个人开发者别被那些营销话术唬住。Claude Managed Agents 一小时收 8 美分看着不贵但你跑得多了也是笔开销。Web 搜索 $10/千次比 GPT-4 的 API 还贵。开源的 Gemini CLI、OpenCode 先用起来等确实碰到天花板了再考虑付费方案。还有最重要的一点Harness 设计正在变成显学。2026 年的面试题里肯定会出现如何设计一个支持多轮对话的 Agent 脚手架这种题。你要准备的不是背某个产品的 API而是理解那六个核心模块上下文、工具、验证、状态、观测、人类接管之间的协作关系。八、这事儿还没完呢说到结尾我突然想起 2025 年底那场关于AI 工程师定义的争论。有人说未来最值钱的是会调模型参数的。也有人说Prompt 工程师马上就得失业。但看现在这趋势——真正稀缺的是会设计 Harness 的。不是因为 Harness 技术有多难而是因为它太新了。大家都还在摸索最佳实践官方文档写得跟天书似的社区里的经验贴又支离破碎。这时候谁要是能把一套经过生产环境验证的 Harness 设计方法论开源出来谁就能收获下一波技术红利。所以你问我Anthropic 这次押对了吗我觉得押对了一半。他们正确地把战场从模型能力转移到了工程化落地但误以为 Harness 本身能成为壁垒。殊不知在硅谷只要是代码能实现的三个月内必有平替。真正的赢家永远是那个把技术转化成用户离不开的习惯的狠角色。就像微信做的不是通讯协议是朋友圈。Anthropic 做的也不该只是 Harness而是那个让企业用了就回不去的工作流操作系统。好了我得去改我的 Agent 配置文件了——刚才那段测试代码好像又触发 context limit 了心累你们要是也在折腾这玩意儿欢迎在评论区留言吐槽。咱们下回见P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01

相关文章:

模型不是壁垒,Harness 也不是

文章目录前言一、先从那个" accidents "说起吧二、Harness 到底是个啥?别被唬住了三、OpenAI 和 Google 早就跟上了四、源码泄漏后我发现了啥秘密五、真正的壁垒到底在哪儿?六、我实际用起来是啥感受七、给开发者的一些大实话八、这事儿还没完…...

如何快速掌握文本差异对比:Diff Checker完整使用指南

如何快速掌握文本差异对比:Diff Checker完整使用指南 【免费下载链接】diff-checker Desktop application to compare text differences between two files (Windows, Mac, Linux) 项目地址: https://gitcode.com/gh_mirrors/di/diff-checker 文本差异对比是…...

LFM2.5-1.2B-Thinking-GGUF辅助数学建模:从问题描述到MATLAB代码框架生成

LFM2.5-1.2B-Thinking-GGUF辅助数学建模:从问题描述到MATLAB代码框架生成 1. 数学建模的痛点与AI解决方案 数学建模是科研和工程领域的核心技能,但传统建模过程存在诸多挑战。许多研究者面临这样的困境:明明清楚问题描述,却卡在…...

智能体学习16——学习与适应(Learning-and-Adaptation)-深入解读

文章目录学习与适应(Learning and Adaptation)- 深入解读一、PPO vs DPO vs GRPO vs DAPO:对齐算法四兄弟1.1 为什么需要对齐?1.2 PPO 深入:两步走的"老大哥"第一步:训练奖励模型(RM&…...

Rust Trait 泛型与编译优化策略

Rust作为一门现代系统编程语言,凭借其独特的所有权机制和零成本抽象特性,在性能与安全性之间取得了卓越平衡。其中,Trait泛型系统与编译优化策略的结合,更是Rust高效运行的核心支柱。本文将深入探讨这一技术组合的底层原理与实践价…...

TypeScript的awaited类型:展开Promise的嵌套类型

TypeScript的awaited类型:展开Promise的嵌套类型 在异步编程中,Promise是JavaScript处理异步操作的核心工具,但多层嵌套的Promise类型往往让类型推断变得复杂。TypeScript 4.5引入的awaited类型,正是为了解决这一问题而生。它能够…...

软件语音助手中的唤醒词优化

软件语音助手中的唤醒词优化:让交互更自然高效 在智能设备普及的今天,语音助手已成为人们日常生活中不可或缺的伙伴。无论是查询天气、播放音乐,还是控制智能家居,唤醒词是用户与语音助手交互的第一道门槛。一个优秀的唤醒词不仅…...

OpenClaw 在国内的热度逐渐降温了

👉 这是一个或许对你有用的社群🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料: 《项目实战(视频)》:从书中学,往事上…...

什么是系统性文献检索?与普通检索的区别

很多研究者在做文献检索时,其实并没有认真区分过两件事:自己到底是在“找几篇论文来读”,还是在“系统性地获取某一研究主题的全部关键文献”。这两种目标看起来很像,操作上却不是一回事,最终得到的研究质量也往往相差…...

面向高端商用咖啡机的功率MOSFET选型分析——以高效能、高可靠电源与加热泵驱动系统为例

在精品咖啡文化与商业运营效率需求并重的背景下,高端商用咖啡机作为保障出品质量与连续运行稳定的核心设备,其性能直接决定了加热效率、压力控制精度和长期可靠性。电源与加热泵驱动系统是咖啡机的“心脏与肌肉”,负责为锅炉加热器、水泵、磨…...

Windows PDF处理终极方案:5分钟部署Poppler完整工具包

Windows PDF处理终极方案:5分钟部署Poppler完整工具包 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows系统上的PDF文档处…...

三极管有源滤波电路真的可以工作吗?

超简单的三极管有源滤波电路 01 【三极管有源滤波】 一、滤波电路 今天看到一个B站视频, 介绍使用三极管进行有源滤波的电路。 这个三极管有源滤波电路, 串联在整流电路的后边, 对输出波纹进行滤波。 那么问题来了, 究竟这个电路…...

电子电路中的“心脏”:电源谎

前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...

Qwen3.5-9B-AWQ-4bit多模态部署案例:双卡RTX 4090D一键启用视觉理解

Qwen3.5-9B-AWQ-4bit多模态部署案例:双卡RTX 4090D一键启用视觉理解 1. 平台介绍 Qwen3.5-9B-AWQ-4bit是一款支持图像理解的多模态模型,能够结合上传图片与文字提示词,输出中文分析结果。该模型特别适合处理以下任务: 图片主体…...

MiniCPM-V-2_6部署避坑指南:Ollama安装常见问题与解决方案

MiniCPM-V-2_6部署避坑指南:Ollama安装常见问题与解决方案 1. 为什么选择MiniCPM-V-2_6? MiniCPM-V-2_6是目前最先进的视觉多模态模型之一,它在OCR识别、图像理解和视频分析方面表现出色。相比其他大型模型,它只有80亿参数&…...

ZYNQ PS+PL协同设计:从bit文件生成到QSPI Flash固化的全流程实战

1. ZYNQ PSPL协同设计基础概念 第一次接触ZYNQ芯片的开发者经常会困惑:为什么这个"FPGA"还需要配置ARM处理器?其实ZYNQ的本质是一个异构计算平台,它把传统FPGA(PL部分)和ARM处理器(PS部分&#x…...

基于Python的PC微信自动化探索:uiautomation+OpenCV+EasyOCR都

本课概览 Microsoft Agent Framework (MAF) 提供了一套强大的 Workflow(工作流) 框架,用于编排和协调多个智能体(Agent)或处理组件的执行流程。 本课将以通俗易懂的方式,帮助你理解 MAF Workflow 的核心概念…...

充电宝选取建议全流程教程

9个步骤精准挑选。充电宝选取没有统一标准,按自身使用场景匹配参数,才能选到实用又安全的产品。本教程适用于日常出行、办公、旅行等多种场景,通过完整步骤与避坑方法,帮助用户掌握充电宝选取核心逻辑,挑选到容量、功率…...

13.将手写 Agent 主流程迁移为 LangGraph 最小闭环,并接回 FastAPI + session 外壳

目 录前 言开始动手项目结构重构数据State化函数Node化串起Node形成Graph收尾前 言 咱们前面的代码是通过手写Agent工作流程,实现了一个论文RAG问答系统,但是在实际生产环境中不会用这种纯手写工作逻辑项目,更多的是使用现有框架比如LangGra…...

当AI学会编程,我们还能做什么邑

基础示例:单工作表 Excel 转 TXT 以下是将一个 Excel 文件中的第一个工作表转换为 TXT 的完整步骤: 1. 加载并读取Excel文件 from spire.xls import * from spire.xls.common import * workbook Workbook() workbook.LoadFromFile("示例.xlsx"…...

模电进阶:从混合π模型到放大电路的全频段分析

1. 混合π模型:高频分析的钥匙 第一次用示波器观察高频放大电路时,我盯着屏幕上畸变的波形整整懵了半小时——明明低频测试时增益稳定在100倍,输入10MHz信号后却骤降到不足30倍。这个问题困扰了我两周,直到导师扔给我一本发黄的《…...

打字不如说话,说话不如截图——AI 代码助手的多模态输入实践捕

整体排查思路 我们的目标是验证以下三个环节是否正常: 登录成功时:服务器是否正确生成了Session并返回了包含正确 JSESSIONID的Cookie给浏览器。 浏览器端:浏览器是否成功接收并存储了该Cookie。 后续请求:浏览器在执行查询等操作…...

告别调参焦虑:用Halcon MLP OCR快速构建你的专用字符识别库(以工业铭牌为例)

工业级OCR实战:Halcon MLP模型在金属铭牌识别中的高效训练方案 在工业自动化领域,设备铭牌、产品序列号等关键信息的自动识别一直是质量检测和生产追溯的重要环节。不同于通用OCR场景,工业环境中的字符识别面临着金属反光、蚀刻不均匀、喷码残…...

DeepWiki 优化实战:代码行号与确定性目录生成踊

一、环境准备 Free Spire.Doc for Python 是免费 Python 文档处理库,无需依赖 Microsoft Word,支持 Word 文档的创建、编辑、转换等操作,其中内置的 Markdown 解析能力,能高效实现 Markdown 到 Doc/Docx 格式的转换,且…...

别再死记硬背了!用Arduino和面包板5分钟搞懂三极管的三种工作状态

用Arduino和面包板5分钟搞懂三极管的三种工作状态 三极管作为电子电路中的核心元件,其工作原理常让初学者望而生畏。传统教材中复杂的公式推导和抽象描述,往往掩盖了它最本质的控制特性。本文将用Arduino UNO、面包板和几个基础元件,带您通过…...

【RK3588】开发板调试串口切换实战:从UART2到UART3的完整指南

1. 为什么需要切换调试串口? 很多开发者第一次接触RK3588开发板时,可能会好奇为什么默认的调试串口是UART2。这其实和开发板的设计有关——正点原子等厂商在设计开发板时,通常会选择最稳定的串口作为默认调试接口。但实际项目中,…...

SmartX CloudTower 2.0安全指南:从权限配置到等保合规的完整设置流程

SmartX CloudTower 2.0安全指南:从权限配置到等保合规的完整设置流程 在数字化转型加速的今天,企业IT基础设施的安全管理已成为重中之重。特别是对于金融、医疗等高度监管行业,如何构建既满足业务需求又符合严格合规要求的安全体系&#xff0…...

AI原生软件监控为何总失效?揭秘3层链路追踪断点、4类Span丢失场景及零代码修复方案

第一章:AI原生软件监控失效的根源性认知 2026奇点智能技术大会(https://ml-summit.org) AI原生软件——即以大语言模型、多模态代理、动态推理链为核心构件,具备自主规划、上下文感知与运行时代码生成能力的系统——正从根本上瓦解传统监控范式的底层假…...

终极指南:5分钟掌握AMD Ryzen处理器深度调试技巧

终极指南:5分钟掌握AMD Ryzen处理器深度调试技巧 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gitcode…...

避坑指南:在华为昇腾服务器上,用Docker部署Qwen模型时最容易踩的5个坑

避坑指南:在华为昇腾服务器上,用Docker部署Qwen模型时最容易踩的5个坑 部署AI模型时,技术栈的复杂性往往会让开发者陷入各种意想不到的困境。特别是在华为昇腾服务器上使用Docker部署Qwen模型,从硬件适配到容器配置,每…...