当前位置: 首页 > article >正文

2026 年最被高估的技术?不,Harness Engineering 是 AI 工程的下一个十年

模型不是瓶颈你搭的壳才是。一、一个让所有 AI 从业者沉默的数据2026 年初研究者 Nate B Jones 发表了一项看似平淡无奇的研究同一个 AI 模型同样的提示词只更换它运行的环境编程基准测试的成功率从 42% 跳到了 78%。模型没换。数据没换。提示词也没换。只是改了模型外面包裹的那层壳性能翻了将近一倍。这层壳现在有了一个正式的名字Harness马具。而围绕它展开的工程实践叫Harness Engineering驾驭工程是 2026 年 AI 工程圈最热门、也最被误解的话题。二、Harness 到底是什么2.1 一个通俗的比喻把 AI 模型比作一匹千里马。Harness 就是驾驭这匹马所需要的一切缰绳、马鞍、路线规划、围栏、训练规则。你要做的不是让这匹马更聪明而是让它跑得更稳、更快、更安全。可能说马相关的东西比较遥远不好理解咱们把大模型理解成发动机古早的Agent就好比是給发动机装上地盘轮子方向盘和刹车让这辆车能跑但是早期汽车跑不远想让汽车正常跑在路上你要为汽车安装好多东西减震系统汽车喇叭车灯转向灯顶棚雨刮等后来又安装了GPS导航自动驾驶传感器这些就属于Harness以后肯定还有更多的功能。具体来说Harness 就是你给 AI 写的项目规则文件AGENTS.md你配置的各种工具终端、文件系统、浏览器你安排的任务拆分和执行顺序你设计的测试和检查流程这些统统都算 Harness。2.2 核心公式整个行业达成了一个共识公式Agent Model Harness模型提供智能Harness 让这个智能能被实际使用。三、为什么是 2026 年3.1 三代进化要理解 Harness 为什么现在火了得先看它是怎么一步步长出来的。阶段时间核心关注比喻Prompt Engineering2022-2024怎么写好单次指令写一封好邮件Context Engineering2025动态构建上下文环境带上相关附件Harness Engineering2026 年 2 月起设计完整控制系统搭建整个办公室三层关系是层层包含的Prompt 是最内层关注怎么给 AI 下指令Context 包裹着 Prompt关注怎么给 AI 提供信息Harness 把它们全部包在里面关注怎么让 AI 持续靠谱地干完一整件事3.2 引爆点两篇博文2026 年 2 月两篇几乎同时发布的技术文章把 Harness 推上了风口浪尖。第一篇来自 OpenAI 的 Codex 团队从一个空的 git 仓库开始5 个月大约 100 万行代码1500 个 PR全部由 Agent 生成人类一行代码都没写。团队一开始只有 3 个工程师后来扩到 7 个。平均每位工程师每天合并 3.5 个 PR。他们估算如果用传统方式手写这个项目的工期应该是现在的10 倍。第二篇来自 Mitchell HashimotoHashiCorp 联合创始人、Terraform 的缔造者他把自己的 AI 采纳之旅分成六个阶段第五个阶段给了一个名字Engineer the Harness每当你发现 Agent 犯了一个错误你就花时间去工程化一个解决方案让它再也不会犯同样的错。他在项目中实践了这个理念AGENTS.md 文件里的每一行规则背后都对应着 Agent 曾经犯过的一个错。四、Harness 的五个核心模块这是本文的重点。理解了这五个模块你就理解了 Harness 的骨架。4.1 上下文架构让 AI 了解项目背景和规矩做项目的第一步是什么了解需求、项目背景和开发规范。用 AI 做项目也一样。常见做法写 AGENTS.md 规则文件告诉 AI 技术栈、代码规范、禁止事项但注意OpenAI 团队踩过一个坑——把几千行规则塞进一个大文件AI 反而更容易忽略关键信息正确做法把 AGENTS.md 当成目录来用只写大约 100 行的摘要和索引然后在docs/目录下放详细的设计文档。AGENTS.md目录约 100 行 ├── 前端规范看 docs/FRONTEND.md ├── 安全相关看 docs/SECURITY.md └── API 文档看 docs/API.mdETH Zurich 的一项研究发现CLAUDE.md / AGENTS.md 文件应该控制在 60 行以内。过长的指令文件反而会降低 Agent 的表现。4.2 执行能力给 AI 装上手脚和工具AI 模型本身只能输出文本。要让它真正帮你干活得给它配工具。工具清单Bash 终端执行命令文件系统读写代码浏览器测试网页Browser UseMCPModel Context Protocol扩展能力如读写数据库、联网搜索Skills 技能包把复杂工作流封装成技能一个反直觉的发现工具越多不一定越好。Vercel 的经验把 Agent 的工具从 15 个砍到只剩 2 个准确率反而从 80% 升到了 100%。Stripe 有大约 500 个 MCP 工具但给每个 Agent 的只是精心筛选过的子集。4.3 任务编排给 AI 安排好工作计划如果你丢给 AI 一个大需求它可能会一把梭全部搞定。但 AI 的上下文空间是有限的开发到一半信息就装不下了前面定好的方案和约束慢慢被冲淡。怎么解决基本做法Plan Mode先让 AI 出方案人工确认后再动手任务拆分大任务拆成小任务每次只做一个功能点增量开发每做完一个功能沉淀文档实现了什么、用了什么方案、还有哪些待办SubAgents 并行多个互不依赖的小任务可以让子代理并行执行4.4 反馈机制让 AI 自己检查自己的工作AI 写完代码之后可能会自信满满地说任务完成了结果你一点运行全是 Bug。所以得让 AI 自己检查跑 Linter查语法和规范问题跑自动化测试验证功能是否正确Browser Use自己打开浏览器实际操作一遍Agent 互审让另一个 AI 来审查代码如果测试没通过AI 可以自动读取报错信息分析原因并尝试修复。4.5 架构护栏防止代码越改越乱AI 生成代码有个特点它会模仿仓库里已有的代码风格哪怕是烂代码。比如同样的页面代码写了好几遍也不知道要拆分成可复用的组件。时间一长技术债就越滚越大。怎么防止架构约束 Linter查的不是代码风格而是架构规则如UI 层不能直接调用数据库层Pre-commit Hooks提交前自动拦截不合规的代码垃圾回收机制定期让 AI 扫描代码库检查有没有偏离架构规范的地方自动提交修复 PRGit 检查点每完成一个功能就提交一次相当于打存档点五、七个可以立刻上手的配置杠杆说完了理论来点实际的。以下是你今天就能用的 Harness 技巧杠杆做法备注AGENTS.md每次 AI 犯错加一条规则控制在 60 行以内确定性约束Linter、类型检查、结构化测试硬约束比软指令更可靠工具精简只给 AI 最必要的工具多了反而不知道该用哪个Sub-Agent 隔离复杂任务拆分防止中间噪声累积反馈循环AI 自己跑测试、查日志别让什么都靠人工盯CI 限速最多两轮 CI失败就转人工垃圾回收定期扫描技术债尤其代码量大了之后六、行业两大阵营Big Model vs Big HarnessHarness Engineering 也不是没有人唱反调。而且反对者的来头都不小。6.1 Big Model 阵营核心观点模型能力的增长才是主旋律Harness 只是权宜之计。OpenAI 的 Noam Brown 在访谈中直接表态Harness 就像一根拐杖我们终将能够超越它。他的论据在推理模型出现之前开发者搭建了复杂的 Agentic 系统来模拟推理能力。推理模型一出来这些基础设施一夜之间就不需要了。他的建议别花六个月搭建一个可能六个月后就被淘汰的东西。6.2 Big Harness 阵营核心观点模型是引擎Harness 是方向盘和刹车。引擎再强没有方向盘你也到不了目的地。LlamaIndex 创始人 Jerry Liu 的话代表了这一派的立场Model Harness 就是一切。从 AI 那里获取价值的最大障碍是你自己为模型做上下文工程和工作流工程的能力。6.3 护栏悖论我觉得两边都对了一半。护栏悖论车速越快护栏越重要。时速 30 公里的自行车道可以没有护栏时速 120 公里的高速公路护栏是标配时速 300 公里的磁悬浮列车不仅有护栏整个轨道都是封闭的模型就是引擎。引擎越强速度越快你就越需要精心设计的约束系统来确保它跑在正确的方向上。Noam Brown 说得对很多脚手架确实会随着模型进化而被淘汰。但架构约束、反馈循环、熵管理这些东西本质上不会消失只会换一种形态。就像从马车到汽车马鞭消失了但方向盘和刹车不会消失。七、一个更深层的洞察写到这里我忽然意识到一件事。Harness Engineering 说的这些——上下文管理、架构约束、反馈循环、定期清理——这不就是管理吗想想看一个好的技术 leader 是怎么带团队的管理行为Harness 对应给新人写 onboarding 文档AGENTS.md定代码规范和架构原则Linter 和结构测试做 Code Review 确保质量CI/CD 检查定期技术债清理垃圾回收工具选型和精简工具链管理反复出现的问题写进 Wiki反馈循环AI Agent 越强就越像一个能力很强但需要管理的员工。你不会把一个刚入职的天才工程师扔进一个没有文档、没有规范、没有 CI 的项目里然后指望他写出完美的代码。同样的道理你也不该把一个强大的 AI 模型扔进一个没有 Harness 的环境里然后抱怨它不好用。八、未来会怎样几个值得关注的趋势Harness 会成为新的服务模板未来的组织可能会从一组预制的 Harness 模板中选择然后根据自己的需求定制技术栈会收敛当写代码本身不再是瓶颈时团队会更偏向选择那些有好 Harness 可用的技术栈Harness 会反哺模型训练Harness 捕获的 Agent 失败轨迹可以成为模型训练的高质量数据旧代码问题OpenAI 的实验是从空仓库开始的。但对于那些已经有几十万行代码的老项目呢给老代码加 Harness可能就像给一个从不跑测试的项目补测试一样痛苦学科化AIE Europe 已经设立了全球第一个 Harness Engineering 专题赛道。arxiv 上也有了专门的论文九、写在最后有人发了个暴论大模型开发将是最后的程序员下来是 Harness Engineering 开发所有纯码农将在 2028 年前消失。2028 这种预言有点太没依据。但方向大概没错写代码正在变得像打字一样廉价。而在模型之外设计让 Agent 持续、稳定、高质量工作的那套系统正在变成最值钱的技能。未来最稀缺的可能不是训练模型的人。而是管理模型的人。参考资料OpenAI 博文Harness engineering: leveraging Codex in an agent-first worldMitchell Hashimoto 博客My AI Adoption JourneyMartin Fowler 站点分析Harness engineering for coding agent usersLatent Space 分析Is Harness Engineering Real?Stripe Dev BlogMinions: Stripes One-Shot End-to-End Coding Agents

相关文章:

2026 年最被高估的技术?不,Harness Engineering 是 AI 工程的下一个十年

模型不是瓶颈,你搭的"壳"才是。 一、一个让所有 AI 从业者沉默的数据 2026 年初,研究者 Nate B Jones 发表了一项看似平淡无奇的研究: 同一个 AI 模型,同样的提示词,只更换它运行的"环境"&#…...

AI Agent Harness Engineering 的架构演进之路

AI Agent Harness Engineering 的架构演进之路 1. 标题 (Title) AI Agent Harness Engineering 的5代架构演进:从“单Agent试错”到“百万级Agent联邦协同” 从LangChain到自建百万级集群:AI Agent工程化(Harness)的全景架构史与未来 AI Agent的“操作系统”之路:Harness …...

AI时代工程师的Superpowers进化论技术

核心主题:探讨AI技术如何重塑工程师的能力边界,分析工程师在AI时代需要掌握的新技能与思维模式。技术驱动的能力进化传统工程师能力模型核心技能:编程、算法、系统设计、调试局限性:依赖人工分析,效率天花板明显AI赋能…...

【例题2】图书管理(信息学奥赛一本通- P1456)

【题目描述】图书管理是一件十分繁杂的工作,在一个图书馆中每天都会有许多新书加入。为了更方便的管理图书(以便于帮助想要借书的客人快速查找他们是否有他们所需要的书),我们需要设计一个图书查找系统。该系统需要支持 2 种操作&…...

视频合并工具多合一版使用说明:批量合并视频/自定义命名/片头片尾/转场/硬件加速与并行转码

【视频合并工具多合一版】基于 FFmpeg 实现视频合并与转码,支持拖拽导入、排序、批量合并(按文件夹分组)、片头片尾、转场效果(含“保持原始时长”模式)、GPU 硬件加速(NVENC/QSV/AMF)、并行转码…...

告别语言障碍!Translumo:你的专属游戏外语翻译官

告别语言障碍!Translumo:你的专属游戏外语翻译官 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 还…...

Scroll Reverser:解决macOS多输入设备滚动冲突的终极方案

Scroll Reverser:解决macOS多输入设备滚动冲突的终极方案 【免费下载链接】Scroll-Reverser Per-device scrolling prefs on macOS. 项目地址: https://gitcode.com/gh_mirrors/sc/Scroll-Reverser 在macOS生态系统中,触控板与外接鼠标之间的滚动…...

鸿蒙Next实战:5分钟搞定跨应用拖拽图片功能(附完整代码)

鸿蒙Next实战:5分钟搞定跨应用拖拽图片功能(附完整代码) 在移动应用开发中,跨应用数据交互一直是提升用户体验的关键技术点。想象一下,用户无需繁琐的保存-导入流程,只需简单拖拽就能将图片从相册应用转移到…...

从新建工程到编译成功:一个完整Quartus II 18.0项目实战(含Verilog文件添加与管脚分配)

从零构建LED闪烁模块:Quartus II 18.0全流程开发指南 当你第一次打开Quartus II 18.0时,面对复杂的界面和众多选项可能会感到无从下手。本文将带你完成一个完整的LED闪烁模块开发流程——从创建工程到成功编译,通过这个具体项目理解每个操作的…...

Grafana仪表板安全嵌入实践:解决iframe跨域与登录验证难题

1. 为什么需要安全嵌入Grafana仪表板 在企业监控系统开发中,我们经常需要将Grafana仪表板集成到自有系统中。直接使用iframe嵌入看似简单,但实际操作时会遇到两个棘手问题:首先是浏览器控制台频繁报错"Refused to display in a frame&qu…...

张量与向量基础:AI 计算的数学本质

文章目录前言一、先搞懂:AI里天天说的向量,到底是个啥?1.1 别被数学定义吓住,向量就是"有序数字列表"1.2 用生活例子秒懂:向量就是"事物的数字化画像"1.3 向量的核心作用:让计算机能&q…...

软件测试认证2026:ROI最高的5个证书

在数字化转型加速的2026年,软件测试行业正经历深刻变革。随着AI自动化测试覆盖率突破60%、DevSecOps成为行业标配,企业对测试人才的需求已从单一技能转向体系化能力认证。认证不仅是职业跃迁的杠杆,更是投资回报率(ROI&#xff09…...

如何3分钟内免费获取全球气象数据?CDS API完整教程

如何3分钟内免费获取全球气象数据?CDS API完整教程 【免费下载链接】cdsapi Python API to access the Copernicus Climate Data Store (CDS) 项目地址: https://gitcode.com/gh_mirrors/cd/cdsapi 想象一下,你是一位气候研究员,需要…...

git 修改项目远程仓库地址

1. 查看当前远程仓库地址 git remote get-url origin 或 git remote -v2. 修改远程仓库地址 git remote set-url origin <新的远程仓库地址>3. 查看是否切换成功 git remote -v...

终极Windows快捷键冲突检测指南:Hotkey Detective深度解析

终极Windows快捷键冲突检测指南&#xff1a;Hotkey Detective深度解析 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是…...

手把手教你为STM32F407添加USB2.0高速支持(含PHY选型与ULPI接线详解)

STM32F407 USB2.0高速通信实战指南&#xff1a;从PHY选型到性能优化 在嵌入式系统开发中&#xff0c;USB2.0高速接口&#xff08;480Mbps&#xff09;的实现一直是工程师面临的技术挑战之一。不同于USB1.1全速设备&#xff08;12Mbps&#xff09;&#xff0c;高速USB对信号完整…...

Go语言的Docker容器化实践

Go语言的Docker容器化实践 1. 容器化基础概念 1.1 Docker核心概念 镜像(Image)&#xff1a;应用程序及其依赖的打包容器(Container)&#xff1a;镜像的运行实例仓库(Repository)&#xff1a;存储镜像的地方 1.2 Go语言与Docker的优势 Go语言编译为静态二进制文件&#xff0c;体…...

DeOldify云原生部署:基于Docker和Kubernetes构建弹性伸缩服务

DeOldify云原生部署&#xff1a;基于Docker和Kubernetes构建弹性伸缩服务 1. 引言 想象一下&#xff0c;你手里有一批珍贵的老照片&#xff0c;它们承载着家族的记忆&#xff0c;但岁月留下的泛黄和模糊却让细节难以辨认。或者&#xff0c;你的内容创作团队需要为一部历史题材…...

Ansible 高并发实战:从异步到集群的完整方案

一、前言Ansible 高并发实战&#xff1a;从异步到集群的完整方案是 Java 后端开发中的核心知识点。本文覆盖Ansible、高并发、后端&#xff0c;配有完整可运行的代码示例。二、核心实现2.1 SpringBoot 项目结构// 标准 SpringBoot 控制器 RestController RequestMapping("…...

为什么你的AIAgent在压测中“静默崩溃”?揭秘LLM调用链中缺失的5层调试元数据

第一章&#xff1a;AIAgent架构监控与调试工具概览 2026奇点智能技术大会(https://ml-summit.org) AI Agent系统具备多层异构性——包含规划器&#xff08;Planner&#xff09;、记忆模块&#xff08;Memory&#xff09;、工具调用层&#xff08;Tool Router&#xff09;及执行…...

那些年,我们追过的技术潮流与踩过的“坑”

技术浪潮下的测试进化论在软件测试的十年激荡中&#xff0c;技术潮流如流星般划过天际——有的点亮前路&#xff0c;有的灼伤掌心。当自动化测试从“银弹神话”跌落神坛&#xff0c;当敏捷转型在流程夹缝中步履蹒跚&#xff0c;当AI测试的算法黑箱蒙上新的迷雾&#xff0c;测试…...

跟着AI学sql

1、左连接&#xff08;返回左表全部&#xff09; left join .. on ....表1 Person(PersonId,FirstName,LastName)表2 Address(AddressId,PersonId,City,State)查询每个人的姓、名、城市、州&#xff0c;没有人的地址也要显示select p.FirstName,p.LastName,a.City,a.Statefrom …...

前端动画新方法:别再用传统 CSS 动画了

前端动画新方法&#xff1a;别再用传统 CSS 动画了 什么是前端动画新方法&#xff1f; 前端动画新方法是指在前端开发中&#xff0c;随着技术的发展&#xff0c;出现的新的动画技术和方法。别以为动画只是简单的过渡效果&#xff0c;那是十年前的玩法了。 为什么需要关注前端动…...

驾校 AI 招生谁靠谱?懂驾培又懂 AI 才是关键

驾校 AI 招生谁靠谱&#xff1f;懂驾培又懂 AI 才是关键作者&#xff1a;安道利当下驾培行业&#xff0c;传统地推、硬广、老带新的招生效率持续下滑&#xff0c;获客成本飙升、线索转化率低迷&#xff0c;AI 招生已成为驾校破局的必选项。但市场上 AI 招生服务商鱼龙混杂&…...

SQL触发器在高并发下的可靠性设计_优化触发锁竞争范围

MySQL/PG触发器中应避免全表操作、非确定性函数及跨表更新&#xff0c;优先用NEW字段赋值、应用层传参、异步消息&#xff1b;须严格控制锁粒度并压测验证。触发器里别写 UPDATE 或 INSERT 全表操作高并发下最常见崩点&#xff1a;触发器里执行 UPDATE orders SET status proc…...

从面包板到PCB:我的第一个STC89C52RC学习板实战升级记录

从面包板到PCB&#xff1a;我的第一个STC89C52RC学习板实战升级记录 记得第一次在面包板上搭建STC89C52RC实验电路时&#xff0c;那些横七竖八的跳线就像一团理不清的毛线。每当需要修改电路&#xff0c;就得小心翼翼地拔出几根线&#xff0c;结果往往是牵一发而动全身——旁边…...

东莞PVC收缩膜源头厂家选择

在东莞&#xff0c;PVC 收缩膜的应用场景早已渗透五金、建材、日用品、电子等多个行业&#xff0c;成为企业包装的刚需材料。但面对市面上良莠不齐的源头厂家&#xff0c;如何精准筛选出 “靠谱、适配、有潜力” 的合作伙伴&#xff1f;今天&#xff0c;我们从 “发展规模、产品…...

从婴儿学步到AI进化:具身智能如何模仿人类学习过程?

从婴儿学步到AI进化&#xff1a;具身智能如何模仿人类学习过程&#xff1f; 在东京大学的一个实验室里&#xff0c;一台人形机器人正尝试用机械手指捏起桌上的积木。它失败了37次&#xff0c;却在第38次成功时将动作数据上传至云端——这个场景像极了人类婴儿第一次成功抓取玩具…...

HWSD2.0:从全球土壤数据到精准农业与生态评估的革新

1. HWSD2.0&#xff1a;土壤数据的革命性升级 记得十年前我第一次用HWSD1.2做农田土壤分析时&#xff0c;经常为数据精度不够发愁。那时候只有两层土壤数据&#xff0c;很多关键参数都缺失&#xff0c;做模型时不得不靠经验值来填补。现在HWSD2.0的发布&#xff0c;简直像给土壤…...

js 方法

数组转对象const foo document.querySelectorAll(.foo); const nodes Array.from(foo);立即执行函数可以写成箭头函数的形式。(() > { console.log(Welcome to the Internet.);})();const boundMethod (...params) > method.apply(this, params);function divide(a, …...