当前位置：首页 > article >正文

Harness Engineering：Agent 时代，工程师的新战场

article 2026/3/27 0:47:37

关注 AI 的同学大概率对这两个词已经不陌生了提示词工程Prompt Engineering和上下文工程Context Engineering。前者教你怎么跟模型说话后者教你往模型的上下文窗口里塞什么内容。但从 2026 年初开始一个新的词开始在工程圈里流传——Harness Engineering。这篇文章想聊聊这个东西到底是什么它从哪里来和前两者有什么区别以及为什么它开始变得重要。这个词是怎么来的2026 年 2 月HashiCorp 联合创始人 Mitchell HashimotoTerraform 的创作者在博客里第一次明确提出了这个说法。他的核心观点很直接每当发现 Agent 犯了一个错误就花时间设计一个方案确保它永远不会再犯同样的错误。几天后OpenAI 发布了一篇工程报告标题叫Harness engineering: leveraging Codex in an agent-first world。报告里描述了一个实验三名工程师用五个月时间借助 Codex构建了一个拥有约一百万行代码的内部产品而且这期间没有一行代码是人工手写的。整个代码库——包括应用逻辑、测试、CI 配置、文档、内部工具——全部由 Agent 生成。效率大约是传统方式的十倍。这篇报告一出Harness Engineering 这个词就真正火了。Martin Fowler 随后写了深度分析Ethan Mollick 也把自己的 AI 指南框架围绕这个概念重新整理了一遍。Harness这个词什么意思Harness 是马具的意思——缰绳鞍具那一套把马的力气引导到正确方向上。类比 AI Agent 很贴切大模型跑得快但容易跑偏Harness 就是那套把它拉住、引导它的机制。Harness Engineering直译驾驭工程指的是围绕 AI Agent 构建约束机制、反馈回路和持续改进循环的系统工程实践——核心问题是Agent 有了强大的代码生成能力之后怎么确保输出可靠、一致、长期可维护。和提示词工程、上下文工程有什么区别这三者是嵌套关系不是替代关系。提示词工程关注的是单次交互怎么写一个好 prompt让模型给出更好的回答。这是最早被广泛讨论的技术也是大多数人入门 AI 的第一步。它的粒度很小主要在这一句话怎么说这个层面。上下文工程关注的范围更大一些给 Agent 看什么信息怎么组织这些信息让它在执行任务时有足够的背景。比如怎么管理上下文窗口里的内容怎么在多轮对话中保持信息的连贯性怎么让 Agent 知道代码仓库的结构和规范。Harness Engineering关注的是整个系统层面Agent 运行在什么样的环境里这个环境有哪些约束和反馈机制当 Agent 出错时系统怎么自动纠正人类的判断力怎么被编码进系统里持续发挥作用。有人打了个比方模型是 CPUHarness 是操作系统。CPU 再强操作系统设计得差也白搭。另一种说法更直接上下文工程管的是给 Agent 看什么Harness Engineering 管的是系统怎么防崩、怎么量化、怎么修。维度提示词工程上下文工程Harness Engineering关注层级单次交互单次任务整个系统核心问题这句话怎么说给 Agent 看什么系统怎么防崩、怎么修操作对象Prompt 文本上下文窗口内容约束机制反馈回路作用时机发送请求前任务执行期间持续运行典型产出更好的回答更准确的任务执行可靠、可维护的系统类比怎么跟马说话给马看什么地图设计缰绳和跑道为什么需要它有一个实验数据很能说明问题。Can.ac 团队只改变了 Harness 的工具格式也就是 Agent 和代码文件交互的接口方式没有动任何模型权重结果在 16 个不同模型上都显著提升了编码基准分数。其中效果最明显的 Grok Code Fast 1从 6.7% 跳到了 68.3%。这说明什么在很多情况下限制 Agent 表现的不是模型本身的能力而是它运行的环境和约束机制。OpenAI 的工程团队在报告里说得很坦率真正卡住他们的不是 Codex 写代码的能力而是围绕它的结构、工具和反馈机制跟不上。五个独立团队得出了相同的结论基础设施才是瓶颈不是智能水平。Agent 在没有约束的环境里会暴露出几个典型问题第一倾向于一次把所有事情做完结果做到一半上下文窗口耗尽了下一个会话启动时面对的是半成品代码完全不知道之前发生了什么。第二在项目后期看到已经完成了一些功能就直接宣布任务完成哪怕还有大量工作没做。第三写完代码就标记为完成根本没做端到端测试。单元测试通过了不代表功能真正可用。第四每次新会话启动时需要花大量精力弄清楚怎么运行这个项目而不是把时间花在实际开发上。这些问题靠更好的 prompt 很难根本解决需要在系统层面设计对应的机制。Harness Engineering 主要做什么综合 OpenAI、Anthropic 等团队的实践Harness Engineering 大概围绕几个核心方向展开。上下文的分层管理不是把所有信息堆在一个地方而是按需加载。OpenAI 的做法是维护一个简短的 AGENTS.md 文件大约 100 行作为入口指向更深层的设计文档、架构说明、执行计划等。这些文档分层组织Agent 从一个小而稳定的切入点开始被引导去找更深层的信息而不是一开始就被淹没。有个值得注意的经验上下文窗口不是填得越满越好。有研究者发现上下文用到大约 40% 就开始走下坡路超过这个比例模型输出质量会明显下降——幻觉增多、格式出错、代码质量降低。给 Agent 塞一堆工具、冗长文档和累积的对话历史不会让它更聪明反而会让它变笨。把约束机械化文档记录是不够的。OpenAI 的原话是如果约束不能被机械化地执行Agent 就会偏离。他们为代码仓库定义了严格的分层架构每个业务域的代码只能按照固定方向依赖Types → Config → Repo → Service → Runtime → UI任何违反这个方向的代码都会被自定义 Linter 自动检测并阻止。这些 Linter 还有一个细节设计错误消息不只是标记违规还直接告诉 Agent 怎么修复。工具在 Agent 工作的同时教会它。这种方式在传统团队里可能显得过于死板但对 Agent 来说约束越清晰它反而能跑得越快不会因为不知道边界在哪里而不断试错。把代码仓库当作唯一事实源Agent 在运行时无法访问的内容对它来说就不存在。存在 Slack 讨论里的架构决策、写在 Google Docs 里的产品规范、只活在工程师脑子里的隐性知识——这些对 Agent 来说全是盲区。OpenAI 的团队花了大量时间把团队知识迁移到代码仓库里以版本控制的 Markdown 文档形式存放。他们甚至专门跑一个后台 Agent定期扫描那些已经过时的文档发起清理用的 Pull Request——由 Agent 为 Agent 维护文档。反馈回路和可观测性让 Agent 能够直接看到系统的运行状态。OpenAI 把 Chrome DevTools 接入了 Agent 的工作流让 Codex 能够捕获 DOM 快照和截图能够查询日志和指标。这样一来把启动时间降到 800 毫秒以下这样的目标就变成了可度量、可验证的东西Agent 可以自己跑应用、自己验证修复是否有效。他们看到过单次 Codex 运行在单个任务上持续工作超过六个小时的情况通常是在人类睡觉的时候。熵管理Agent 生成的代码积累技术债的方式和人写的代码不太一样。LLM 生成的代码经常重新实现已有的功能会复现代码仓库里已有的模式——包括那些不好的模式。OpenAI 最开始是每周五花 20% 的时间手动清理AI 残渣后来意识到这不可扩展改成了定期运行的后台 Agent自动扫描偏差、更新质量评级、发起重构 Pull Request。大多数清理 PR 可以在一分钟内完成审查并自动合并。工程师的角色在变这件事背后有一个更大的变化工程师在做什么这件事本身在发生改变。当 Agent 承担了大量代码生成的工作工程师的主要工作就不再是写代码了而是设计 Agent 能够高效工作的环境。当 Agent 卡住时问题不是再努力一点而是它缺少什么样的能力怎么让 Agent 自己去构建这个能力。OpenAI 的工程师描述了一种工作方式他们几乎完全通过 prompt 与系统交互描述任务运行 Agent允许它打开 Pull Request再对结果进行审查。人类的时间和注意力成了真正稀缺的资源所有的设计都在围绕怎么最大化利用这个资源。规划变得比以前更重要。Cloudflare 的一位工程师总结了一条原则永远不要让 Agent 在你审查和批准书面计划之前写代码。先把计划做对实现才会可靠计划有误500 行代码生成出来之后再改就麻烦多了。还有什么没解决这个领域还很新有三个核心问题暂时没有答案遗留代码库怎么改造现有成功案例全是从零开始、功能正确性怎么验证防错容易验对难、AI 生成代码的长期技术债怎么治理积累规律和人写的代码不同。小结Harness Engineering 代表的是一种视角转变从怎么让模型写出更好的代码到怎么设计一个让模型可以可靠工作的系统。这不是等更强的模型出来就能解决的问题——模型越强能给的自主权越大围绕它的约束和反馈机制反而需要越完善。如果只记一句话瓶颈不在智能而在基础设施。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Harness Engineering：Agent 时代，工程师的新战场

相关文章：

Harness Engineering：Agent 时代，工程师的新战场

QT----集成onnxRuntime实现图像分类应用实战

这次终于选对了！盘点2026年圈粉无数的AI论文网站

导师推荐！盘点2026年顶流之选的AI论文写作工具

终极指南：用EdgeRemover快速彻底卸载微软Edge浏览器

从GOPATH到Go Mod：老项目迁移必知的5个文件结构陷阱

STM32家庭健康检测仪设计与实现

从Flask裸奔到MCP标准落地：7步迁移指南+自动转换脚本（已验证支撑日均50万次Agent调用）

3个核心价值重塑漫画阅读体验：Venera跨平台漫画阅读器全面解析

告别依赖地狱：用Buildroot一键搞定OpenCV 4.x在ARM板上的交叉编译环境

AutoSAR实战：NVRAM Manager配置避坑指南（附完整代码示例）

ECharts Geo Regions 进阶：自定义地图省份边界与区域样式的实战技巧

DFPlayer Mini串口协议与嵌入式驱动开发实战

Adafruit DPS310传感器驱动库深度解析与嵌入式实践

深蓝词库转换：如何实现20+输入法词库的一键互通

嵌入式软件工程师面试技术要点解析

OpenClaw智能截图：nanobot自动识别图片中的文字信息

OpenClaw内容创作流：nanobot辅助生成技术文章草稿

OpenClaw多模态实践：Qwen3-VL:30B图片识别+飞书对话

光阀的“第二曲线”：投影行业LCOS技术现状与发展趋势分析

USB设备安全弹出工具终极指南：告别Windows繁琐移除，一键搞定所有存储设备

第一批“首席龙虾官”，月薪6万

效率直接起飞！盘点2026年全民喜爱的的AI论文写作工具

WorkBuddy杀疯了？一群AI专家帮我打工，我在微信里当赛博虾工头！

摆脱论文困扰!高效论文写作全流程AI论文写作软件推荐（2026 最新）

用过才敢说 AI论文平台测评：2026年最值得尝试的几款工具

OpenClaw备份方案：GLM-4-7-Flash自动加密重要文件并上传网盘

OpenClaw监控方案：Qwen3.5-4B-Claude模型异常任务预警系统

BM12O2321-A高集成H桥模块的9位UART驱动原理与Arduino库实践

Qwen3.5-35B-A3B-AWQ-4bit开源镜像实战：法律合同关键条款图示定位与文本提取