当前位置: 首页 > article >正文

Harness Engineering:Agent 时代,工程师的新战场

关注 AI 的同学大概率对这两个词已经不陌生了提示词工程Prompt Engineering和上下文工程Context Engineering。前者教你怎么跟模型说话后者教你往模型的上下文窗口里塞什么内容。但从 2026 年初开始一个新的词开始在工程圈里流传——Harness Engineering。这篇文章想聊聊这个东西到底是什么它从哪里来和前两者有什么区别以及为什么它开始变得重要。这个词是怎么来的2026 年 2 月HashiCorp 联合创始人 Mitchell HashimotoTerraform 的创作者在博客里第一次明确提出了这个说法。他的核心观点很直接每当发现 Agent 犯了一个错误就花时间设计一个方案确保它永远不会再犯同样的错误。几天后OpenAI 发布了一篇工程报告标题叫Harness engineering: leveraging Codex in an agent-first world。报告里描述了一个实验三名工程师用五个月时间借助 Codex构建了一个拥有约一百万行代码的内部产品而且这期间没有一行代码是人工手写的。整个代码库——包括应用逻辑、测试、CI 配置、文档、内部工具——全部由 Agent 生成。效率大约是传统方式的十倍。这篇报告一出Harness Engineering 这个词就真正火了。Martin Fowler 随后写了深度分析Ethan Mollick 也把自己的 AI 指南框架围绕这个概念重新整理了一遍。Harness这个词什么意思Harness 是马具的意思——缰绳鞍具那一套把马的力气引导到正确方向上。类比 AI Agent 很贴切大模型跑得快但容易跑偏Harness 就是那套把它拉住、引导它的机制。Harness Engineering直译驾驭工程指的是围绕 AI Agent 构建约束机制、反馈回路和持续改进循环的系统工程实践——核心问题是Agent 有了强大的代码生成能力之后怎么确保输出可靠、一致、长期可维护。和提示词工程、上下文工程有什么区别这三者是嵌套关系不是替代关系。提示词工程关注的是单次交互怎么写一个好 prompt让模型给出更好的回答。这是最早被广泛讨论的技术也是大多数人入门 AI 的第一步。它的粒度很小主要在这一句话怎么说这个层面。上下文工程关注的范围更大一些给 Agent 看什么信息怎么组织这些信息让它在执行任务时有足够的背景。比如怎么管理上下文窗口里的内容怎么在多轮对话中保持信息的连贯性怎么让 Agent 知道代码仓库的结构和规范。Harness Engineering关注的是整个系统层面Agent 运行在什么样的环境里这个环境有哪些约束和反馈机制当 Agent 出错时系统怎么自动纠正人类的判断力怎么被编码进系统里持续发挥作用。有人打了个比方模型是 CPUHarness 是操作系统。CPU 再强操作系统设计得差也白搭。另一种说法更直接上下文工程管的是给 Agent 看什么Harness Engineering 管的是系统怎么防崩、怎么量化、怎么修。维度提示词工程上下文工程Harness Engineering关注层级单次交互单次任务整个系统核心问题这句话怎么说给 Agent 看什么系统怎么防崩、怎么修操作对象Prompt 文本上下文窗口内容约束机制 反馈回路作用时机发送请求前任务执行期间持续运行典型产出更好的回答更准确的任务执行可靠、可维护的系统类比怎么跟马说话给马看什么地图设计缰绳和跑道为什么需要它有一个实验数据很能说明问题。Can.ac 团队只改变了 Harness 的工具格式也就是 Agent 和代码文件交互的接口方式没有动任何模型权重结果在 16 个不同模型上都显著提升了编码基准分数。其中效果最明显的 Grok Code Fast 1从 6.7% 跳到了 68.3%。这说明什么在很多情况下限制 Agent 表现的不是模型本身的能力而是它运行的环境和约束机制。OpenAI 的工程团队在报告里说得很坦率真正卡住他们的不是 Codex 写代码的能力而是围绕它的结构、工具和反馈机制跟不上。五个独立团队得出了相同的结论基础设施才是瓶颈不是智能水平。Agent 在没有约束的环境里会暴露出几个典型问题第一倾向于一次把所有事情做完结果做到一半上下文窗口耗尽了下一个会话启动时面对的是半成品代码完全不知道之前发生了什么。第二在项目后期看到已经完成了一些功能就直接宣布任务完成哪怕还有大量工作没做。第三写完代码就标记为完成根本没做端到端测试。单元测试通过了不代表功能真正可用。第四每次新会话启动时需要花大量精力弄清楚怎么运行这个项目而不是把时间花在实际开发上。这些问题靠更好的 prompt 很难根本解决需要在系统层面设计对应的机制。Harness Engineering 主要做什么综合 OpenAI、Anthropic 等团队的实践Harness Engineering 大概围绕几个核心方向展开。上下文的分层管理不是把所有信息堆在一个地方而是按需加载。OpenAI 的做法是维护一个简短的 AGENTS.md 文件大约 100 行作为入口指向更深层的设计文档、架构说明、执行计划等。这些文档分层组织Agent 从一个小而稳定的切入点开始被引导去找更深层的信息而不是一开始就被淹没。有个值得注意的经验上下文窗口不是填得越满越好。有研究者发现上下文用到大约 40% 就开始走下坡路超过这个比例模型输出质量会明显下降——幻觉增多、格式出错、代码质量降低。给 Agent 塞一堆工具、冗长文档和累积的对话历史不会让它更聪明反而会让它变笨。把约束机械化文档记录是不够的。OpenAI 的原话是如果约束不能被机械化地执行Agent 就会偏离。他们为代码仓库定义了严格的分层架构每个业务域的代码只能按照固定方向依赖Types → Config → Repo → Service → Runtime → UI任何违反这个方向的代码都会被自定义 Linter 自动检测并阻止。这些 Linter 还有一个细节设计错误消息不只是标记违规还直接告诉 Agent 怎么修复。工具在 Agent 工作的同时教会它。这种方式在传统团队里可能显得过于死板但对 Agent 来说约束越清晰它反而能跑得越快不会因为不知道边界在哪里而不断试错。把代码仓库当作唯一事实源Agent 在运行时无法访问的内容对它来说就不存在。存在 Slack 讨论里的架构决策、写在 Google Docs 里的产品规范、只活在工程师脑子里的隐性知识——这些对 Agent 来说全是盲区。OpenAI 的团队花了大量时间把团队知识迁移到代码仓库里以版本控制的 Markdown 文档形式存放。他们甚至专门跑一个后台 Agent定期扫描那些已经过时的文档发起清理用的 Pull Request——由 Agent 为 Agent 维护文档。反馈回路和可观测性让 Agent 能够直接看到系统的运行状态。OpenAI 把 Chrome DevTools 接入了 Agent 的工作流让 Codex 能够捕获 DOM 快照和截图能够查询日志和指标。这样一来把启动时间降到 800 毫秒以下这样的目标就变成了可度量、可验证的东西Agent 可以自己跑应用、自己验证修复是否有效。他们看到过单次 Codex 运行在单个任务上持续工作超过六个小时的情况通常是在人类睡觉的时候。熵管理Agent 生成的代码积累技术债的方式和人写的代码不太一样。LLM 生成的代码经常重新实现已有的功能会复现代码仓库里已有的模式——包括那些不好的模式。OpenAI 最开始是每周五花 20% 的时间手动清理AI 残渣后来意识到这不可扩展改成了定期运行的后台 Agent自动扫描偏差、更新质量评级、发起重构 Pull Request。大多数清理 PR 可以在一分钟内完成审查并自动合并。工程师的角色在变这件事背后有一个更大的变化工程师在做什么这件事本身在发生改变。当 Agent 承担了大量代码生成的工作工程师的主要工作就不再是写代码了而是设计 Agent 能够高效工作的环境。当 Agent 卡住时问题不是再努力一点而是它缺少什么样的能力怎么让 Agent 自己去构建这个能力。OpenAI 的工程师描述了一种工作方式他们几乎完全通过 prompt 与系统交互描述任务运行 Agent允许它打开 Pull Request再对结果进行审查。人类的时间和注意力成了真正稀缺的资源所有的设计都在围绕怎么最大化利用这个资源。规划变得比以前更重要。Cloudflare 的一位工程师总结了一条原则永远不要让 Agent 在你审查和批准书面计划之前写代码。先把计划做对实现才会可靠计划有误500 行代码生成出来之后再改就麻烦多了。还有什么没解决这个领域还很新有三个核心问题暂时没有答案遗留代码库怎么改造现有成功案例全是从零开始、功能正确性怎么验证防错容易验对难、AI 生成代码的长期技术债怎么治理积累规律和人写的代码不同。小结Harness Engineering 代表的是一种视角转变从怎么让模型写出更好的代码到怎么设计一个让模型可以可靠工作的系统。这不是等更强的模型出来就能解决的问题——模型越强能给的自主权越大围绕它的约束和反馈机制反而需要越完善。如果只记一句话瓶颈不在智能而在基础设施。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Harness Engineering:Agent 时代,工程师的新战场

关注 AI 的同学大概率对这两个词已经不陌生了:提示词工程(Prompt Engineering)和上下文工程(Context Engineering)。前者教你怎么跟模型说话,后者教你往模型的上下文窗口里塞什么内容。但从 2026 年初开始&…...

QT----集成onnxRuntime实现图像分类应用实战

1. 环境准备与工具链搭建 在开始构建QTonnxRuntime图像分类应用之前,我们需要先准备好开发环境。这里我推荐使用Windows系统作为开发平台,因为大多数QT开发者都习惯在这个环境下工作。首先需要安装Visual Studio 2019或更高版本,这是编译QT应…...

这次终于选对了!盘点2026年圈粉无数的AI论文网站

一天写完毕业论文在2026年已不再是天方夜谭。这是2026年最炸裂、实测能大幅提速的AI论文网站,覆盖选题、写作、查重、排版全流程,真正帮你高效搞定论文。 一、全流程王者:一站式搞定论文全链路(一天定稿首选) 这类工具…...

导师推荐!盘点2026年顶流之选的AI论文写作工具

一天写完毕业论文在2026年已不再是天方夜谭。2026年AI论文写作工具全面升级,实测提速超300%,覆盖选题构思、文献综述、数据整理、格式排版等核心场景,高效搞定论文不再是梦想。 一、全流程王者:一站式搞定论文全链路(一…...

终极指南:用EdgeRemover快速彻底卸载微软Edge浏览器

终极指南:用EdgeRemover快速彻底卸载微软Edge浏览器 【免费下载链接】EdgeRemover PowerShell script to remove Microsoft Edge in a non-forceful manner. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover 还在为Windows系统中无法彻底移除Micro…...

从GOPATH到Go Mod:老项目迁移必知的5个文件结构陷阱

从GOPATH到Go Mod:老项目迁移必知的5个文件结构陷阱 当Golang社区在2018年推出Go Modules时,很少有人预料到这个看似简单的包管理工具会成为Go语言发展史上的分水岭。四年后的今天,仍有大量遗留项目困在GOPATH的泥潭中,而迁移过程…...

STM32家庭健康检测仪设计与实现

基于STM32的家庭健康检测仪设计与实现1. 项目概述1.1 系统架构本家庭健康检测仪采用模块化设计架构,以STM32F103RCT6为主控芯片,集成多种生物传感器实现体温、心率和血氧检测功能。系统硬件架构如下图所示:[主控芯片] ←→ [传感器模块] ←→…...

从Flask裸奔到MCP标准落地:7步迁移指南+自动转换脚本(已验证支撑日均50万次Agent调用)

第一章:Python MCP 服务器开发模板概览与核心价值Python MCP(Model-Controller-Protocol)服务器开发模板是一套面向协议驱动微服务架构的轻量级开发框架,专为快速构建符合 MCP 规范的 AI 工具集成后端而设计。它抽象了协议适配、会…...

3个核心价值重塑漫画阅读体验:Venera跨平台漫画阅读器全面解析

3个核心价值重塑漫画阅读体验:Venera跨平台漫画阅读器全面解析 【免费下载链接】venera A comic app 项目地址: https://gitcode.com/gh_mirrors/ve/venera 当你在手机上读到精彩漫画章节却不得不中断通勤,回家后打开电脑却要重新寻找上次阅读位置…...

告别依赖地狱:用Buildroot一键搞定OpenCV 4.x在ARM板上的交叉编译环境

告别依赖地狱:用Buildroot一键搞定OpenCV 4.x在ARM板上的交叉编译环境 在嵌入式视觉应用开发中,OpenCV几乎是不可或缺的计算机视觉库。但当开发者尝试将OpenCV部署到ARM架构的嵌入式设备时,往往会陷入依赖库编译的泥潭——FFmpeg、libjpeg、l…...

AutoSAR实战:NVRAM Manager配置避坑指南(附完整代码示例)

AutoSAR实战:NVRAM Manager配置避坑指南(附完整代码示例) 在汽车电子开发领域,AutoSAR框架的NVRAM Manager(NvM)模块是管理非易失性数据的关键组件。许多工程师在初次配置时容易陷入性能陷阱和功能误区&…...

ECharts Geo Regions 进阶:自定义地图省份边界与区域样式的实战技巧

1. 理解ECharts中的geo.regions属性 ECharts作为一款强大的数据可视化工具,其地图组件在展示地理信息数据时尤为出色。在实际项目中,我们经常需要对特定省份或区域进行个性化样式设置,这时候geo.regions属性就派上用场了。这个属性允许我们对…...

DFPlayer Mini串口协议与嵌入式驱动开发实战

1. DFPlayer Mini 驱动库技术解析:面向嵌入式工程师的底层控制实践DFPlayer Mini 是 DFRobot 推出的一款高度集成、低成本、低功耗的串口控制 MP3 播放模块,广泛应用于智能语音播报、工业人机交互、教育机器人、IoT 音频终端等场景。其核心价值在于&…...

Adafruit DPS310传感器驱动库深度解析与嵌入式实践

1. Adafruit DPS310 压力传感器驱动库深度解析与工程实践 1.1 项目定位与硬件基础 Adafruit DPS310 是一款高精度、低功耗的数字气压/温度传感器,基于 Infineon(原 Bosch Sensortec)DPS310 芯片设计。该芯片采用 MEMS 技术,集成…...

深蓝词库转换:如何实现20+输入法词库的一键互通

深蓝词库转换:如何实现20输入法词库的一键互通 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾因更换输入法而不得不放弃多年积累的个人词库&…...

嵌入式软件工程师面试技术要点解析

嵌入式软件工程师面试技术要点解析1. 通信接口技术1.1 RS-485通信特性RS-485标准采用差分信号传输,物理层上支持全双工通信,但在实际应用中通常配置为半双工模式。这种设计选择主要基于以下工程考虑:半双工模式下只需一对双绞线,显…...

OpenClaw智能截图:nanobot自动识别图片中的文字信息

OpenClaw智能截图:nanobot自动识别图片中的文字信息 1. 为什么需要智能截图工具 在日常工作和学习中,我们经常遇到需要从图片中提取文字的场景。比如截取网页上的技术文档片段、保存会议白板上的讨论要点、或者整理纸质书籍中的关键段落。传统做法是手…...

OpenClaw内容创作流:nanobot辅助生成技术文章草稿

OpenClaw内容创作流:nanobot辅助生成技术文章草稿 1. 从灵感到初稿的自动化尝试 去年冬天,当我面对第五篇技术博客的空白文档时,突然意识到一个残酷事实:写作最耗时的不是码字本身,而是前期资料搜集和结构搭建。就像…...

OpenClaw多模态实践:Qwen3-VL:30B图片识别+飞书对话

OpenClaw多模态实践:Qwen3-VL:30B图片识别飞书对话 1. 为什么需要多模态AI助手? 上周我整理团队活动照片时遇到一个典型场景:需要从200多张合影中筛选出包含特定成员的图片,并生成对应的活动纪要。手动操作不仅耗时,…...

光阀的“第二曲线”:投影行业LCOS技术现状与发展趋势分析

1. 报告导读与核心摘要 在投影显示技术的版图中,LCoS(硅基液晶,Liquid Crystal on Silicon)长期处于一种微妙的位置:它拥有DLP无法比拟的画质潜力,却因成本和体积问题始终未能真正撼动DLP的市场地位。然而,2025-2026年行业展会上的一系列技术突破,正在改写这一格局。 …...

USB设备安全弹出工具终极指南:告别Windows繁琐移除,一键搞定所有存储设备

USB设备安全弹出工具终极指南:告别Windows繁琐移除,一键搞定所有存储设备 【免费下载链接】USB-Disk-Ejector A program that allows you to quickly remove drives in Windows. It can eject USB disks, Firewire disks and memory cards. It is a quic…...

第一批“首席龙虾官”,月薪6万

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI当你以为🦞还是大家伙业余养养的新鲜玩具,已经有公司正经在招「龙虾官」了。(doge)随便打开一个招聘网站一搜,你别说,你还真别说,「OpenClaw」标签下的在…...

效率直接起飞!盘点2026年全民喜爱的的AI论文写作工具

一天写完毕业论文在2026年已不再是天方夜谭。2026年最炸裂的AI论文写作工具,实测提速效果惊人,覆盖选题、文献、写作、降重、排版全流程,让你高效搞定论文不再难。 一、全流程王者:一站式搞定论文全链路(一天定稿首选&…...

WorkBuddy杀疯了?一群AI专家帮我打工,我在微信里当赛博虾工头!

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI到底是谁说,给老板打工自己就当不成老板的?又是谁说,龙虾不好用、还不听使唤的?反正这些事儿,现在跟我没啥关系了。毕竟现在的我,已经转头当起了「虾工头」&#xf…...

摆脱论文困扰!高效论文写作全流程AI论文写作软件推荐(2026 最新)

论文写作全流程可拆解为文献调研→选题/开题→大纲/初稿→文献综述→降重/去AI味→润色/格式→查重/投稿七大环节,2026年AI论文写作软件按环节精准匹配,兼顾中文适配、降重能力、去AI痕迹、学术合规四大核心需求,覆盖免费/付费、通用/垂直场景…...

用过才敢说 AI论文平台测评:2026年最值得尝试的几款工具

2026年真正好用的AI论文平台,核心看生成的论文质量、低AI味、格式正确、学术适配四大指标。综合实测,千笔AI、ThouPen、豆包、DeepSeek、Grammarly 是当前最值得推荐的梯队,覆盖从免费到付费、从中文到英文、从文科到理工的全场景需求。 一、…...

OpenClaw备份方案:GLM-4-7-Flash自动加密重要文件并上传网盘

OpenClaw备份方案:GLM-4-7-Flash自动加密重要文件并上传网盘 1. 为什么需要自动化加密备份 去年的一次硬盘故障让我损失了三个月的项目资料,这件事彻底改变了我对数据安全的认知。传统备份方案要么需要手动操作(容易遗忘)&#…...

OpenClaw监控方案:Qwen3.5-4B-Claude模型异常任务预警系统

OpenClaw监控方案:Qwen3.5-4B-Claude模型异常任务预警系统 1. 为什么需要自动化监控方案 去年夏天的一个深夜,我被连续不断的手机震动声惊醒。打开电脑发现某个数据处理脚本已经运行了18小时——它本该在2小时内完成。更糟糕的是,这个错误导…...

BM12O2321-A高集成H桥模块的9位UART驱动原理与Arduino库实践

1. 项目概述BM12O2321-A 是由 Basetron(BestModules)推出的高集成度 H 桥驱动模块,专为中小功率直流电机、电磁阀、LED 阵列等双向负载控制场景设计。该模块并非传统意义上的分立 H 桥芯片(如 L298N、TB6612FNG)&#…...

Qwen3.5-35B-A3B-AWQ-4bit开源镜像实战:法律合同关键条款图示定位与文本提取

Qwen3.5-35B-A3B-AWQ-4bit开源镜像实战:法律合同关键条款图示定位与文本提取 1. 引言:当AI遇到法律合同 想象一下,你是一位法务人员,面前摆着一份长达50页的PDF合同。老板急着要你找出所有关于“违约责任”的条款,并…...