当前位置: 首页 > article >正文

Agent 时代的控制论:Harness Engineering 深度解析(深度硬核),从入门到精通,收藏这一篇就够了!

今年 2 月OpenAI 发布了一篇文章Harness engineering: leveraging Codex in an agent-first world描述了一种新的工作方式工程师不再直接编写代码而是设计环境、制定规则让 agent 在其中完成编码。这篇文章很快在技术圈引发了广泛讨论。有人认为这是软件工程的终结也有人觉得不过是新的炒作。事实上围绕 AI coding 的叙事一直在演化从最早的 prompt engineering到 context engineering再到如今的 harness engineering工程师的关注点逐渐从“如何与模型对话”转向“如何构建一个能够持续运行的系统”。不过把视野再拉远一点这种演变其实也并不新鲜。从瓦特的离心调速器到 Kubernetes 的控制器工程师的角色早已多次完成类似的转变从亲手操作系统变成设计让系统自动运转的机制。1948 年Norbert Wiener 将这种模式命名为控制论cybernetics。因此真正值得追问的问题或许不是“AI 会不会取代程序员”而是当反馈回路终于能够在“架构决策”这一层闭合时工程师需要做什么才能让这套机制真正运转起来01.同一个模式出现了三次我读完 OpenAI 那篇关于 harness engineering 的文章后心里一直有种说不清楚的感觉。直到某一刻我突然想通了这个模式我已经见过了而且见过不只一次是三次。第一次是在 18 世纪 80 年代。詹姆斯·瓦特James Watt发明了离心调速器Centrifugal governor。在这之前工人得一直守在蒸汽机旁边用手不停地调节阀门。有了调速器之后一套带飞球的机械装置会自动感知转速、自动调节阀门。工人没有因此消失只是工作内容变了从亲手拧阀门变成设计调速器本身。离心调速器Centrifugal governor是一种利用离心力自动调节发动机转速的机械装置。1788 年James Watt 对这一装置进行了改进并将其用于蒸汽机的自动速度控制。第二次是在 Kubernetes 出现之后。使用 Kubernetes 的时候你只需要声明目标状态比如运行三个副本、用这个镜像、分配这些资源。控制器controller会持续监测系统的实际状态一旦实际状态和目标状态出现偏差控制器就会自动介入修正重启崩溃的 Pod调整副本数量回滚出问题的部署。工程师的工作也随之改变从手动重启服务变成编写系统需要对齐的目标 spec。Kubernetes 是一个开源的容器编排平台用于自动化部署、扩展和管理容器化应用例如基于 Docker 的应用。它最初由 Google 设计并开源现在由 Cloud Native Computing Foundation 维护是现代云原生基础设施的核心组件之一。第三次就是现在。OpenAI 在文章中描述了这样一批工程师他们不再亲手写代码而是负责设计运行环境、构建反馈回路、把架构约束转化成可执行的规则然后让 agent 去完成实际的编码工作。他们用五个月生成了约一百万行代码没有一行是人手写的。OpenAI 把这种工作方式叫做“harness engineering”。每一次变化的背后其实都是同一个模式。诺伯特·维纳Norbert Wiener在 1948 年给这个模式命名为控制论cybernetics。这个词来自希腊语 κυβερνήτης意思是舵手Kubernetes 这个名字也来自同一个词根。本质含义都是一样的你不再需要亲手拧阀门而是开始掌舵。Norbert Wiener1894–1964是美国数学家被认为是控制论的奠基人之一在Cybernetics: Or Control and Communication in the Animal and the Machine中提出信息、控制与反馈的理论框架。这个模式每次出现背后都有同一个原因有人造出了足够强大的传感器和执行器能够在那个层面上把反馈回路闭合起来。02.为什么代码库是最后被攻克的领域代码库并不是没有反馈回路feedback loop只是这些回路都存在于底层。•编译器Compilers在语法层面闭合回路•测试套件在行为层面闭合回路•Linter 在代码风格层面闭合回路。这些机制虽是真实的控制论回路但仅能处理可机械检验的问题比如代码能编译吗测试能通过吗格式符合规范吗再往上一层就没有任何自动化机制了比如这个改动符合系统的整体架构吗这个技术方案是对的吗这个抽象层随着代码库不断增长将来会不会出问题这些问题既没有传感器来感知也没有执行器来修正。只有人能在这个层面上工作而且两端都需要人来完成一端是判断质量好坏另一端是动手写出修复方案。而 LLM 同时改变了上述这两端。LLM能像人一样判断代码质量和进行改动重构一个模块重新设计接口不一致的地方围绕真正重要的约束条件重写整套测试。这是第一次反馈回路可能在真正关键的决策层面闭合。但是闭合回路只是必要条件还不是充分条件。瓦特的调速器需要仔细调校才能正常工作Kubernetes 的控制器需要一份正确的 spec 才能对齐目标而在代码库里工作的 LLM则需要一样更难提供的东西。03.如何校准传感器和执行器事实上让 agent 能够执行测试、CI 能产出可解析的结果、报错信息能指向具体修复方向这样的基础反馈循环运行起来仅仅是最低门槛。Carlini 曾经做过一个演示他让 16 个 agent 并行协作一起构建一个 C 编译器。他用的 prompt 极其简单但测试基础设施的设计却非常精心。他事后说“我大部分的精力都花在设计 Claude 周围的环境上也就是测试、运行环境和反馈机制。”Nicholas Carlini 是美国计算机科学家专注于 AI 安全与对抗性攻击adversarial attacks的研究。也就是说真正困难的问题在于如何基于你对自己系统的认知来校准这套传感器和执行器。大多数人就卡在这一步然后把问题归结于 agent 本身“它一直在做错误的事情它根本不理解我们的代码库。”这种诊断几乎总是错的。Agent 失败不是因为它的能力不够而是因为它需要的那些知识比如对你的系统来说什么叫做“好”、你的架构鼓励哪些模式、又刻意回避哪些模式这些知识全都锁在你自己的脑子里你从来没有把它们写出来。Agent 不会自主学习进化。如果你不把这些知识写下来agent 第一百次犯的错会和第一次一模一样。因此真正需要做的工作是把你的判断标准变成机器可以读懂的形式写一份描述真实分层结构和依赖方向的架构文档配置一套内置了修复指引的自定义 Linter整理一套把团队审美和品味编码进去的黄金原则。OpenAI 也发现了这一点他们曾经每周五花 20% 的时间专门清理“AI slop”后来他们把自己的标准直接编进了 harness 本身问题才得到根本解决。04.唯一的出路文档、自动化测试、编码成规则的架构决策、快速的反馈回路这些本来就是正确的工程实践。过去三十年几乎每一本软件工程的书都在推荐这些。但大多数人选择跳过因为跳过的代价来得很慢、散得很开代码质量缓慢下滑但新人上手越来越痛苦技术债在不知不觉中积累。Agentic engineering 让这个代价变得极端。**•**如果你跳过了文档agent 就会无视你所有的规范而且不是在某一个 PR 上出问题而是在每一个 PR 上都出问题并以机器的速度全天候不间断地重复同样的错误。**•**如果你跳过了测试反馈回路就根本无法闭合。**•**如果你跳过了架构约束代码漂移的速度会远远快过你手动修复的速度。代码漂移Code Drift指的是软件项目中代码随时间逐渐偏离最初设计目标或规范的现象可能表现为架构不一致、功能冗余等。这种漂移会增加维护成本、降低代码可读性和可靠性。•更糟糕的是如果 agent 不知道什么叫做整洁的代码你就没有办法用 agent 来收拾这个烂摊子。也就是说没有经过校准的 agent制造出了问题也解决不了问题。该做的事情从来没有变过。只是不做这些事情的代价已经变得无法承受。正因如此我们必须关注生成之外的验证环节。生成答案和验证答案之间存在明显的不对称性也就是 P vs NP 问题的核心直觉通常验证一个答案比生成一个正确答案要容易得多。Cobbe 等研究者已经在 LLM 上通过实验验证了这一点。这个不对称性给出了明确的方向你不必在编写代码上比机器更快只要你能知道怎么高效地评估它的产出。也就是说你需要能够定义什么是“正确”识别输出结果偏离目标的地方并判断整体方向是否正确。P vs NP 问题是计算机科学中一个未解难题每个能被快速验证的问题NP 类问题是否也能被快速求解 P 类问题。Karl Cobbe 等人在 2021 年 10 月 27 日 在 arXiv 发布了 Training Verifiers to Solve Math Word Problems实验证明在 LLM 上训练“验证器”用于判断答案正确性要比直接生成正确答案任务更容易验证方法显著提高了模型在数学应用题上的表现。那些当年设计了瓦特调速器的工人后来没有回去拧阀门。不是因为他们不会拧而是因为回去拧阀门这件事已经没有任何意义了。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Agent 时代的控制论:Harness Engineering 深度解析(深度硬核),从入门到精通,收藏这一篇就够了!

今年 2 月,OpenAI 发布了一篇文章 Harness engineering: leveraging Codex in an agent-first world,描述了一种新的工作方式:工程师不再直接编写代码,而是设计环境、制定规则,让 agent 在其中完成编码。 这篇文章很快…...

Java毕业设计基于springboot+java云平台的信息安全攻防实训平台

前言 随着信息技术的快速发展,信息安全问题日益凸显,成为制约信息化进程的关键因素之一。为了培养具备扎实信息安全知识和技能的人才,Java基于云平台的信息安全攻防实训平台应运而生。该平台通过模拟真实的信息安全攻防场景,为学生…...

打造可靠的 LLM 检索触发器(深度硬核),语料库统计量方法全解析,收藏这一篇就够了!

摘要 本文提出QuCo-RAG框架,通过预训练语料库统计量而非模型内部信号来量化不确定性,解决动态检索增强生成中的幻觉问题。该方法在多跳问答任务上相比最优基线提升5-12个EM点,并可迁移至未公开训练数据的模型,为动态RAG建立了基于…...

Logstash与FileBeat实战指南

Logstash与FileBeat详解 Logstash和FileBeat是ELK(Elasticsearch、Logstash、Kibana)堆栈中用于数据采集和传输的核心组件。Logstash是一个功能强大的数据处理管道,支持多种输入、过滤和输出插件。FileBeat是一个轻量级的日志文件采集工具&am…...

HTTPS 加密传输原理

在面试后端、Java 开发、网络安全时,HTTPS 加密过程几乎是必考题。很多同学能说出 “加密”,但一深入到对称加密、非对称加密、数字证书、公钥私钥就开始混乱。这篇文章用最通俗、最直白、最适合面试的方式,带你彻底搞懂 HTTPS 到底是怎么加密…...

【网页SSE】

今天我们要深入探讨一个在实时通信领域非常优雅且高效的技术——SSE,也就是服务器发送事件。 为了让大家直观地理解,我们先从生活中的点餐场景说起。想象一下,你点完餐后,是如何知道菜品是否准备好的呢? 在 Web 开发的…...

d3dx9_28.dll完全免费修复方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…...

国央企如何提升技术创新与成果转化效率?

国央企作为国家科技创新的主体力量,肩负着突破关键核心技术、推动产业升级、服务国家战略的重任。然而,在当前数智化浪潮席卷全球,科技成果转化进入“数据密集型创新”新阶段的背景下,国央企传统的技术创新与成果转化模式正面临严…...

Captain AI:重构Ozon视频营销链路的全流程革命

当Ozon平台视频流量占比突破40%进入"精细化运营2.0"时代,中国卖家却仍困于"脚本靠编、剪辑靠蒙、上传靠等、效果靠猜"的传统困局。Captain AI以"技术驱动效率革命"为核心,通过"全链路数据追踪多模态AI引擎平台规则库…...

光伏储能虚拟同步发电机Simulink仿真模型探索

光伏储能虚拟同步发电机simulink仿真模型 主电路:三相全桥逆变 直流侧电压800V 光伏模块:光伏板结合Boost电路应用MPPT 储能模块:采用双闭环控制,外环直流母线电容稳压,内环为电池电流环控制 Matlab/simulink 2021b版本…...

Redis缓存三大问题(缓存穿透Cache Penetration、缓存击穿Cache Breakdown、缓存雪崩Cache Avalanche)缓存空值、布隆过滤器、逻辑过期、Binlog

文章目录一、Redis缓存三大问题1️⃣ 缓存穿透(Cache Penetration)✔ 本质✔ 解决方案方案1:缓存空值(最常用)方案2:布隆过滤器(Bloom Filter)方案3:参数校验2️⃣ 缓存击…...

2026 轻量模型三国杀:Flash-Lite vs GPT-4.1 Nano vs Haiku,技术选型到底该站谁?

2026 年 Q1 的 AI 模型市场有个明显趋势:巨头们开始卷"便宜好用"这条赛道。Google 放了 Gemini 3.1 Flash-Lite,OpenAI 有 GPT-4.1 Nano,Anthropic 更新了 Claude Haiku。三家都在说自己是"最具性价比的选择"。对使用者来…...

【开题答辩全过程】以 基于SSM在线考试系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…...

用 LiteLLM 打通 Codex CLI 与 Claude Code(有key即可实现编程自由)

前言 最近我一直在做一件事:既然 Codex CLI 已经可以通过 LiteLLM 接入 Azure GPT-5.4,那能不能进一步把 Claude Code 也打通,让两套 CLI 共用同一层代理、同一组模型别名、同一套启动方式? 更重要的是,这个过程不能…...

2026国际国内大中型PLC行业市场分析

当前,中国大中型PLC市场正处于“外资主导”向“外资与国产并存”的结构性转折期。2025年市场规模已达95–100亿元,外资品牌仍占据约81%份额,但国产品牌加速突围。在国际供应链波动、国家自主可控政策加速落地、国产品牌技术成熟度提升三重因素…...

聚焦技术落地!巨有科技AI伴游破解文旅智能化痛点,复刻服贸会热点实效

2026年服贸会文旅专题展上,“AI文旅”成为核心热点,AI数字人、XR沉浸导览等技术刷屏全场,让行业看到了文旅智能化的广阔前景。但CSDN平台多数技术开发者、文旅技术负责人反馈,当前AI文旅落地陷入“三重困境”:技术与场…...

西门子1500PLC在仓储物流立体仓库项目中的实践

西门子1500PLC仓储物流 立体仓库程序,附带图纸堆垛机西门子PLC程序输送线程序。 物流仓储。 1.涵盖通信,算法,运动控制,屏幕程序,可电脑仿真测试,实际项目完整程序。 3.西门子S7-1200 4.博途V16编程 5.采用…...

黄仁勋2026GTC演讲:推理时代到来,2026年Groq芯片(B300),龙虾是新操作系统

黄仁勋GTC演讲:推理时代到来,2026年Groq芯片(B300),龙虾是新操作系统 📈AI已从“生成时代”进入“推理时代”,未来算力需求将爆炸式增长,而OpenClaw“龙虾”操作系统将成为驱动这一时…...

3D Tiles 2.0 技术审查整理稿

基于 134th OGC Member Meeting: 3D Tiles 2.0 Preview 自动字幕整理并做了轻度顺稿处理,以便阅读。个别产品名和技术术语在语义明确的情况下做了规范化处理。 Amanda Morgan 在开场时表示,3D Tiles 已经改变了地理空间计算领域原本能够做到的事情。自从…...

gogs安装教程

Gogs安装过程记录 Gogs 是一个轻量级的自托管 Git 服务,适用于资源有限的环境。以下是如何在 Ubuntu 系统上安装和配置 Gogs 的步骤。 步骤 1:更新系统并安装依赖 更新系统包: sudo apt update && sudo apt upgrade -y安装必要的软件…...

OpenClaw完全指南:从入门到精通的六大实用场景与实战案例

核心价值:OpenClaw 实现了从“AI顾问”到“数字员工”的本质跃迁。传统AI只能提供建议,而OpenClaw能直接操作系统,完成从邮件整理到代码部署的真实任务。通过本地优先架构保障数据隐私,借助ClawHub技能市场13729个技能覆盖30核心领…...

牙齿不好竟成心脑血管的“隐形杀手”|从细胞到疾病的深层剖析

导语:“医生,我胸口闷得慌,是不是心脏出问题了?”这是心血管门诊最常见的问诊场景。但你或许想不到,未来医生可能会多追问一句:“最近刷牙出血吗?牙龈有没有反复肿痛?”这并非无厘头…...

baijiacms-master 审计实验

01动态数据流动 为什么默认这个&#xff0c;观察参数流动 搜索关键字 给两个文件都打上断点&#xff0c;看最终流向 最终流向这里 观察代码 跳转 <?php defined(IN_IA) or exit(Access Denied);?><?php defined(SYSTEM_IN) or exit(Access Denied);?><div…...

全平台 Docker 部署 CPA(CLIProxyAPI Plus) 灵活定制指南 (Linux/Windows)——接入Codex

对于经常折腾 AI 工具的朋友来说&#xff0c;搭建一个专属的 API 中转代理&#xff08;如 CLIProxyAPI Plus&#xff09;是必不可少的技能。它可以帮你解决网络连通性问题、集中管理多个 OpenAI 账号。 网上很多教程喜欢把路径和端口“写死”&#xff0c;导致新手一旦想换个硬…...

LeetCodeHot100|链表总结

最近把leetcode的链表刷完了&#xff0c;所以想着来写一个关于链表的小结刷过的题目表相交链表、反转链表、回文链表、环形链表、环形链表二、两个合并有序链表、删除链表的倒数第N个结点、两两交换链表中的节点、K个一组翻转链表、随机链表的复制、排序链表、LRU缓存这些都是关…...

企业考勤系统场景适配能力深度解析:2号人事部的考勤适配多场景吗?

企业考勤系统场景适配能力深度解析&#xff1a;2号人事部如何覆盖全链路用工需求&#xff1f;对于处于购买决策最后阶段的企业HR而言&#xff0c;选择考勤系统的核心诉求早已从“能打卡”升级为“能解决具体场景的痛点”。当远程办公、多班次倒班、跨区域连锁、灵活用工等场景成…...

lumenpnp4.01方型主控板改外接闭环步进电机

一、现状 在lumenpnp4.01开源贴片机中,我使用的时10x10cm的4.01版本的LUMENPNP贴片机控制板,主控板如下图,x,y轴为板载TMC2209驱动,TMC2209步进电机驱动具有以下优点: 1. 极致静音与低振动(StealthChop2 技术) 采用 电压模式 PWM 斩波,运行时几乎无噪音,适合对静…...

黄仁勋GTC 2026演讲感悟及算力云平台选型方向

开篇感悟&#xff1a;演讲核心启示&#xff0c;算力价值再定义2026年3月&#xff0c;黄仁勋在GTC大会上的演讲&#xff0c;以扎实的技术突破和可落地的全栈方案&#xff0c;重塑了我们对AI算力价值的认知。“数据中心就是AI工厂”“SaaS终将升级为AaaS”的论断&#xff0c;以及…...

解决 SVG 作为 CSS 背景图无法 background-size: 100% 100% 拉伸的问题

1. 问题描述 在 Vue 或 Element Plus 项目中&#xff0c;为容器&#xff08;如 .el-table__header&#xff09;设置 SVG 背景图时&#xff0c;即使指定了 background-size: 100% 100%&#xff0c;SVG 依然保持原始比例&#xff0c;导致两侧留白或显示不全&#xff0c;无法自适应…...

大模型记忆体:赋予AI“过目不忘”能力的核心机制(收藏版)

本文深入探讨了大型语言模型&#xff08;LLM&#xff09;记忆体的重要性与设计要素。文章首先定义了大模型记忆的概念&#xff0c;从狭义的外部存储到广义的参数记忆&#xff0c;阐述了记忆在LLM中的双重作用。接着&#xff0c;从认知心理学、自我演进和应用需求三个角度论证了…...