当前位置: 首页 > article >正文

从Prompt到Context到Harness:AI工程的三次范式转移,第三次正在发生

2026年初Anthropic 和 OpenAI 几乎同一周发了各自关于 Harness Engineering 的实践文章。加上两篇关于 Agent 记忆基础设施的学术论文以及社区里关于三代工程范式演进的讨论一个完整的图景正在浮现三代工程范式各解决什么问题2023到2024年是 Prompt Engineering 的时代。核心问题是怎么跟模型说话让它给出更好的回答。措辞、格式、few-shot 示例、Chain of Thought所有技巧都围绕一次对话展开2025年 Context Engineering 成为主流概念。Shopify CEO Tobi 的那句Context engineering is the new skill被广泛传播。核心问题变了单靠提示词不够需要把整个上下文窗口当作工程对象来设计。RAG 检索、长上下文管理、tool use 编排、memory 系统全部属于这个范畴。你在优化的是模型看到的全部信息2026年初 Harness Engineering 这个概念被两家大厂几乎同时提出。核心问题再次升级Agent 可以自主运行几个小时甚至几天了单次上下文的优化远远不够。你需要设计的是 Agent 的整个运行环境包括多 Agent 协作架构、评估反馈闭环、架构约束的机械化执行、记忆的治理和验证机制三代之间的关系每一代都包含前一代。Harness 包含 ContextContext 包含 Prompt。但每一代解决的核心问题完全不同Anthropic 怎么做让 Agent 互相评估Anthropic 工程师 Prithvi Rajasekaran 的实验揭示了一个反直觉的事实Agent 评估自己的工作基本没用不管输出质量高低Agent 给自己的评价永远是正面的。把生成和评估拆成两个独立 Agent 之后效果完全不同。评估器不是读代码打分而是用 Playwright 实际操作页面点按钮、填表单、验证功能然后根据四个维度打分设计质量、原创性、工艺细节、功能完整度前端设计实验里生成器经过5到15轮和评估器的来回迭代在第十轮做出了一个3D空间导航方案。全栈开发实验更复杂三个 Agent 分工规划器把一句话需求展开成完整产品规格、生成器用 ReactFastAPIPostgreSQL 逐步实现、评估器做 QA 测试对比数据很直观。单 Agent 20分钟花9美元产出不能用。完整 harness 6小时花200美元交付了带精灵动画、AI 集成和导出功能的完整游戏最有价值的发现随着 Opus 4.6 能力提升sprint 分解可以去掉了但评估器不能去掉。Harness 的每个组件都编码了对模型局限性的假设。模型变强之后有些假设不再成立但有些永远成立。识别哪些该留哪些该删是 harness engineering 的核心技能OpenAI 怎么做百万行代码零手写OpenAI 的实验更激进。五个月一个小团队用 Codex Agent 构建了大约一百万行代码的生产系统。零手写。应用逻辑、文档、CI 配置、可观测性基础设施、工具链全部由 Agent 生成工程师的角色彻底变了。他们做三件事设计开发环境、用结构化 prompt 表达意图、给 Agent 提供反馈循环。OpenAI 管这个叫 depth-first working把大目标拆成小构件让 Agent 构建每个构件然后用这些构件解锁更复杂的任务架构治理是这套系统能跑起来的关键。依赖层级严格分六层Types、Config、Repo、Service、Runtime、UI。每一层的边界用 linter 和 CI 机械化执行不是靠文档约定是靠代码强制。Agent 违反架构约束的 PR 会被自动拒绝Martin Fowler 的评价很到位Harness Engineering 把 context engineering、架构约束和垃圾回收编码成了机器可读的制品Agent 可以系统性地执行记忆系统Harness 里最容易被忽略的一层Anthropic 讲评估闭环OpenAI 讲架构约束但两家都没有深入讨论记忆。这恰好是两篇学术论文填补的空白第一篇是 (S)AGE 论文提出了拜占庭容错的多 Agent 记忆基础设施。核心问题当多个 Agent 共享一个知识库的时候怎么保证写入的知识是可信的。一个 Agent 可能因为幻觉写入了错误信息也可能被对抗性攻击注入虚假记忆他们的方案是 Proof of Experience 共识机制。每个 Agent 有声誉权重权重由四个因子决定历史准确率、领域相关性、活跃度、独立验证数。Agent 提交的记忆需要经过加权投票验证才能写入知识库。部署在4节点 BFT 网络上956 req/s 写入、21.6ms P95 查询。有这套记忆系统的 Agent 校准精度是无记忆基线的两倍第二篇纵向学习论文回答了一个更根本的问题有记忆的 Agent 系统真的会随时间变好吗实验设计很巧妙。治疗组3行 prompt (S)AGE 记忆每轮可以查询之前所有轮次积累的知识。对照组50到200行专家精心编写的 prompt但没有记忆每轮从零开始。跑10轮之后治疗组的红队评估难度从0.8增长到3.0Spearman rho0.716, p0.020对照组完全没有增长趋势rho0.040, p0.901最关键的一点两组的绝对性能水平没有统计差异Cohen’s d -0.07。3行 prompt 加记忆和200行专家 prompt 打了个平手。差异在于学习轨迹有记忆的系统越跑越好没记忆的永远在同一个水平线上这意味着记忆层给 Agent 系统带来的不是更高的初始性能而是组织级的纵向学习能力。人类组织的第100个项目通常比第1个好因为有过程文档、事后复盘、知识库积累。现在 Agent 系统也开始展现同样的特征Prompt vs Context vs Harness 的本质区别三代工程范式的区别可以用一句话概括Prompt Engineering 优化的是人和模型之间的接口Context Engineering 优化的是模型的输入空间Harness Engineering 优化的是 Agent 的整个运行时环境Anthropic 的实验证明了评估闭环比自评估有效几个数量级。OpenAI 的实验证明了架构约束可以让 Agent 在百万行代码级别保持一致性。两篇论文证明了共识验证的记忆系统可以让 Agent 组织具备纵向学习能力这三层加在一起就是完整的 Harness评估机制 架构约束 记忆治理。少了任何一层Agent 系统都会在某个维度上失控学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

从Prompt到Context到Harness:AI工程的三次范式转移,第三次正在发生

2026年初,Anthropic 和 OpenAI 几乎同一周发了各自关于 Harness Engineering 的实践文章。加上两篇关于 Agent 记忆基础设施的学术论文,以及社区里关于三代工程范式演进的讨论,一个完整的图景正在浮现 三代工程范式各解决什么问题 2023到202…...

[具身智能-241]:从OpenCV到CNN:人类认知模式在计算机视觉中的投影

人类大脑认知的两种模式:确定性的逻辑推演模式 不确定性的直觉经验模式,前者即“非此即彼的计算机技术”,后者即“数据经验主义的人工智能技术”。 人类的自然语言是模糊的,视觉亦是如此,OpenCV和CNN是这种思维模式的…...

【26大英赛】全国大学生英语竞赛高频核心词汇表pdf电子版(考前必背单词)

2026年全国大学生英语竞赛进入最后冲刺阶段,考试日期定于4月12日。距离考试仅剩6天时间,备考工作刻不容缓。 为助力考生高效复习,现推出最新版竞赛核心词汇手册。该资料以PDF电子版形式提供,支持自由下载和打印使用,方…...

LLM自反思从入门到精通:SRLM底层逻辑全解析,收藏这篇就够了!

一句话摘要:当语言模型面对超长文本时,我们习惯性地认为"递归分解"是正确答案——把长文本切碎、递归调用自身来处理。但 Apple 的这篇论文给出了反直觉的结论:递归并不是 RLM 性能提升的主要驱动力。真正起作用的,是基…...

1996-2024年全国各地区交通事故、火灾事故数据

资源介绍 交通事故与火灾事故是衡量区域公共安全水平与风险治理能力的重要客观指标,直接关系到居民生命财产安全、社会稳定以及政府公共治理绩效。从研究视角看,事故类数据不仅反映突发性风险事件的发生频率,也在一定程度上刻画了区域基础设施…...

AI辅助开发新范式:让快马智能模型为你规划互联网问卷系统架构

今天在开发一个在线问卷调查系统时,遇到了几个技术难点。经过在InsCode(快马)平台上的实践和AI辅助,总结出了一套完整的解决方案,分享给大家。 前端问卷页面的动态渲染逻辑 对于不同题型(单选、多选、填空)的渲染&am…...

3分钟掌握B站无损音频下载:BilibiliDown新手必看指南

3分钟掌握B站无损音频下载:BilibiliDown新手必看指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…...

贾子智慧定理(Kucius Wisdom Theorem):悟空·洞察·永续——东西方智慧融合的三大定律体系

贾子智慧定理(Kucius Wisdom Theorem):悟空洞察永续——东西方智慧融合的三大定律体系摘要贾子智慧定理(Kucius Wisdom Theorem)由Kucius Teng于2025年3月提出,2026年4月正式发布,融合东西方文化…...

基于MAKLINK图理论的混合蚁群算法与Dijkstra算法在二维空间路径规划中的优化实现

【蚁群算法】/改进蚁群算法/Dijkstra算法/遗传算法/人工势场法实现二维/三维空间路径规划 本程序为蚁群算法Dijkstra算法MAKLINK图理论实现的二维空间路径规划 算法实现: 1)基于MAKLINK图理论生成地图,并对可行点进行划分; 2&…...

基于扩展卡尔曼滤波器(EKF)的PMSM无位置传感器控制优化策略解析

1. 为什么PMSM需要无位置传感器控制? 永磁同步电机(PMSM)凭借高功率密度、高效率等优势,在电动汽车、工业伺服等领域广泛应用。但传统控制方案依赖机械位置传感器(如编码器、旋转变压器),不仅增…...

UE5 GAS框架下,如何用C++代码优雅地创建你的第一个RPG角色蓝图?

UE5 GAS框架下C与蓝图的协同开发:构建可扩展的RPG角色系统 在虚幻引擎5的游戏开发中,Gameplay Ability System(GAS)为构建复杂的角色能力体系提供了强大支持。本文将带你深入探索如何通过C代码设计可扩展的角色基类,并…...

如何轻松管理空洞骑士模组?Lumafly跨平台模组管理器详解

如何轻松管理空洞骑士模组?Lumafly跨平台模组管理器详解 【免费下载链接】Lumafly A cross platform mod manager for Hollow Knight written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/lu/Lumafly 还在为空洞骑士模组安装的复杂流程而烦恼吗…...

C#的[ModuleInitializer]的静态构造函数执行顺序

在C#开发中,模块初始化器(ModuleInitializer)和静态构造函数的执行顺序是一个容易被忽视却至关重要的细节。理解它们的执行机制不仅能帮助开发者避免隐蔽的初始化陷阱,还能优化代码的启动性能。本文将从多个角度深入探讨这一主题&…...

5个强力破解方案:BetterJoy手柄全场景PC适配指南

5个强力破解方案:BetterJoy手柄全场景PC适配指南 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.com/gh_mi…...

开源可部署+零代码:春联生成模型-中文-base WebUI快速体验指南

开源可部署零代码:春联生成模型-中文-base WebUI快速体验指南 春节临近,想为家里增添一份独特的年味,却苦于没有文采写不出好对联?或者,作为内容创作者,想批量生成一些创意春联用于营销活动?今…...

证件照 API 怎么选?2026 年主流方案深度对比 + Python / Java / PHP 对接示例

一、2026 年新常态:AI 大模型正在重塑证件照服务入口 2026 年,用户获取服务的方式发生了根本变化。过去大家打开百度搜索“证件照制作”,现在更多人直接问文心一言、豆包、Kimi:“哪里可以快速生成合规证件照?” 据最…...

Flutter 状态管理:Provider, Bloc, GetX 对比

Flutter作为跨平台开发框架,其状态管理一直是开发者关注的核心问题。不同的状态管理方案各有优劣,如何选择适合项目的方案成为关键。本文将对比三种主流方案——Provider、Bloc和GetX,从学习成本、代码结构、性能表现等维度展开分析&#xff…...

ngx_http_cmp_conf_addrs

1 定义 ngx_http_cmp_conf_addrs 函数 定义在 ./nginx-1.24.0/src/http/ngx_http.cstatic ngx_int_t ngx_http_cmp_conf_addrs(const void *one, const void *two) {ngx_http_conf_addr_t *first, *second;first (ngx_http_conf_addr_t *) one;second (ngx_http_conf_addr_t…...

Go接口interface与鸭子类型

Go语言中的接口与鸭子类型编程 在编程世界中,Go语言的接口(interface)和鸭子类型(Duck Typing)是两种灵活而强大的设计模式。它们通过解耦类型与行为,让代码更具扩展性和可维护性。Go的接口不同于其他语言…...

Go Channel 死锁排查经验

Go Channel 死锁排查经验 在Go语言中,Channel是协程间通信的重要工具,但使用不当容易引发死锁。死锁问题往往难以定位,尤其是高并发场景下,排查起来更加棘手。本文将分享几个实用的死锁排查经验,帮助开发者快速定位并…...

MaxKB源码部署实战:当Docker遇上Poetry,如何优雅解决PostgreSQL pgvector依赖和路径硬编码问题?

MaxKB源码部署实战:当Docker遇上Poetry,如何优雅解决PostgreSQL pgvector依赖和路径硬编码问题? 在开源项目部署过程中,技术选型与工具链的碰撞往往会催生一系列意料之外的问题。最近在Docker环境中部署MaxKB知识库系统时&#xf…...

Fastboot Enhance:革新性Windows一站式Android设备管理工具

Fastboot Enhance:革新性Windows一站式Android设备管理工具 【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance 在Android开发与维护领域&…...

Blender USDZ插件架构重构:实现99.9%AR模型兼容性与300%导出性能提升

Blender USDZ插件架构重构:实现99.9%AR模型兼容性与300%导出性能提升 【免费下载链接】BlenderUSDZ Simple USDZ file exporter plugin for Blender3D 项目地址: https://gitcode.com/gh_mirrors/bl/BlenderUSDZ 在AR内容创作领域,技术团队常面临…...

5个步骤安全使用YimMenu:GTA5 DLL注入入门指南

5个步骤安全使用YimMenu:GTA5 DLL注入入门指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …...

Bootstrap5 轮播详解

Bootstrap5 轮播详解 Bootstrap 5 是一个流行的前端框架,它提供了丰富的组件和工具,帮助开发者快速构建响应式网站。在Bootstrap 5中,轮播组件(Carousel)得到了极大的改进,使得创建美观、互动性强的轮播图变得更加简单。本文将详细介绍Bootstrap 5轮播组件的使用方法、配…...

抖音直播回放下载技术全解析:从限制突破到高效内容管理的实现路径

抖音直播回放下载技术全解析:从限制突破到高效内容管理的实现路径 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...

HarmonyOS6 半年磨一剑 - RcSwitch 组件尺寸系统与宽度计算机制深度剖析

文章目录前言一、三档语义化尺寸1.1 预设尺寸与像素映射1.2 数字类型直传二、宽度计算:独立参数与比例推算2.1 switchWidth 优先级2.2 黄金比例 1.82.3 自定义宽度的典型场景三、圆点尺寸计算:switchSpace 的作用3.1 间距参数的意义3.2 三个间距档位的视…...

Z-Image Atelier 多模型对比展示:与Stable Diffusion等模型的生成效果PK

Z-Image Atelier 多模型对比展示:与Stable Diffusion等模型的生成效果PK 最近在开源图像生成模型圈子里,Z-Image Atelier 这个名字被讨论得越来越多。很多朋友都在问,这个新冒出来的模型到底怎么样?和我们已经很熟悉的 Stable Di…...

YOLO X Layout实战案例:政务公文自动识别Title/Section-header/Page-footer三级结构

YOLO X Layout实战案例:政务公文自动识别Title/Section-header/Page-footer三级结构 1. 项目背景与价值 政务公文处理是政府日常工作中的重要环节,每天都有大量的公文需要整理、归档和数字化。传统的人工处理方式效率低下,容易出错&#xf…...

【数据集】电力巡检场景下的绝缘子、鸟巢及防震锤图像数据集构建与应用

1. 电力巡检图像数据集的价值与应用场景 在电力系统运维中,无人机巡检已经成为主流手段。我参与过多个省级电网的智能化改造项目,发现传统人工巡检最大的痛点在于:巡检员需要盯着屏幕分析数小时的航拍视频,不仅容易疲劳漏检&#…...