当前位置：首页 > article >正文

Harness内心OS：大模型只管想，剩下烂摊子全我的

article 2026/4/17 15:54:49

大模型说我要调搜索谁去调Harness去。让不让它调Harness来决定。结果太长塞不进上下文窗口怎么办Harness来裁剪。沙箱崩了怎么办Harness来兜底。Harness这么有用有哪些组件其实就是几个月前的叫法不同我列出的这些组件Runtime执行环境、Memory记忆、Gateway网关、Browser Tool浏览器工具、Identity身份管理、Code Interpreter代码沙箱、Observability可观测性、Policy策略、Evaluations评估。这些东西都就叫Harness。无论是to B还是To C无论Agent是什么设计理念Harness都是脚手架优化Agent运行。世界上没有脱离Harness的Agent。本质上Agent的核心能力就一个大模型自己决定下一步调什么函数是大模型实时判断出来的也是大模型根据当前的上下文想出来的。其余的归Harness都为了让大模型自己决定调什么函数的过程能跑得稳、跑得快、跑得安全。看看有哪些误解误解一Harness给大模型搭建了一套完整的工作环境。正解一可不止工作环境。只说搭工作环境不全面准确地说它做的事情至少还有两层第一管控体系第二支撑系统误解二Harness是一个组件;正解二不是一个具体的组件它是一个总称。就像汽车不是指某一个零件而是指发动机底盘刹车等,组装在一起。**误解三**有的大模型能调用工具所以大模型自己就是 Agent。正解三大模型负责想Harness又动手又兜底。大模型说我要调搜索的时候它只是输出了一段JSON文本。它没有真的上网没有真的连接搜索引擎没有真的拿到结果。是Runtime解析了这段JSON是Gateway把请求转发给了搜索 API是Policy在调用前检查了权限是Memory把结果记录了下来。Harness才动了手。**误解四**Harness搭好一次就不用动了。**正解四**是跟模型能力绑定的。旧模型容易输出格式错误Harness就加了格式校验和重试。新模型不犯这个错了这个逻辑就废了。Anthropic原话说得很直白Harness编码的假设会随着模型改进而过时。所以Harness不是搭完就完了它得跟着模型一起迭代。**误解五**Harness的难点是技术搞定代码就行。**正解五**最难的部分不是写代码是做决策。上下文窗口快满了该丢哪些信息保留哪些工具调用失败了该重试还是放弃还是换一条路大模型反复做同一件事第几次该判定它陷入死循环这些都没有标准答案取决于你的业务场景、你的用户容忍度、你的成本预算。代码不难死人但在什么情况下做什么选择这套策略是靠踩坑踩出来的会难死人。**误解六**Harness****出错了看看日志就行跟普通软件调试一样。正解六比传统软件调试复杂一个量级。普通软件是确定性的Agent不是。普通软件同样的输入一定得到同样的输出你能复现。Agent给它同样的写代码再搜索结果可能完全不同。而且一个任务可能跑了200步中间调了5次工具任何一步的微小偏差都可能导致最终结果跑偏。事情用了哪些组件把指令变成动作Runtime Gateway管理大模型看到啥Memory调用前检查权限Policy Identity调用后处理结果Runtime处理失败和恢复Runtime Policy防止死循环Policy Evaluations保存执行记录Memory Observability管理凭证安全Identity Gateway多Agent协作Runtime Gateway Memory本质是Harness到底做了哪些事来优化Agent运行。细数九件事。第一件事把大模型的话变成真正的动作组件Runtime Gateway大模型输出的只是一段字比如Harness要做的是解析这段 JSON从工具注册表里找调用那段代码传入参数等待返回结果把结果格式化成大模型能理解的文本再塞回大模型的下一轮输入里。Runtime 是执行环境负责接收大模型输出的JSON 指令解析它启动真正的执行流程。Gateway是路由层负责找到这个工具调用应该发给谁是发给搜索 API、还是发给沙箱、还是发给企业内部系统然后把请求转发过去等结果返回。第二件事决定大模型每一轮能看到什么组件Memory大模型的上下文窗口是有限的。一个复杂任务跑了200步之前所有的对话、工具调用返回结果加在一起可能有几十万字远超上下文窗口的容量。Harness要做的是决定这一轮调用大模型时塞进去哪些内容、丢掉哪些内容。最近几轮的对话要保留很早之前的工具返回结果可以压缩成摘要跟当前任务无关的历史可以暂时不放进去。这直接影响大模型的决策质量。如果Harness塞了太多无关信息大模型会被干扰。如果Harness丢了关键信息大模型会做出错误判断。上下文管理是Harness对Agent质量影响最大的环节之一。Memory管理所有的历史信息之前的对话、工具调用记录、中间结果。第三件事在大模型调用函数之前做检查组件Policy IdentityHarness在每次工具调用之前会做一系列检查这个Agent有没有被授权使用这个工具这个操作是不是需要用户确认才能执行这个工具在过去一分钟内是不是已经被调了 50 次需要限速检查通过才放行不通过就拦截并把拦截原因告诉大模型让它换个方式。Policy是规则引擎存储着什么能做什么不能做的规则。比如这个 Agent 不允许删除文件“调用外部 API 需要用户确认”“每分钟最多调 10 次搜索”。Identity 管理谁在操作这个Agent以什么身份运行、它有什么权限、它能访问哪些资源。两者配合Identity确认身份Policy根据身份查规则决定放行还是拦截。第四件事在大模型拿到结果之后做处理组件Runtime工具返回的原始结果可能有各种毛病。搜索引擎返回了 10 页结果每页几千字太长了直接塞给大模型会浪费上下文窗口。Runtime负责对工具返回的原始结果做截断提取关键信息格式化。搜索返回了10万字Runtime截取前 500 字。这些处理逻辑跑在 Runtime 里。第五件事处理工具调用失败的情况组件Runtime PolicyHarness根据错误类型选择策略。Runtime 检测到失败超时、崩溃、错误码Policy里存着对应的处理策略网络超时重试 3 次权限不足直接报错沙箱崩溃换新沙箱。Runtime根据Policy的规则执行对应的恢复动作。第六件事防止大模型陷入死循环组件Policy EvaluationsHarness根据错误类型选择对应的策略。Policy里定义了硬限制最多调多少次工具、最多用多少token、最多跑多长时间。Evaluations负责判断质量连续5次搜索都没找到有用信息Evaluations判定当前策略无效触发Policy的终止规则。第七件事保存每一步的执行记录组件Memory Observability大模型每一次推理每一次工具调用、每一次返回结果Harness都写入Session日志。这些记录有三个用途第一恢复用。进程崩了读取日志从最后一步继续执行不用从头来。『执行到第200步失败了』『从第199步继续』靠这个实现的。第二调试用。发现Agent的输出不对可以回溯日志看每一步发生了什么大模型在第15步做了什么判断第37步调了什么工具第52步拿到了什么结果是哪一步开始出的问题第三计费用。每次调用大模型用了多 token每次工具调用花了多长时间整个任务的总成本是多少。Memory负责保存Session日志Observability在Memory的基础上做细粒度的追踪。第八件事管理凭证不让大模型碰到密钥组件Identity Gateway大模型只发出我要调数据库这个指令Harness在执行时附上凭证去调调完之后把凭证相关的信息从返回结果里剥离掉。Gateway在转发工具调用请求时从Identity那里拿到对应的凭证附在请求上大模型只跟Gateway交互永远碰不到Identity里的凭证。第九件事编排多个Agent的协作组件Runtime Gateway MemoryHarness把Manager的指令路由给正确的子Agent把子Agent的结果收集回来交给Manager管理多个Agent之间的上下文传递让它们不会相互间干扰。Runtime管理Manager Agent和子Agent的执行循环谁先跑、谁后跑、谁可以并行。Gateway负责把Manager的指令路由给正确的子Agent把子Agent的结果收回来。Memory管理多个Agent之间的上下文传递但每个Agent只看到自己该看到的部分。写到最后了替Harness发个声吧『大模型只管想剩下烂摊子全是我的。』学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Harness内心OS：大模型只管想，剩下烂摊子全我的

相关文章：

Harness内心OS：大模型只管想，剩下烂摊子全我的

Open WebUI 企业级AI平台实战指南：从零部署到生产环境优化

PCB设计效率翻倍！AD软件中切换层与单层模式的5个实用技巧

Linux个人心得26 （redis主从复制全流程，详细版）

别再只盯着编译结果了！手把手教你用Keil MDK的map文件，精准排查STM32内存溢出和代码膨胀

logrotate实战避坑与高级配置指南

基于STM32的正弦波测频计设计与实现（优化篇）

猫抓浏览器扩展：一站式网页媒体资源嗅探与管理工具

传统SLAM使用CUDA加速，优势究竟有多大？

AntiMicroX：3步轻松将游戏手柄变成万能控制器，让每款游戏都支持手柄操作

零成本打造你的专属AI助手：OpenClaw部署完全指南

一元二次方程根的分布：含参问题的核心解法

从MySQL到PostgreSQL：xxl-job数据库适配实战与避坑指南

告别多个Keil图标！教你合并MDK/C51/C251开发环境（Windows版）

Git历史检索准确率不足41%？SITS2026实验室最新基准测试：4款主流AI代码搜索工具在千万级私有仓库中的真实召回率对比

RISC-V架构下的高效嵌入式开发：从指令集到裸机编程的实战解析在当前国产化芯片浪潮中，*8RIS

PSoC Creator新手入门：5分钟搞定LED闪烁项目（附详细配置截图）

BepInEx终极指南：5步掌握Unity游戏插件框架的完整使用方法 [特殊字符]

掌握 AI 大模型记忆系统：新手程序员必备收藏，轻松构建更智能 Agent 应用

说句实话，一人公司就是大厂裁员失业后的多元变体

天辛大师直言一人公司是泡沫，很多人就是大厂促销员

告别MCU原生USB！用CH376给51单片机/Arduino轻松添加U盘数据存储功能

NifSkope：终极免费NIF文件编辑器，轻松搞定Bethesda游戏模型编辑

别再手动判空了！用EasyExcel自定义注解搞定Excel导入必填项校验（附完整代码）

【Hello Agents进阶篇学习笔记】01智能体经典范式构建

从“精读”到“泛用”：构建个人专属的英语学习策略体系

地府管理系统：用代码搭建你的冥界数字中枢

加州总检察长：新解封记录揭示亚马逊价格操纵策略

从零到一：在Windows 10上构建AirSim无人机仿真开发环境

基于Dify与Ollama的本地化大模型部署实战