当前位置: 首页 > article >正文

Harness内心OS:大模型只管想,剩下烂摊子全我的

大模型说我要调搜索谁去调Harness去。让不让它调Harness来决定。结果太长塞不进上下文窗口怎么办Harness来裁剪。沙箱崩了怎么办Harness来兜底。Harness这么有用有哪些组件其实就是几个月前的叫法不同我列出的这些组件Runtime执行环境、Memory记忆、Gateway网关、Browser Tool浏览器工具、Identity身份管理、Code Interpreter代码沙箱、Observability可观测性、Policy策略、Evaluations评估。这些东西都就叫Harness。无论是to B还是To C无论Agent是什么设计理念Harness都是脚手架优化Agent运行。世界上没有脱离Harness的Agent。本质上Agent的核心能力就一个大模型自己决定下一步调什么函数是大模型实时判断出来的也是大模型根据当前的上下文想出来的。其余的归Harness都为了让大模型自己决定调什么函数的过程能跑得稳、跑得快、跑得安全。看看有哪些误解误解一Harness给大模型搭建了一套完整的工作环境。正解一可不止工作环境。只说搭工作环境不全面准确地说它做的事情至少还有两层第一管控体系第二支撑系统误解二Harness是一个组件;正解二不是一个具体的组件它是一个总称。就像汽车不是指某一个零件而是指发动机 底盘 刹车等,组装在一起。**误解三**有的大模型能调用工具所以大模型自己就是 Agent。正解三大模型负责想Harness又动手又兜底。大模型说我要调搜索的时候它只是输出了一段JSON文本。它没有真的上网没有真的连接搜索引擎没有真的拿到结果。是Runtime解析了这段JSON是Gateway把请求转发给了搜索 API是Policy在调用前检查了权限是Memory把结果记录了下来。Harness才动了手。**误解四**Harness搭好一次就不用动了。**正解四**是跟模型能力绑定的。旧模型容易输出格式错误Harness就加了格式校验和重试。新模型不犯这个错了这个逻辑就废了。Anthropic原话说得很直白Harness编码的假设会随着模型改进而过时。所以Harness不是搭完就完了它得跟着模型一起迭代。**误解五**Harness的难点是技术搞定代码就行。**正解五**最难的部分不是写代码是做决策。上下文窗口快满了该丢哪些信息保留哪些工具调用失败了该重试还是放弃还是换一条路大模型反复做同一件事第几次该判定它陷入死循环这些都没有标准答案取决于你的业务场景、你的用户容忍度、你的成本预算。代码不难死人但在什么情况下做什么选择这套策略是靠踩坑踩出来的会难死人。**误解六**Harness****出错了看看日志就行跟普通软件调试一样。正解六比传统软件调试复杂一个量级。普通软件是确定性的Agent不是。普通软件同样的输入一定得到同样的输出你能复现。Agent给它同样的写代码再搜索结果可能完全不同。而且一个任务可能跑了200步中间调了5次工具任何一步的微小偏差都可能导致最终结果跑偏。事情用了哪些组件把指令变成动作Runtime Gateway管理大模型看到啥Memory调用前检查权限Policy Identity调用后处理结果Runtime处理失败和恢复Runtime Policy防止死循环Policy Evaluations保存执行记录Memory Observability管理凭证安全Identity Gateway多Agent协作Runtime Gateway Memory本质是Harness到底做了哪些事来优化Agent运行。细数九件事。第一件事把大模型的话变成真正的动作组件Runtime Gateway大模型输出的只是一段字比如Harness要做的是解析这段 JSON从工具注册表里找调用那段代码传入参数等待返回结果把结果格式化成大模型能理解的文本再塞回大模型的下一轮输入里。Runtime 是执行环境负责接收大模型输出的JSON 指令解析它启动真正的执行流程。Gateway是路由层负责找到这个工具调用应该发给谁是发给搜索 API、还是发给沙箱、还是发给企业内部系统然后把请求转发过去等结果返回。第二件事决定大模型每一轮能看到什么组件Memory大模型的上下文窗口是有限的。一个复杂任务跑了200步之前所有的对话、工具调用返回结果加在一起可能有几十万字远超上下文窗口的容量。Harness要做的是决定这一轮调用大模型时塞进去哪些内容、丢掉哪些内容。最近几轮的对话要保留很早之前的工具返回结果可以压缩成摘要跟当前任务无关的历史可以暂时不放进去。这直接影响大模型的决策质量。如果Harness塞了太多无关信息大模型会被干扰。如果Harness丢了关键信息大模型会做出错误判断。上下文管理是Harness对Agent质量影响最大的环节之一。Memory管理所有的历史信息之前的对话、工具调用记录、中间结果。第三件事在大模型调用函数之前做检查组件Policy IdentityHarness在每次工具调用之前会做一系列检查这个Agent有没有被授权使用这个工具这个操作是不是需要用户确认才能执行这个工具在过去一分钟内是不是已经被调了 50 次需要限速检查通过才放行不通过就拦截并把拦截原因告诉大模型让它换个方式。Policy是规则引擎存储着什么能做什么不能做的规则。比如这个 Agent 不允许删除文件“调用外部 API 需要用户确认”“每分钟最多调 10 次搜索”。Identity 管理谁在操作这个Agent以什么身份运行、它有什么权限、它能访问哪些资源。两者配合Identity确认身份Policy根据身份查规则决定放行还是拦截。第四件事在大模型拿到结果之后做处理组件Runtime工具返回的原始结果可能有各种毛病。搜索引擎返回了 10 页结果每页几千字太长了直接塞给大模型会浪费上下文窗口。Runtime负责对工具返回的原始结果做截断提取关键信息格式化。搜索返回了10万字Runtime截取前 500 字。这些处理逻辑跑在 Runtime 里。第五件事处理工具调用失败的情况组件Runtime PolicyHarness根据错误类型选择策略。Runtime 检测到失败超时、崩溃、错误码Policy里存着对应的处理策略网络超时重试 3 次权限不足直接报错沙箱崩溃换新沙箱。Runtime根据Policy的规则执行对应的恢复动作。第六件事防止大模型陷入死循环组件Policy EvaluationsHarness根据错误类型选择对应的策略。Policy里定义了硬限制最多调多少次工具、最多用多少token、最多跑多长时间。Evaluations负责判断质量连续5次搜索都没找到有用信息Evaluations判定当前策略无效触发Policy的终止规则。第七件事保存每一步的执行记录组件Memory Observability大模型每一次推理每一次工具调用、每一次返回结果Harness都写入Session日志。这些记录有三个用途第一恢复用。进程崩了读取日志从最后一步继续执行不用从头来。『执行到第200步失败了』『从第199步继续』靠这个实现的。第二调试用。发现Agent的输出不对可以回溯日志看每一步发生了什么大模型在第15步做了什么判断第37步调了什么工具第52步拿到了什么结果是哪一步开始出的问题第三计费用。每次调用大模型用了多 token每次工具调用花了多长时间整个任务的总成本是多少。Memory负责保存Session日志Observability在Memory的基础上做细粒度的追踪。第八件事管理凭证不让大模型碰到密钥组件Identity Gateway大模型只发出我要调数据库这个指令Harness在执行时附上凭证去调调完之后把凭证相关的信息从返回结果里剥离掉。Gateway在转发工具调用请求时从Identity那里拿到对应的凭证附在请求上大模型只跟Gateway交互永远碰不到Identity里的凭证。第九件事编排多个Agent的协作组件Runtime Gateway MemoryHarness把Manager的指令路由给正确的子Agent把子Agent的结果收集回来交给Manager管理多个Agent之间的上下文传递让它们不会相互间干扰。Runtime管理Manager Agent和子Agent的执行循环谁先跑、谁后跑、谁可以并行。Gateway负责把Manager的指令路由给正确的子Agent把子Agent的结果收回来。Memory管理多个Agent之间的上下文传递但每个Agent只看到自己该看到的部分。写到最后了替Harness发个声吧『大模型只管想剩下烂摊子全是我的。』学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Harness内心OS:大模型只管想,剩下烂摊子全我的

大模型说"我要调搜索", 谁去调? Harness去。 让不让它调? Harness来决定。 结果太长,塞不进上下文窗口怎么办? Harness来裁剪。 沙箱崩了怎么办? Harness来兜底。 Harness这么有用&…...

Open WebUI 企业级AI平台实战指南:从零部署到生产环境优化

Open WebUI 企业级AI平台实战指南:从零部署到生产环境优化 【免费下载链接】open-webui User-friendly AI Interface (Supports Ollama, OpenAI API, ...) 项目地址: https://gitcode.com/GitHub_Trending/op/open-webui Open WebUI是一个功能丰富、可完全离…...

PCB设计效率翻倍!AD软件中切换层与单层模式的5个实用技巧

PCB设计效率翻倍!AD软件中切换层与单层模式的5个实用技巧 在高速发展的电子设计领域,PCB设计效率直接关系到产品上市周期。作为行业标准工具之一,Altium Designer(简称AD)的强大功能往往被工程师们低估——特别是那些隐…...

Linux个人心得26 (redis主从复制全流程,详细版)

实战环境Master(主机):192.168.95.88Slave1(从机):192.168.95.133Slave2(从机):192.168.95.131操作系统:OpenEuler24.03不考虑selinux、防火墙等因素&#xf…...

别再只盯着编译结果了!手把手教你用Keil MDK的map文件,精准排查STM32内存溢出和代码膨胀

STM32内存优化实战:用Keil map文件精准诊断代码膨胀与溢出 第一次遇到STM32程序莫名其妙崩溃时,我盯着编译器的"Program Size: Codexxxx RO-dataxxxx RW-dataxxxx ZI-dataxxxx"输出发呆——这些数字背后到底隐藏着什么秘密?直到偶然…...

logrotate实战避坑与高级配置指南

1. 为什么你需要掌握logrotate 作为系统管理员,你一定遇到过这样的场景:服务器运行几个月后,突然发现磁盘空间告急,一查发现是某个应用的日志文件已经膨胀到几十GB。更糟的是,直接删除日志文件可能导致应用异常&#x…...

基于STM32的正弦波测频计设计与实现(优化篇)

1. 从院赛到工业级:STM32正弦波测频计的优化之路 去年参加院赛时,我和队友用STM32F103C8T6在24小时内赶工完成的测频计,虽然基本功能达标,但测量下限只能到720Hz,1MHz以上误差明显增大,特别是遇到幅值较小的…...

猫抓浏览器扩展:一站式网页媒体资源嗅探与管理工具

猫抓浏览器扩展:一站式网页媒体资源嗅探与管理工具 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(cat-catch&#xf…...

传统SLAM使用CUDA加速,优势究竟有多大?

深度学习在SLAM中主要用于:动态目标剔除、语义SLAM的目标检测与分割。特征点提取与匹配(SuperPoint、SuperGlue)。场景描述符与重定位。工程建议:CUDA对传统SLAM有明显优势,尤其在视觉稠密前端、激光点云匹配、后端优化…...

AntiMicroX:3步轻松将游戏手柄变成万能控制器,让每款游戏都支持手柄操作

AntiMicroX:3步轻松将游戏手柄变成万能控制器,让每款游戏都支持手柄操作 【免费下载链接】antimicrox Graphical program used to map keyboard buttons and mouse controls to a gamepad. Useful for playing games with no gamepad support. 项目地址…...

零成本打造你的专属AI助手:OpenClaw部署完全指南

零成本打造你的专属AI助手:OpenClaw部署完全指南 🚀 OpenClaw能为你做什么? 实时获取信息:它能直接联网搜索,告诉你今天的新闻、天气、股票行情,甚至最新的科技动态。 成为你的数字员工:接入微信…...

一元二次方程根的分布:含参问题的核心解法

一元二次方程根的分布:含参问题的核心解法 来源:B站管理类联考数学教程 P54-P56 章节:第3章 一元二次函数 3.5节 前言 一元二次方程的根的分布问题,是管理类联考数学中的高频考点,也是很多同学的"痛点"。 …...

从MySQL到PostgreSQL:xxl-job数据库适配实战与避坑指南

1. 为什么需要从MySQL迁移到PostgreSQL 在实际项目开发中,我们经常会遇到需要更换数据库的情况。xxl-job作为一款优秀的分布式任务调度平台,默认使用的是MySQL数据库。但很多企业的技术栈可能更倾向于PostgreSQL,这就产生了数据库适配的需求。…...

告别多个Keil图标!教你合并MDK/C51/C251开发环境(Windows版)

告别多个Keil图标!三合一开发环境整合实战指南 每次打开电脑看到桌面上排排站的uVision图标,是不是觉得既占空间又影响效率?作为嵌入式开发者,我们经常需要同时处理51单片机、ARM核MCU和251架构项目,但Keil官方默认安装…...

Git历史检索准确率不足41%?SITS2026实验室最新基准测试:4款主流AI代码搜索工具在千万级私有仓库中的真实召回率对比

第一章:Git历史检索准确率不足41%?SITS2026实验室最新基准测试:4款主流AI代码搜索工具在千万级私有仓库中的真实召回率对比 2026奇点智能技术大会(https://ml-summit.org) SITS2026实验室近期发布《PrivateRepoBench》基准测试报告&#xff…...

**RISC-V架构下的高效嵌入式开发:从指令集到裸机编程的实战解析**在当前国产化芯片浪潮中,*8RIS

RISC-V架构下的高效嵌入式开发:从指令集到裸机编程的实战解析 在当前国产化芯片浪潮中,RISC-V作为开源指令集架构(ISA)正迅速成为开发者关注的焦点。相比传统x86或ARM架构,RISC-V不仅具备高度可定制性,还支…...

PSoC Creator新手入门:5分钟搞定LED闪烁项目(附详细配置截图)

PSoC Creator零基础实战:从环境搭建到LED流水灯开发全指南 第一次接触PSoC Creator时,我被它独特的"可编程片上系统"概念所吸引——这不仅仅是简单的单片机开发,而是将硬件设计与软件编程融为一体的创新平台。对于刚拿到CY8CKIT-0…...

BepInEx终极指南:5步掌握Unity游戏插件框架的完整使用方法 [特殊字符]

BepInEx终极指南:5步掌握Unity游戏插件框架的完整使用方法 🎮 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx 想要为心爱的Unity游戏添加新功能、修改游戏体…...

掌握 AI 大模型记忆系统:新手程序员必备收藏,轻松构建更智能 Agent 应用

本文深入探讨了 AI Agent 中的记忆系统,阐述了其对于实现上下文连贯性和个性化交互的重要性。文章详细介绍了记忆的定义、分类及各 Agent 框架(如 Google ADK、LangChain、AgentScope)中的实现差异,并解析了短期记忆和长期记忆的交…...

说句实话,一人公司就是大厂裁员失业后的多元变体

说句实话,一人公司就是大厂裁员后的多元变体。近年来,互联网、科技、新能源等多个行业进入发展调整周期,不少曾经疯狂扩张、人员规模动辄十万甚至数十万的头部大厂纷纷开启“优化瘦身”,一轮接一轮的裁员潮里,数十万拥…...

天辛大师直言一人公司是泡沫,很多人就是大厂促销员

在近年共享经济、灵活用工模式疯狂扩张,不少互联网大厂为了压缩用工成本、规避社保与劳动仲裁风险,不断推动外包用工模式“轻量化”异化的行业背景下,长期研究平台用工治理与小微企业合规发展的天辛大师,在一次行业深度沙龙上&…...

告别MCU原生USB!用CH376给51单片机/Arduino轻松添加U盘数据存储功能

用CH376为8位单片机打造轻量级U盘存储方案:从硬件连接到文件操作实战 在物联网设备和嵌入式系统开发中,数据存储和导出是常见需求。对于资源有限的8位单片机(如51系列、AVR)或Arduino开发者而言,实现USB主机功能往往面…...

NifSkope:终极免费NIF文件编辑器,轻松搞定Bethesda游戏模型编辑

NifSkope:终极免费NIF文件编辑器,轻松搞定Bethesda游戏模型编辑 【免费下载链接】nifskope A git repository for nifskope. 项目地址: https://gitcode.com/gh_mirrors/ni/nifskope 你是否在为《上古卷轴》或《辐射》系列游戏制作模组时&#xf…...

别再手动判空了!用EasyExcel自定义注解搞定Excel导入必填项校验(附完整代码)

告别繁琐判空:基于EasyExcel的智能校验方案设计与实战 每次接手Excel导入需求时,你是否也厌倦了在代码中重复编写if(userName null)这样的判空逻辑?当业务方新增五个必填字段时,你是否经历过在十几个地方同步修改校验代码的噩梦&…...

【Hello Agents进阶篇学习笔记】01智能体经典范式构建

Hello Agents进阶篇学习笔记Agent核心目标Agent主要问题经典Agent范式ReAct系统结构总结ReAct代码结构总结ReAct Agent 核心实现Agent核心目标 把LLM升级成Agent: 从静态(只能回答问题)到动态(理解任务调用工具动态决策&#xff…...

从“精读”到“泛用”:构建个人专属的英语学习策略体系

1. 为什么传统英语学习方法总是失效? 我见过太多人抱着厚厚的单词书从A背到Z,结果三个月后连"abandon"都拼不全。也遇到过每天刷两小时语法题的同学,碰到外国同事打招呼却只能挤出"Fine, thank you"。问题出在哪&#xf…...

地府管理系统:用代码搭建你的冥界数字中枢

地府管理系统:用代码搭建你的冥界数字中枢 【免费下载链接】netherworld-console 地府管理系统完整版,功能完整,多用户多权限,有前台功能 项目地址: https://gitcode.com/gh_mirrors/ne/netherworld-console 想象一下&…...

加州总检察长:新解封记录揭示亚马逊价格操纵策略

新解封记录曝光独家报道显示,在亚马逊与加利福尼亚州的反垄断诉讼中,一批此前被编辑的文件被提交。亚马逊否认存在价格操纵行为。证据细节披露加州当局称,数百份此前被编辑的记录显示,亚马逊施压其平台上的独立卖家,让…...

从零到一:在Windows 10上构建AirSim无人机仿真开发环境

1. 环境准备:从零开始的工具清单 第一次接触无人机仿真开发的朋友可能会被一堆专业工具吓到,但其实就像组装一台电脑需要CPU、内存、显卡一样,搭建AirSim环境也有几个核心组件。我去年参加智能无人机比赛时,花了整整三天才把这些工…...

基于Dify与Ollama的本地化大模型部署实战

1. 为什么要在本地部署大模型? 最近两年大模型技术发展迅猛,各种AI应用层出不穷。但很多开发者都面临一个共同痛点:使用云端API不仅费用高昂,还存在隐私泄露风险。我在实际项目中就遇到过这样的困扰——调试一个对话系统时&#x…...