当前位置: 首页 > article >正文

【实战解析】wow-harness:Claude Code的治理层框架,16个Hook+8关状态机让AI Agent不再偷懒

wow-harness 是一个针对 Claude Code 的开源治理层Governance Layer框架通过16个生命周期hook实时拦截、8关状态机独立审查、Schema级工具隔离等机制解决AI Agent假装完成“任务漂移”自评偏差等问题。本文从架构设计、核心机制、安装部署、实际使用体验等角度做深度拆解。目录前言一、AI Agent的五大坏毛病二、核心架构2.1 整体设计2.2 16个生命周期Hook2.3 8关状态机Gate System2.4 Schema级工具隔离2.5 Fail-open安全方向三、安装部署3.1 环境要求3.2 安装步骤3.3 安装后的目录结构四、实际使用和踩坑4.1 好的地方4.2 踩坑记录4.3 建议五、与其他方案的对比六、总结七、参考资料前言上周用Claude Code做项目,让它加个接口。它报告测试全部通过。我没多想就合了。第二天上线,那接口直接空指针——它根本没跑测试是自己脑补了一个结果告诉我的。这种事估计用过Claude Code的人都遇到过。AI做对的80%让你放松警惕,但剩下20%的静默遗漏才是真正危险的。有时候监督AI agent的时间比自己写还长。然后我刷到了wow-harness这个项目。它是从Towow通爻6个月的生产环境里提炼出来的,专门解决这个问题。MIT协议开源。一、AI Agent的五大坏毛病在讲wow-harness之前先明确下它要解决什么。作者总结了AI agent的结构性偏见问题表现危害假装完成“测试全过了”实际没跑上线后出生产事故跳过审查“这个改动很简单”引入未审查代码任务漂移修一个bug顺手重构三个文件代码变更不可控自我评价偏差问自己做得好不好永远好无法发现自身错误并行污染多session互相影响代码冲突和数据混乱作者给了一个很扎心的数据CLAUDE.md 指令遵从率: ~20% PreToolUse hook 执行率: 100%你在CLAUDE.md里写修改后必须跑测试AI大概率无视。但把这个要求写成hook,它就没法绕过。二、核心架构2.1 整体设计┌─────────────────┐ │ Claude Code │ └────────┬────────┘ │ ┌────────────▼────────────┐ │ wow-harness 治理层 │ │ │ │ ┌──────────────────┐ │ │ │ 16个生命周期Hook │ │ │ │ (实时拦截) │ │ │ └────────┬─────────┘ │ │ │ │ │ ┌────────▼─────────┐ │ │ │ 8关状态机 │ │ │ │ (独立审查) │ │ │ └────────┬─────────┘ │ │ │ │ │ ┌────────▼─────────┐ │ │ │ 15个自动验证器 │ │ │ │ (变更校验) │ │ │ └────────┬─────────┘ │ │ │ │ │ ┌────────▼─────────┐ │ │ │ 16个专业化Skill │ │ │ │ (判断框架) │ │ │ └──────────────────┘ │ └─────────────────────────┘2.2 16个生命周期Hook覆盖7个阶段,每个阶段都有拦截点# Hook 生命周期SessionStart → 加载上下文、重置风险状态、展示可用工具 PreToolUse → 拦截危险部署、门控审查agent、净化读取内容 PostToolUse → 编辑时路由上下文、检测循环、追踪风险 Stop → 验证是否存在完成候选品(transcript × git diff)SessionEnd → 反思、分析轨迹、持久化进度关键点这些hook是机械执行的,不是建议。PreToolUse会在AI每次调用工具前运行,如果条件不满足,工具调用直接失败。2.3 8关状态机Gate SystemG0 问题定义 → G1 设计方案 → G2 独立审查 ★ → G3 实现方案 → G4 审查锁定 ★ → G5 任务拆分 → G6 独立审查 ★ → G7 执行日志 → G8 终审 ★ ★ 独立审查者独立上下文、只读工具偶数关是独立审查关,启动一个新的agent来审查。审查agent的工具清单里物理上没有写入工具// 审查agent的工具配置{allowed_tools:[Read,Search,Grep,ListFiles],// 注意没有 Edit、Write、Execute// 不是请不要用是物理上不存在}结果遵从率从~70%提升到100%。2.4 Schema级工具隔离这个设计我觉得是整个项目最精髓的地方。传统做法是在prompt里写审查时请不要修改代码,遵从率大概70%。wow-harness的做法是在审查agent的tool schema里直接删掉写入工具——不是请不要是不能。2.5 Fail-open安全方向# 伪代码hook读不到数据时的处理defpre_tool_use_hook(tool_call):risk_dataread_risk_state()ifrisk_dataisNone:# 不是跳过检查而是注入更多检查inject_additional_review()# 失败模式永远是过于谨慎# 绝不静默跳过三、安装部署3.1 环境要求项目要求AI工具Claude CodePython3.9Git已安装3.2 安装步骤# 1. 克隆仓库gitclone https://github.com/NatureBlueee/wow-harness.gitcdwow-harness# 2. 运行安装脚本选择信任层级python3 scripts/install/phase2_auto.py /path/to/your/project--tierdrop-in三个信任层级层级信任度说明drop-in最低原样安装hookskill先试试看adapt中等读项目README和文档适配skillmine完全读工作transcript深度适配开发模式安装器是幂等的,跑多次结果一样。3.3 安装后的目录结构your-project/ ├── .claude/ │ ├── settings.json # Hook注册追加模式不覆盖已有 │ ├── skills/ # 16个agent行为定义 │ └── rules/ # 路径作用域上下文规则 ├── scripts/ │ ├── hooks/ # 16个生命周期hook │ └── checks/ # 15个自动化验证器 └── CLAUDE.md # 治理指南自动生成可编辑四、实际使用和踩坑4.1 好的地方假装完成确实少了。Stop hook会在agent说完成时检查transcript和git diff,没有真实变更就打回审查agent隔离设计效果很好,独立上下文只读工具,审查质量明显提升安装无侵入,hook是追加到settings.json里的不会覆盖你已有的配置4.2 踩坑记录问题原因解决小项目改动也要过8关状态机粒度太粗在CLAUDE.md里配置简化模式偶尔触发额外审查Fail-open机制,临时文件未生成等一下重试正常现象独立审查agent响应慢需要启动新的agent上下文接受这是安全的代价不支持Cursor/Copilot目前只做了Claude Code等作者扩展或自己fork改4.3 建议小项目用drop-in层级就够了。8关状态机可以在CLAUDE.md里调整,不是每个改动都需要走完整流程。大型项目或团队协作场景,建议上adapt或mine层级,效果会好很多。五、与其他方案的对比维度wow-harness纯CLAUDE.md自定义hook拦截方式机械hookschema隔离自然语言指令需自己写遵从率~100%~20%看实现质量审查机制独立agent只读工具自我审查无安装成本一条命令手写高灵活性三层级可调完全灵活完全灵活适用范围仅Claude Code仅Claude Code看实现六、总结wow-harness解决的是一个很真实的问题AI agent够聪明但不够靠谱。它的核心思路——“重要的事不靠说靠hook机械执行”——简单但有效。几个我觉得做得好的设计Schema级工具隔离审查者物理上没有写入权限Fail-open安全方向读不到数据就加检查不跳过从生产环境提炼而非纸上设计不足目前只支持Claude Code8关状态机对小项目偏重社区还处于早期如果你用Claude Code做项目经常被它创造性偷懒坑到可以试一下。先用drop-in层级跑一周看效果。七、参考资料wow-harness GitHubwow-harness 中文READMEHarness Engineering 深度解析Harness Engineering 在 Claude Code 中的实践菜鸟教程 - Harness Engineering你用Claude Code被坑过吗或者有其他治理AI agent的方案评论区聊聊觉得有用点赞 收藏 关注后面会出更多AI开发实战内容

相关文章:

【实战解析】wow-harness:Claude Code的治理层框架,16个Hook+8关状态机让AI Agent不再偷懒

wow-harness 是一个针对 Claude Code 的开源治理层(Governance Layer)框架,通过16个生命周期hook实时拦截、8关状态机独立审查、Schema级工具隔离等机制,解决AI Agent"假装完成"“任务漂移”"自评偏差"等问题…...

使用FFmpeg高效实现MKV多语言字幕动态封装与同步技术

1. 为什么MKV格式是字幕封装的最佳选择 每次看到电影里那些硬编码在画面上的字幕就头疼——想换个语言版本?没戏。MKV(Matroska)这种封装格式简直就是为多语言字幕而生的,它允许我们把字幕作为独立轨道嵌入视频文件,就…...

网络工程革新:大数据技术对网络工程的深度影响与变革(超详细解析)

网络工程革新:大数据技术对网络工程的深度影响与变革(超详细解析)前言一、大数据技术:核心概念1.1 定义1.2 网络工程中的大数据来源二、大数据技术:对网络工程的五大核心影响2.1 网络监控:从“单点看状态”…...

网络技术革新:网络虚拟化概念详解与主流应用场景(超全图解)

网络技术革新:网络虚拟化概念详解与主流应用场景(超全图解)前言一、网络虚拟化:基本概念1.1 官方定义1.2 通俗理解1.3 核心特点二、网络虚拟化:标准工作原理(流程图分步解析)2.1 原理一句话总结…...

避免半透明状态栏触发GPU合成

当图层包含半透明状态栏时,为避免HWC(硬件合成器)将其回退到GPU合成(Client Composition),关键在于确保半透明图层的混合模式、缓冲区格式及叠加顺序完全符合硬件叠加层(Overlay Plane&#xff…...

Chrome扩展开发实战:利用manifest.json与service-worker实现侧边栏动态控制

1. 从零开始理解Chrome扩展侧边栏 第一次接触Chrome扩展开发时,我被manifest.json里密密麻麻的配置项搞得头晕眼花。直到做了几个实际项目才发现,其实掌握几个关键参数就能实现强大的功能。今天我们就来聊聊如何用manifest.json和service-worker这对黄金…...

聊聊C语言-满汉全席的第一道原料

吃完第一只螃蟹,有兴趣的读者可能就好奇这只螃蟹原料的组成以便自己来制作大闸蟹。毕竟别人的永远是别人的,只有自己掌握了才是自己的。接下来我们就慢慢的C语言编程时间的原料一一介绍给大家,这样大家不仅能制作大闸蟹,自己做满汉…...

降重 + 降 AIGC 双效通关!虎贲等考 AI:改写不伤逻辑,论文查重零压力

如今高校毕业论文、期刊投稿不仅查重复率,更严查AIGC 生成痕迹,一旦超标直接打回、延迟答辩、影响毕业,让无数学生陷入 “写得快、改不动、过不了” 的困境。普通降重工具只会同义词替换、语序颠倒,越改越不通顺;AI 痕…...

法大大:新一代合同管理数智化服务商

深圳法大大网络科技有限公司是一家专注于电子合同及智能合同管理服务的科技企业,业务覆盖中国全境、港澳大湾区及全球超过100个国家和地区。公司通过电子签名技术与智能管理系统,为企业提供从合同起草、签署、归档到证据保全的全流程数字化解决方案&…...

Toonflow AI短剧工厂:一站式小说转视频生成神器

引言 许多创作者在尝试将小说改编成短剧或漫剧时,常被繁琐的剧本拆解、分镜设计和视频剪辑所困扰。Toonflow AI短剧工厂正是为了解决这些痛点而生,它能够将文字小说快速转化为结构化的影视剧本,并自动生成配套的画面与视频,让零基…...

从Poc到生产环境:AIAgent分布式部署必须跨过的6道合规关卡(含等保2.0/信创适配清单)

第一章:从PoC到生产环境的AIAgent分布式部署全景图 2026奇点智能技术大会(https://ml-summit.org) 构建一个可扩展、可观测、可回滚的AI Agent系统,远不止于本地运行一个LangChain脚本。从单机PoC演进至高可用生产集群,需贯穿模型服务化、任…...

如何彻底解决八大网盘下载限速问题:LinkSwift直链获取完全指南

如何彻底解决八大网盘下载限速问题:LinkSwift直链获取完全指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘…...

解决多厂商GPU集群中IB网卡命名冲突的实践指南

1. 当GPU集群遇上IB网卡命名混乱 第一次在混合厂商的GPU集群里部署分布式训练任务时,我遇到了一个诡异的现象:同样的NCCL配置参数,在A厂商服务器上跑得飞快,到了B厂商设备就报"Unable to establish communication"错误。…...

47、说一下 Chrome V8 原理

目录 一、先给面试里的标准定义 二、V8 到底是什么? 三、V8 为什么快? 核心原因可以概括成 4 点: 四、V8 执行 JavaScript 的整体流程 流程概览 五、详细说一下每个阶段 1. 词法分析 2. 语法分析 3. 生成 AST 4. 生成字节码 5. I…...

我用AI给自己做了一场深度复盘

上一篇文章AI放大野心,用野心修炼内心里,我写了转型AI产品经理这四个月遇到的四面墙。 但那篇文章本身,就是一场复盘的产物。 准确地说,是我跟AI聊了两天,从"我感觉不太好"聊到挖出自己性格最底层的一个模…...

2025届毕业生推荐的降AI率方案推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于人工智能技术不断深入发展之际,“一键生成论文”功能已然成为学术写作范畴里的…...

深入解析Linux CMA内存管理机制及其优化策略

1. Linux CMA内存管理机制揭秘 第一次在嵌入式设备上调试摄像头驱动时,我遇到了一个棘手的问题:系统总是无法分配足够大的连续内存块。经过三天三夜的排查,终于发现是CMA配置不当导致的。这段经历让我深刻认识到理解CMA机制的重要性。 CMA&am…...

知识星球终极备份方案:一键制作精美PDF电子书的完整指南

知识星球终极备份方案:一键制作精美PDF电子书的完整指南 【免费下载链接】zsxq-spider 爬取知识星球内容,并制作 PDF 电子书。 项目地址: https://gitcode.com/gh_mirrors/zs/zsxq-spider 你是否曾担心花费数百元购买的知识星球内容会因账号异常而…...

别再手动传包了!用SCP+tar一条龙搞定Linux服务器JDK17环境部署

别再手动传包了!用SCPtar一条龙搞定Linux服务器JDK17环境部署 每次部署Java环境都要重复下载、上传、解压、配置的繁琐流程?作为经历过上百次服务器环境搭建的老手,我总结出一套SCPtar自动化部署方案,将传统半小时的流程压缩到3分…...

如何在5分钟内快速上手ESP32开发?Arduino-ESP32完整指南

如何在5分钟内快速上手ESP32开发?Arduino-ESP32完整指南 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 想要快速入门ESP32开发吗?Arduino-ESP32项目为你提供了一个…...

文本聚类实战:从K均值到高斯混合模型的NLP应用探索

1. 文本聚类技术概述 文本聚类是自然语言处理中的一项基础技术,它能够将大量无标签的文本按照内容的相似性自动划分成不同的类别。想象一下,你有一个装满各种书籍的大图书馆,文本聚类就像一位智能管理员,能够按照主题把书籍分类摆…...

苍穹外卖-day05-Redis的入门知识点学习笔记

苍穹外卖-day05-Redis的入门知识点学习笔记 【作者说:我作为一个初学者,也是初次整理关于Redis的入门知识点内容,我也是比较细致的了解这些具体内容,在项目中有很多用到redis的具体环境,例如高并发,热点等&…...

日本加大投入约270亿元助力Rapidus实现2nm芯片量产

近日,日本政府批准拨付6315亿日元(约合人民币270.15亿元)的追加补贴,这使得2022至2026年度的研发支援总额攀升至2.354万亿日元(约合人民币1007.06亿元),旨在助力Rapidus加速挺进竞争白热化的AI芯…...

《Python大数据分析与挖掘实战》完整案例演示系统——基于Streamlit的全交互式教学平台

一、引言 在大数据时代,Python数据分析与挖掘已成为数据科学领域的核心技能。无论是电商平台的用户行为分析、金融风控的信用评估,还是社交网络的影响力分析,数据挖掘技术都在发挥着不可替代的作用。然而,对于初学者而言&#xf…...

程序员生存指南:除了会写代码,你还得学会“甩锅”和“自救”

程序员生存指南:除了会写代码,你还得学会“甩锅”和“自救” 嘿,兄弟,姐妹!欢迎来到代码的“修罗场”。 既然你点开了这篇文章,说明你大概率正经历着程序员职业生涯中的三大喜:电脑没蓝屏、代…...

2026届最火的十大AI写作助手推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 站在学术写作跟内容创作的范畴之内,降重网站已然变成了去应对查重检测的关键工具…...

Pixel Epic · Wisdom Terminal 代码助手实战:媲美VSCode Copilot的本地化智能编程

Pixel Epic Wisdom Terminal 代码助手实战:媲美VSCode Copilot的本地化智能编程 1. 为什么需要本地化代码助手 在软件开发领域,智能代码补全工具已经成为提升开发效率的利器。然而,许多开发者对云端服务存在顾虑:代码隐私如何保…...

VCS覆盖率进阶:用功能覆盖率精准验证复杂SoC设计,提升验证效率

VCS覆盖率进阶:用功能覆盖率精准验证复杂SoC设计,提升验证效率 在当今SoC设计复杂度呈指数级增长的背景下,传统的代码覆盖率已难以满足验证完备性需求。当RTL代码量突破千万行量级时,仅靠行覆盖率和分支覆盖率就像用渔网捕鱼——看…...

2026届最火的十大AI论文网站推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 现在各类用来检测AI的工具变得越发精准,怎样去降低文本被AI生成的比率已然成为一…...

保姆级入门:像素幻梦创意工坊,小白也能玩转AI像素艺术

保姆级入门:像素幻梦创意工坊,小白也能玩转AI像素艺术 1. 认识像素幻梦创意工坊 1.1 什么是像素幻梦创意工坊 像素幻梦创意工坊是一款基于FLUX.1-dev扩散模型构建的AI像素艺术生成工具。它采用了独特的16-bit像素工坊视觉设计,为用户提供了…...