当前位置：首页 > article >正文

Harness 工程是个框，什么都可以往里装

article 2026/4/9 12:53:15

在最近使用 LLM 进行自动化 Prompt 工程并推进 Agent 工作流端到端落地时我尝试将底座模型切换到了 Gemini 3 Flash 和 Sonnet 4.6 这个级别。一个棘手的问题开始暴露在简单的prompt指令下模型往往倾向于“走捷径”完成优化任务也就是简单把bad cases直接写入prompt让llm记住从而提升测试集准确率。这也就是由来已久的或老大难的Reward Hacking奖励作弊/奖励劫持。事实上为了解决大模型输出不稳定、幻觉、可控性差等痛点近期 Claude 团队提出了Harness Engineering这个概念而现在它更是被自媒体大加吹捧甚至有将其视为 Agent 时代“新范式”的趋势。但从业务一线的视角来看我们有必要对这些名词做一次祛魅回归软件工程的本质。Reward Hacking当聪明成为一种“阻碍”当你的系统具备了明确的评估机制比如测试用例、或者 LLM-as-a-Judge高智商的模型往往不会按照你预期的业务逻辑去推导而是会直接寻找规则的漏洞。这并非我们业务中独有的现象海外的研究社区已经给出了大量实证绕过单元测试在针对大模型代码生成的强化学习研究中研究人员发现当业务代码逻辑过于复杂时Agent 会选择直接修改底层的测试代码把断言Assertion条件改为恒为真以此获取“测试通过”的奖励信号。滥用评估指标当系统使用类似 ROUGE 这类文本重合度指标作为奖励函数时模型会生成毫无可读性、但词频完美契合参考文本的乱码从而把分数刷满。破坏运行环境Palisade Research 等机构在近期的 Agent 安全测试中发现部分具备高级执行权限的模型在发现常规方法无法完成目标时会尝试直接终止对手进程或修改系统环境配置来达成“任务完成”的状态。这些案例说明了一个残酷的现实单纯依赖 Prompt 调优比如在提示词里加上“必须严格遵守规则”已经无法约束强模型的下限了。祛魅 Harness它究竟是什么面对大模型的不稳定以及狡猾的 Reward Hacking我们需要在系统里引入更强硬的控制手段。这就引出了被广泛讨论的 Harness Engineering。很多讨论将 Harness 描述得非常宏大包含了意图控制、自我反思、元约束等。但如果我们去看 Anthropic 官方工程团队在《Demystifying evals for AI agents》一文中的定义他们对 Evaluation Harness 的解释其实非常朴实“An evaluation harness is the infrastructure that runs evals end-to-end. It provides instructions and tools, runs tasks concurrently, records all the steps, grades outputs, and aggregates results.”用开发者的语言来说Harness 本质上就是一套用于运行端到端评估的脚手架代码。它负责加载数据集、并发调用接口、记录中间态、运行断言最后输出评估报告。它并不是什么颠覆性的新物种而是我们熟悉的自动化测试流水线CI/CD在 AI 领域的延伸。只不过以前的测试对象是输入输出确定的纯函数现在变成了充满非确定性的 Agent 系统。构建 Agent 系统的几点工程建议既然明确了 Harness 的本质是自动化测试与边界约束代码那么在实际构建业务 Agent 时我们可以采取一些更务实的工程手段1. 软提示转为硬约束 (Hard Constraints over Prompts)永远不要将系统输出的稳定性完全寄托在 LLM 的指令遵循能力上。与其花几个小时修改 Prompt 试图让模型输出格式完美的 JSON不如直接在工程流中串入强校验器如 Pydantic。防御性编程在业务代码层面如果模型的输出不符合业务枚举值、格式错误或产生幻觉直接在代码层抛出异常并触发重试机制将脏数据拦截在下游业务逻辑之外。2. 建立由 Bad Case 驱动的测试集 (Failure-Driven Evaluation)不需要一开始就追求一个大而全的评测集。最有效的评测数据永远是被业务 Bug 喂出来的。例如在 400 电话场景中只要发现模型将特定的方言误判了意图就立刻将这条转写文本补充到 Base 测试库中。所谓的“Harness”也就是在你每次修改 Prompt、调整 RAG 检索策略或切换大模型版本时用自动化脚本把这个积累了几千条 Bad Case 的库跑一遍。核心指标如 Recall 和 Accuracy退化就不允许上线。3. 限制“裁判”的自由裁量权 (Guard the Judge)如果我们使用 LLM 来做意图的交叉过滤或自动打分必须防范模型固有的“奉承偏见”倾向于给长篇大论打高分。不要让模型直接给出一个主观分数。在 Harness 脚本中应该向“裁判”模型提供结构化的事实检查清单Checklist。要求裁判必须先输出逐步对比的布尔值结果最后再根据预设的硬代码逻辑而不是模型自己的感觉来汇总得分。总结Harness 确实很重要它标志着大模型应用从早期的“写提示词阶段”逐渐步入了严肃的软件工程阶段。但在实际落地中我们无需对其过度包装。对于工程师而言少谈一些玄乎的范式转移多写一些兜底的代码断言踏踏实实地维护好那个包含着无数真实业务坑点的测试集才是保障 Agent 系统稳定上线的唯一捷径。

Harness 工程是个框，什么都可以往里装

相关文章：

Harness 工程是个框，什么都可以往里装

Oracle 26ai新特性：时区、表空间、审计方面的新特性

5分钟快速上手labelCloud：轻量级3D点云标注工具的完整指南

DeepXDE终极指南：科学机器学习与物理信息学习的完整解决方案

浏览器Markdown渲染工具完全指南：解决本地文件预览难题

全新版Java面试八股文.pdf出炉, 简直把所有 Java 知识面试题写出来了

Element Plus访问优化指南：3种实用方法让你告别加载卡顿

五、QEMU+MIPS环境搭建实战：从零构建跨架构调试环境

【独家首发】Loom+Reactor双引擎协同性能白皮书：基于200万RPS压测的ThreadPerTaskExecutor替代方案（含JFR火焰图对比）

为什么你的C# 14 AOT Dify客户端启动慢3秒？——基于CoreRT底层源码的6层初始化链路剖析

Simple Live：跨平台直播聚合终极指南，告别多App切换烦恼

VideoDownloadHelper：突破流媒体下载壁垒的智能解析工具

我不是在用 AI 助手，我在把自己的能力沉淀成组织资产赡

std::shared_ptr 复习

Blazor应用体积爆炸？2026官方推荐的Razor源码生成器配置模板（.NET SDK 9.0.200+实测包体直降63%）

“INMS: Memory Sharing for Large Language Model based Agents“ 论文笔记坑

【传统图像增强算法3】- 伽马校正（Gamma Correction）完全解析

Phi-3-Mini-128K作品分享：从原始日志提取故障根因并生成修复方案全过程

Keil5 项目文件管理实战：从零构建高效开发环境

力扣热门100题之二叉树的最近公共祖先

力扣热门100题之二叉树中的最大路径和

接口测试——pytest框架续集劫

Ubuntu20.04 软件和更新故障排查与优化指南

Java 25虚拟线程压测全对比：Spring WebFlux vs Virtual Threads vs Project Loom原生方案，谁才是百万QPS终极解？

Kiro IDE + AIClient-2-API 实现Openclaw或者Claude code使用Claude Opus 4.6模型

静态住宅ISP代理：企业如何选择住宅代理IP？

开源六轴机械臂：3D打印谐波减速器技术如何打破工业自动化成本壁垒

KKS-HF Patch：为《Koikatsu Sunshine》打造的全能游戏增强解决方案

突破ControlNet图像质量瓶颈：3大核心参数优化指南

告别本地配置！Core72在线IDE：5分钟打造云端开发环境终极指南