当前位置: 首页 > article >正文

【卷卷观察】Agent Skills 为什么突然火了?我花了一晚上研究,结论有点反直觉

结论先甩Agent Skills 不是什么新东西但它解决了一个很实在的问题——怎么让 AI 不要找借口真正把活干完。我在用 AI 写代码的时候最烦的不是 AI 写得慢是 AI 写完之后跟你说测试我稍后加上。然后就没有然后了。这个问题我遇到太多次了。AI 写的代码逻辑看起来没问题但测试覆盖率 0%、边界情况没考虑、错误处理是空的。你让 AI 补AI 说好的我补然后生成一堆看起来像测试的代码实际上根本没跑通。直到我看到 Addy Osmani 写的 Agent Skills 文章我才意识到问题不在 AI 本身在于我们给 AI 的技能描述太水了。什么是 Agent Skills简单说Agent Skills 就是给 AI Agent 用的标准作业指导书。传统方式你给 AI 一段文字描述告诉它帮我写一个用户登录功能需要包含注册、登录、登出密码要加密异常情况要处理。AI 读完大概知道你想干嘛然后开始写。写出来的代码能跑但细节可能一塌糊涂。Agent Skills 的做法是把作业指导书变成流程图而不是说明书。一个 Skill 长这样## 测试技能 ### Step 1: 写测试 Checkpoint: - [ ] 测试覆盖率 80% - [ ] 所有测试通过 - [ ] 无硬编码凭证 未通过停止执行。 ### Step 2: 验证测试确实运行 - 运行 npm test - 截图测试输出 - 检查覆盖率报告 未通过停止执行。关键差异AI 不能说我写了测试必须通过 Checkpoint 才能继续。为什么在 HN 上火了Addy Osmani 这篇 Agent Skills 文章冲了 303 分151 条评论。看完 HN 评论总结几个要点实用派居多。评论区没有太多人在争论这是不是颠覆性创新而是在讨论这个设计能不能解决我的具体问题。说明确实打到了痛点。对抗 AI 借口文化。HN 评论区提到最多的一个词是anti-rationalization——反合理化。AI 很擅长给自己找借口这只是原型先这样吧测试稍后加上重构太复杂先不搞了Agent Skills 的做法是把这些借口直接写进技能文档里并附上反驳。我会稍后添加测试→ 稍后 永不现在写。能跑就行→ 能跑不等于可维护。这个设计太骚了。AI 看到借口就会想起反驳。相当于给 AI 植入了一个内部监督机制。渐进式披露节省算力。传统方式下AI 每次任务开始都要读取大量背景信息。Agent Skills 采用渐进式披露——AI 只在真正需要时才加载对应技能的知识对长任务链特别有意义。跟 MCP 的关系这是 HN 评论里很多人问的问题。简单说MCP 解决接得上的问题Skills 解决干得对的问题。MCPModel Context Protocol是工具调用协议——让 AI 能调用外部工具。MCP 负责的是AI 能不能做到。Agent Skills 是流程规范——让 AI 按正确顺序、正确标准完成任务。Skills 负责的是AI 做的时候会不会偷懒。两者是互补关系不是替代关系。MCP 是基础设施Skills 是上层规范。我的踩坑经验用 AI 写代码这么久有几个跟 Skills 理念非常吻合的经验验收标准必须可量化。测试要写得好是废话测试覆盖率 80%才是标准。把做好翻译成具体的数字指标AI 执行起来才不会走偏。每个节点都要有明确的退出条件。AI 任务经常虎头蛇尾——开头认真后面糊弄。给每个步骤设置 Checkpoint未通过就停止逼着 AI 在每个节点都交出合格产出。让 AI 提供执行证据不要主观判断。AI 说测试都通过了——这是主观判断不可信。AI 说运行 npm test输出显示 15 passed0 failed覆盖率 82%——这是执行证据可验证。Skills 的 Checkpoint 机制就是强制 AI 提供证据而不是判断。什么时候该用 Agent Skills适合的场景重复性高的任务流程代码审查、测试生成、数据清洗多步骤、长链路的任务需要按顺序完成不能跳步团队需要固化最佳实践把资深工程师的经验转成 Skills对输出质量有明确标准的任务不适合的场景探索性任务你都不知道答案是什么让 AI 自由发挥一次性小任务写个 hello world 还要配 Skill 杀鸡用牛刀创意类任务写文案、做设计Skills 规范太死板判断与行动建议Agent Skills 是 2026 年最值得投入的 AI 工程化实践之一。它的价值不在于技术多先进而在于解决了一个很实在的问题怎么让 AI 在实际干活的时候不摸鱼、不糊弄、不找借口。如果你在带团队做 AI 应用落地建议把 Skills 设计纳入开发规范先从高频任务开始找到团队里重复执行最多的 3-5 个任务为它们编写 Skills。把 Checkpoint 当成 CI不过不了就不能继续——每个 Skill 的 Checkpoint 就是一道质量门。积累团队数字资产Skills 是可以被版本管理、复用的团队知识这是 AI 时代最重要的资产之一。

相关文章:

【卷卷观察】Agent Skills 为什么突然火了?我花了一晚上研究,结论有点反直觉

结论先甩:Agent Skills 不是什么新东西,但它解决了一个很实在的问题——怎么让 AI 不要找借口,真正把活干完。我在用 AI 写代码的时候,最烦的不是 AI 写得慢,是 AI 写完之后跟你说"测试我稍后加上"。然后就没…...

动态推理框架TERMINATOR:大模型推理加速与资源优化

1. 项目背景与核心价值在大模型推理的实际应用中,计算资源消耗一直是困扰开发者的痛点。传统方法需要完整运行整个模型才能获得最终输出,但实践中我们发现——很多简单输入在前几层网络就已经能够给出足够准确的预测结果。这就引出了一个关键问题&#x…...

Go轻量级Web框架zcf:高性能API开发与微服务实践指南

1. 项目概述:一个轻量级、高性能的Web框架最近在GitHub上看到一个名为UfoMiao/zcf的项目,第一眼就被这个有趣的名字吸引了——“UfoMiao”像是某个开发者的昵称,“zcf”则显得非常简洁。点进去一看,果然,这是一个用Go语…...

语言模型角色稳定性控制:激活截断技术解析

1. 项目背景与核心挑战在语言模型助手应用场景中,角色稳定性问题正成为制约用户体验的关键瓶颈。当模型需要长时间维持特定角色(如客服、导师、游戏NPC等)时,常出现角色特征漂移、对话风格不一致或知识边界突破等问题。这种现象在…...

Proma指标库:轻量级监控系统设计与Go应用集成实践

1. 项目概述:从标题“ErlichLiu/Proma”说起 看到“ErlichLiu/Proma”这个项目标题,很多开发者会心一笑。这显然是一个托管在GitHub上的开源项目,遵循着“用户名/仓库名”的标准格式。Proma这个名字,听起来就很有技术感&#xff0…...

别再手动调参了!R语言自动超参优化病害预测框架(比传统方法快6.8倍,AUC稳定≥0.913)

更多请点击: https://intelliparadigm.com 第一章:别再手动调参了!R语言自动超参优化病害预测框架(比传统方法快6.8倍,AUC稳定≥0.913) 在植物病理学与精准农业实践中,基于光谱、图像和基因组数…...

ToDesk免费版真能连100台设备?我实测了文件传输和远程打印,附保姆级配置避坑指南

ToDesk免费版实测:百台设备连接与文件传输的真相 第一次听说ToDesk免费版支持连接100台设备时,我和大多数技术爱好者一样,既兴奋又怀疑。作为一款国产远程控制工具,这样的承诺听起来太过美好。于是,我决定亲自验证这个…...

Banana Pi BPI-W3开发板:RK3588芯片与双千兆网口深度解析

1. Banana Pi BPI-W3开发板深度解析作为一款基于Rockchip RK3588芯片的单板计算机(SBC),Banana Pi BPI-W3在同类产品中展现出独特的配置组合。当我第一次看到这个板子的规格时,最吸引我注意的是它同时具备双千兆网口、PCIe x4插槽…...

强化学习在视频理解中的应用与优化实践

1. 项目概述:当强化学习遇上视频理解 最近在CVPR上看到一个挺有意思的工作叫Video-Thinker,它把强化学习那套决策机制搬到了视频理解任务里。传统视频分析就像让AI看一部电影然后做选择题,而这个框架更像让AI带着问题反复"回看"关键…...

化工园区智能巡检机器人路径规划【附代码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)改进麻雀搜索算法与多策略融合的路径规划&#xff…...

Python配置管理利器:configurations库实现多环境配置自动化

1. 项目概述:一个配置管理的“瑞士军刀”如果你和我一样,在多个项目间反复横跳,或者负责一个需要部署到不同环境(开发、测试、生产)的复杂系统,那么“配置管理”这四个字,大概率是你日常开发中的…...

基于PLC的防冻液精准喷洒控制模糊PID【附代码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)防冻液喷洒系统建模与串级PID结构设计:…...

告别霍尔传感器:用STM32F4驱动BLDC无刷电机的无感控制保姆级教程

告别霍尔传感器:用STM32F4驱动BLDC无刷电机的无感控制保姆级教程 在工业自动化、消费电子和无人机等领域,无刷直流电机(BLDC)凭借高效率、长寿命和低噪音等优势逐渐取代传统有刷电机。然而,传统BLDC驱动依赖霍尔传感器…...

5分钟掌握YimMenu:GTA5终极开源防护菜单深度解析

5分钟掌握YimMenu:GTA5终极开源防护菜单深度解析 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …...

MineCursor:开发者专属光标主题,提升编码体验与效率

1. 项目概述:一个为开发者定制的光标主题如果你和我一样,每天有超过8小时的时间是在代码编辑器和终端里度过的,那你一定对那个千篇一律的、闪烁的文本光标感到过厌倦。它可能是一个单调的竖线,或者一个方块,在深色或浅…...

PFL-Non-IID系统性能优化:GPU内存管理与多GPU并行训练

PFL-Non-IID系统性能优化:GPU内存管理与多GPU并行训练 【免费下载链接】PFLlib Master Federated Learning in 2 Hours—Run It on Your PC! 项目地址: https://gitcode.com/gh_mirrors/pf/PFL-Non-IID PFL-Non-IID是一个专注于非独立同分布数据场景下联邦学…...

如何实现零运行时内存分配:ggml高性能推理的终极优化指南

如何实现零运行时内存分配:ggml高性能推理的终极优化指南 【免费下载链接】ggml Tensor library for machine learning 项目地址: https://gitcode.com/GitHub_Trending/gg/ggml 在机器学习推理领域,内存管理一直是影响性能的关键瓶颈。ggml作为一…...

微软HydraLab:云原生移动端自动化测试平台部署与实战指南

1. 项目概述:一个被低估的移动端自动化测试利器如果你和我一样,长期在移动应用开发和质量保障的一线摸爬滚打,那你一定对自动化测试的“痛”深有体会。设备碎片化、测试环境搭建繁琐、脚本维护成本高、真机资源难以管理……这些问题就像房间里…...

如何在Lobe-Chat中实现完整的操作记录追踪与审计分析

如何在Lobe-Chat中实现完整的操作记录追踪与审计分析 【免费下载链接】lobehub The ultimate space for work and life — to find, build, and collaborate with agent teammates that grow with you. We are taking agent harness to the next level — enabling multi-agent…...

ICoT与傅里叶结构优化语言模型推理与效率

1. 项目背景与核心价值最近在语言模型架构优化领域,ICoT(Iterative Chain-of-Thought)训练方法与傅里叶结构的结合正在引发新的技术突破。这种创新组合不仅提升了模型在复杂推理任务中的表现,还显著降低了长序列处理的显存消耗。作…...

告别重复劳动:用harmes agent与快马平台自动化代码审查,效率翻倍

告别重复劳动:用harmes agent与快马平台自动化代码审查,效率翻倍 最近在团队协作开发中,我发现代码审查这个环节特别耗费时间。每次都要手动检查函数长度、注释完整性、未使用的导入等问题,不仅效率低,还容易遗漏细节…...

双曲空间视觉语言模型中的不确定性对齐技术

1. 项目背景与核心挑战在计算机视觉与自然语言处理的交叉领域,多模态模型的对齐问题一直是研究的重点难点。传统方法往往采用欧式空间进行特征表示,但近年来双曲几何空间因其独特的层级结构表示能力,在处理具有树状或层级关系的数据时展现出显…...

量子优化算法DO-QAOA:NISQ时代的突破与挑战

1. 量子优化算法演进与NISQ时代挑战量子近似优化算法(QAOA)作为当前量子计算领域最具潜力的组合优化解决方案,其核心思想是通过交替应用问题哈密顿量和混合哈密顿量来制备参数化量子态。在理想情况下,随着电路层数p的增加&#xf…...

告别重复劳动:用快马AI自动生成Matlab风格的数据分析与可视化模板

告别重复劳动:用快马AI自动生成Matlab风格的数据分析与可视化模板 作为一个经常用Matlab处理数据的工程师,每次做数据分析报告时最头疼的就是那些重复性的代码模板。数据导入、预处理、计算指标、画图格式化...这些步骤虽然简单,但每次都要从…...

利用Taotoken的稳定性与路由能力保障线上服务高可用

利用Taotoken的稳定性与路由能力保障线上服务高可用 1. 线上服务中的大模型集成挑战 将大模型API集成到线上生产环境时,开发团队常面临单点故障风险。当依赖单一模型供应商或API端点时,服务中断、配额耗尽或突发流量都可能导致业务不可用。传统解决方案…...

特种海洋作业平台锂电池完整设计方案要求【浩博电池】

特种海洋作业平台锂电池完整设计方案要求特种海洋作业平台锂电池系统主要用于海上工程施工、海底作业支持、海洋设备维护、海上风电运维、海洋资源开发以及水下机器人协同作业等复杂海洋环境。其核心特点是:高功率持续输出、极端海况适应能力、超强防腐蚀防水能力、…...

5分钟快速上手YetAnotherKeyDisplayer:让键盘操作一目了然的终极指南

5分钟快速上手YetAnotherKeyDisplayer:让键盘操作一目了然的终极指南 【免费下载链接】YetAnotherKeyDisplayer App for displaying pressed keys of the keyboard 项目地址: https://gitcode.com/gh_mirrors/ye/YetAnotherKeyDisplayer 还在为录制教程时观众…...

TypeScript-Babel-Starter 深度解析:为什么选择 Babel 而不是 tsc 编译器

TypeScript-Babel-Starter 深度解析:为什么选择 Babel 而不是 tsc 编译器 【免费下载链接】TypeScript-Babel-Starter A sample setup using Babel CLI to build TypeScript code, and using TypeScript for type-checking. 项目地址: https://gitcode.com/gh_mi…...

剂泰科技开启招股:获1.5亿美元基石投资 5月13日上市 红杉高瓴加持

雷递网 雷建平 5月5日剂泰科技(北京) 股份有限公司(简称:“剂泰科技”,股票代码:“07666”)今日开启招股,准备2026年5月13日在港交所上市。剂泰科技计划在本次IPO中发行201,229,000股H股。其中,…...

告别‘断线’烦恼:用PyTorch实现动态蛇卷积,精准分割血管与道路(附完整代码)

动态蛇卷积实战:从零实现血管与道路的精准分割 在医学影像和遥感图像分析中,管状结构的分割一直是个棘手的问题。想象一下,当你需要从视网膜扫描图中提取微细血管网络,或是从卫星图像中识别城市道路脉络时,传统卷积神经…...