当前位置: 首页 > article >正文

为什么你的AI Agent总输出垃圾?因为你没装“技能插件”

最近三个月我至少被问了20次同一个问题。“老师我调了GPT-5也用了Claude Code为什么Agent做事还是乱七八糟让它分析代码它说一堆正确的废话。让它修Bug它改出三个新Bug。Prompt改了几十版没用。”我把他的Agent日志拉出来看了一遍。问题不在模型。问题在于他的Agent裸奔了。什么叫裸奔就是Agent只有一个大模型大脑但没有任何“技能插件”——不知道怎么读本地文件不知道怎么执行shell命令不知道怎么查数据库甚至连“按照公司约定的JSON格式输出”都做不到。模型知识截止于2025年你公司的代码仓库是2026年的。模型不知道你们用什么日志格式不知道你的测试框架怎么配置不知道你们团队约定了哪些命名规范。你让一个只有通识教育背景的实习生去干需要专业认证的活不给工具书不给操作手册然后骂他能力不行。不是他不行。是你不给工具。目录一、你写的Prompt再多也填不满模型的知识缺口二、大模型缺的不是推理能力是“怎么做事”的上下文三、Skill就是个“可执行的说明书”MCP 工具函数四、两组对比没Skill的Agent vs 装好插件的Agent五、三步设计你自己的Skill让Agent真正干活六、Skill会成为新的数字资产也会制造新的岗位一、你写的Prompt再多也填不满模型的知识缺口一个典型的场景。你想让Agent帮你审查代码里的SQL注入风险。你写了500字的Prompt告诉它什么是SQL注入给了一堆例子要求它逐行分析。Agent干了几件事。第一它靠训练记忆里的SQL注入模式去匹配。第二它不认识你项目里自定义的ORM封装函数会把安全的调用误判为风险。第三它不知道公司最新的安全规则库在哪里。结果误报率40%漏报率20%。你花了一个小时写Prompt又花了一个小时甄别Agent输出。效率还不如自己查。问题出在哪你的Prompt是静态的。SQL注入的检测逻辑需要查最新的CVE规则库需要知道项目里哪些函数是安全的封装需要调用外部的静态分析工具。这些东西你在Prompt里给不了给了也维护不了。本质是什么大模型的极限不在于推理而在于可获取的上下文。你把巨量信息塞进Prompt有两个后果一是Token成本爆炸二是模型会被无关信息干扰反而降低精度。这就是为什么行业在疯狂搞Skill插件。2025年底Anthropic发布MCP协议本质就是让Agent能“即插即用”各种能力模块。紧接着腾讯上线SkillHub超过28000个Skill被封裝成可调用的单元。Cursor、Claude Code、OpenClaw这些工具全部支持Skill机制。你的Agent输出垃圾不是模型智力不够。是它手边没有趁手的工具。二、大模型缺的不是推理能力是“怎么做事”的上下文换个角度理解。大模型就像一个刚从斯坦福毕业的天才毕业生。推理能力一流抽象思维顶级。但你要他去修一台柴油发动机他不懂。不是他智商不够。是他没摸过柴油机不知道扳手放哪不知道每个零件的扭矩参数。你给他的“上下文”——也就是Prompt里的信息——相当于一本理论教材。但修发动机需要的是操作手册、零件目录、专用工具。Skill就是那个操作手册加专用工具。下图展示了一个Skill如何在Agent运行时被调用。Agent不直接执行Skill而是通过MCP协议发现、加载、调用。┌─────────────────────────────────────────────────┐ │ 用户请求 │ │ “帮我检查这段代码有没有SQL注入” │ └─────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────┐ │ AI Agent (大脑) │ │ 理解意图 → 规划步骤 → 决定调用哪些Skill │ └─────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────┐ │ MCP协议层 (总线) │ │ Skill注册中心 │ 协议适配 │ 路由分发 │ └─────────────────────────────────────────────────┘ │ ┌─────────────┼─────────────┐ ▼ ▼ ▼ ┌───────────┐ ┌───────────┐ ┌───────────┐ │SQL注入 │ │代码解析 │ │规则库查询 │ │检测Skill │ │Skill │ │Skill │ └───────────┘ └───────────┘ └───────────┘核心差异是什么没有SkillAgent只能靠“记忆”工作。记忆是模糊的、过时的、没有业务细节的。有SkillAgent可以调用公司内部的安全规则API执行本地的静态分析工具读取项目配置文件中的特殊约定把结果格式化为团队约定的JSON结构Skill解决的是“怎么做”的问题。不是“应该做什么”。三、Skill就是个“可执行的说明书”MCP 工具函数技术上讲一个Skill包含三部分。第一部分元数据。告诉Agent这个Skill是干什么的、什么时候该用它。比如“这个Skill用来检测SQL注入输入是代码字符串输出是风险列表”。第二部分指令。一段给模型的提示说明“怎么用这个Skill”。包括输入格式、输出格式、常见的使用场景。第三部分工具函数。实际执行的代码。可以是一个本地脚本、一个API调用、一个数据库查询。Agent调用Skill的流程是这样的第一步Agent收到用户请求分析意图。 第二步Agent查找MCP注册中心看哪些Skill的元数据与当前意图匹配。 第三步Agent根据Skill的指令构造正确的输入参数。 第四步Agent通过MCP调用工具函数拿到执行结果。 第五步Agent把结果整合到回答中。注意一个关键点模型不执行工具函数。模型只做两件事——决定调用哪个Skill、解释调用结果。真正的执行由本地代码完成。这意味着什么意味着你的Skill可以用任何语言写。Python、Go、Java、Bash甚至是一个HTTP请求。Agent只管调度不管实现。解决了什么问题解耦。领域知识和执行逻辑从Prompt里抽出来变成独立可维护的模块。你改Skill的实现不需要改Agent的Prompt。升级安全规则库Skill内部换API就行Agent完全无感知。另一个被解决的痛点权限和安全。如果把执行代码写在Prompt里让模型自己去跑风险极大。但Skill是预先封装好、签过名的安全模块Agent只能以受限方式调用。可以截图传播的观点句1Skill把“怎么做事”从“应该做什么”里剥离出来AI才能从顾问变成工人。四、两组对比没Skill的Agent vs 装好插件的Agent用真实任务测试。任务分析一个Python项目的依赖文件requirements.txt找出有已知安全漏洞的库并给出升级建议。没装Skill的Agent靠训练记忆列出一份常见漏洞库列表。它说“requests 2.25.0有CVE-2023-1234”。但它不知道这个CVE是否已被标记为误报。它建议升级到2.28.0但没检查2.28.0和项目代码是否兼容。输出是一段自然语言你需要自己复制粘贴、查漏洞库、手动验证。耗时你写复杂Prompt 30分钟Agent跑完2分钟你验证结果20分钟。总成本52分钟。准确率60%。装了三个Skill的AgentSkill 1依赖解析器。输入requirements.txt输出所有库名和版本号的结构化列表。 Skill 2安全漏洞查询器。调NVD API或公司内部漏洞库返回每个版本的真实CVE状态。 Skill 3兼容性检查器。快速扫描项目代码中用到的函数签名判断升级后是否兼容。Agent自动编排三个Skill先解析依赖再批量查漏洞最后对有漏洞的库做兼容性检查。输出是一个结构化报告哪些库必须升级、哪些库建议升级、哪些库因为兼容性问题暂时不动。耗时无Prompt编写Skill已预置Agent执行3分钟你直接看报告5分钟。总成本8分钟。准确率95%。差异在哪不是模型变聪明了。是Skill让Agent“手上有活”。可以截图传播的观点句2一个没有Skill的Agent是纸上谈兵的参谋一个有Skill的Agent是自带工具箱的施工队。五、三步设计你自己的Skill让Agent真正干活如果你现在就想动手路线不复杂。第一步拆解高频任务拿你的日常工作选三个最常做的任务。比如“解析日志”“查询数据库”“格式化输出”。把每个任务拆成输入是什么、输出是什么、中间需要查哪些外部信息、需要调用哪些本地工具。第二步封装成Skill选一个MCP SDKPython版或Node版都成熟了。写一个类至少实现三个方法describe()返回元数据告诉Agent这个Skill的能力边界input_schema()定义输入参数必须符合的JSON Schemarun(input)真正的执行逻辑写完后本地注册到MCP server。一行配置的事。第三步让Agent加载在Agent的配置里加上MCP server地址。不同的Agent框架方式不同但本质就是告诉Agent“这里有新Skill拿去用。”测试方法很简单。给Agent一个任务问它“你打算怎么做”。看它列出的执行计划里是否包含你写的Skill。不包含检查元数据写的是不是够清晰。有一个容易被忽视的原则Skill只做一件事并做好。一个Skill负责“解析时间字符串”另一个负责“查漏洞库”不要揉在一起。细粒度的Skill更容易被Agent复用。可以截图传播的观点句3Skill设计的黄金法则让Agent像搭积木一样组合你的能力单元。六、Skill会成为新的数字资产也会制造新的岗位预测两个趋势。第一Skill会成为企业的核心数字资产。就像十年前公司积累代码库一样未来公司会积累Skill库。每个Skill封装了一条业务知识或一个操作流程。新员工入职不是看文档是继承一套Skill。Agent会了人也就知道了。SkillHub的出现只是个开始。企业内部私有Skill市场的爆发会在2026年下半年到来。第二“Skill工程师”会成为独立岗位。不是AI工程师不是测试工程师是专门设计、开发、维护Skill的人。工作内容是和业务方访谈提取高频决策逻辑封装成可被Agent调用的标准化模块写元数据让Agent能“理解”这个Skill的能力监控Skill的调用成功率和准确率持续迭代。这个岗位对测试从业者特别友好——测试的本质是验证“输入-输出”的正确性Skill的本质也是定义清晰的输入输出边界。最后一个问题留给你你的业务里最值得被封装成Skill的三个高频任务是什么如果明天就要你做第一个Skill你选哪个任务输入输出怎么定义

相关文章:

为什么你的AI Agent总输出垃圾?因为你没装“技能插件”

最近三个月,我至少被问了20次同一个问题。“老师,我调了GPT-5,也用了Claude Code,为什么Agent做事还是乱七八糟?让它分析代码,它说一堆正确的废话。让它修Bug,它改出三个新Bug。Prompt改了几十版…...

Grasscutter Tools:原神私服玩家的终极桌面助手,告别复杂命令行

Grasscutter Tools:原神私服玩家的终极桌面助手,告别复杂命令行 【免费下载链接】grasscutter-tools A cross-platform client that combines launcher, command generation, and mod management to easily play Grasscutter; 一个结合了启动器、命令生成…...

通过用量看板清晰观测 Taotoken 上各模型的调用成本与消耗

通过用量看板清晰观测 Taotoken 上各模型的调用成本与消耗 1. 用量看板的入口与概览 Taotoken 控制台为每个账户提供了详细的用量看板功能,用户登录后可在左侧导航栏找到「用量统计」入口。该页面默认展示最近7天的调用数据概览,包括总消耗 token 数、…...

如何构建Windows任务栏图标居中解决方案的安全加固与自动化检测体系

如何构建Windows任务栏图标居中解决方案的安全加固与自动化检测体系 【免费下载链接】CenterTaskbar Center Windows Taskbar Icons 项目地址: https://gitcode.com/gh_mirrors/ce/CenterTaskbar 随着Windows系统任务栏管理需求的日益复杂化,任务栏图标居中工…...

Decompile逆向方法 Decompile2.1.0解锁会员教程

工具 MT管理器(看版本号选最新版本) NP管理器(看版本号选最新版本) Decompile(自行必应) 教程 一、准备 1.在mt/np管理器提取安装包/找到安装包位置 2.去除软件签名效验,mt管理器中直接点击,np管理器中优先用超强方案2(去签后能正常打…...

3个颠覆性策略:构建智能知识网络的全新指南

3个颠覆性策略:构建智能知识网络的全新指南 【免费下载链接】Obsidian-Templates A repository containing templates and scripts for #Obsidian to support the #Zettelkasten method for note-taking. 项目地址: https://gitcode.com/gh_mirrors/ob/Obsidian-T…...

你的QQ空间记忆,值得被永久珍藏:GetQzonehistory备份指南

你的QQ空间记忆,值得被永久珍藏:GetQzonehistory备份指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 还记得那些年你在QQ空间写下的第一条说说吗&#xff1f…...

从MP3到FLAC:你的音乐文件到底‘损失’了什么?一次搞懂音频压缩的取舍艺术

从MP3到FLAC:你的音乐文件到底‘损失’了什么?一次搞懂音频压缩的取舍艺术 每次打开音乐播放器,面对琳琅满目的音频格式选择——MP3、AAC、FLAC、WAV——你是否曾困惑过它们之间的本质区别?为什么同样一首歌,FLAC格式的…...

AutoDL云服务器+ Xinference部署实战:我把ChatGLM3、BGE大模型全家桶都塞进了Dify知识库

AutoDL云服务器Xinference部署实战:高性价比大模型知识库搭建指南 去年夏天,我接手了一个企业知识库升级项目,预算却只有大公司的零头。经过反复测试,终于摸索出一套在AutoDL云服务器上通过Xinference同时部署ChatGLM3对话模型、B…...

老外用 AI 日发100+条TK带货视频,推特40万人围观,我梳理了完整SOP并用Clipcat复现这套爆款复刻工作流

最近 X 上有个帖子彻底炸了。一个叫 MaverickEcom 的老外,发了一套 TikTok Shop 的 AI 内容工厂方法论,40 万 曝光,评论区全是 "这不是降维打击吗"。我花了两天把他的 YouTube 详解视频逐帧拆了一遍,说说我的理解&…...

别再凭感觉给MOS管栅极加电压了!手把手教你用数据手册选Vgs(附Excel计算模板)

MOS管栅极电压的科学选择:从数据手册到Excel量化决策 在硬件设计领域,MOS管栅极电压的选择往往被当作一种"经验艺术"——很多工程师习惯性地采用5V、10V这样的"标准值",或者简单地在阈值电压基础上加个固定值。这种凭感觉…...

在多轮对话场景下感受 Taotoken 聚合 API 的响应速度与连贯性

在多轮对话场景下感受 Taotoken 聚合 API 的响应速度与连贯性 1. 多轮对话的技术挑战 构建需要上下文保持的聊天应用时,开发者通常面临两个核心问题:模型对历史对话的理解能力,以及各轮次交互的响应速度。前者直接影响用户体验的连贯性&…...

Java程序员无高并发经验该如何破局?

现在Java面试,问的是越来越底层。作为一名合格的Java程序员不仅要能“上天”,还要能“入地”!上天是指高并发,缓存,大流量,大数据量,能在更高的层面解决问题,入地是指从JVM&#xff…...

对接 Claude Code 编程助手时配置 Taotoken 作为 API 提供商

对接 Claude Code 编程助手时配置 Taotoken 作为 API 提供商 1. 准备工作 在开始配置前,请确保已注册 Taotoken 账号并获取有效的 API Key。登录控制台后,可在「API 密钥管理」页面创建新密钥。同时,在「模型广场」查找 Claude 系列模型的 …...

告别模糊照片:用CBDNet训练你自己的手机照片去噪模型(PyTorch实战)

手机摄影爱好者的救星:用CBDNet打造个性化去噪模型的完整指南 每次翻看手机相册时,那些在昏暗餐厅、夜晚街头或是室内弱光环境下拍摄的照片是否总让你感到遗憾?噪点像一层挥之不去的薄雾,掩盖了本应清晰的细节。传统修图软件的去噪…...

从样品到量产:RK3568驱动ILI9881C MIPI屏,如何避免‘开机黑屏’的坑?

从样品到量产:RK3568驱动ILI9881C MIPI屏的工程实践与问题溯源 当一块MIPI屏幕从实验室样品走向批量生产时,工程师们往往会遇到一个令人头疼的现象:明明样品调试一切正常,量产时却出现开机只显示uboot logo后黑屏的问题。这种&quo…...

告别模拟信号:手把手教你用示波器解析汽车传感器SENT协议数据帧

告别模拟信号:手把手教你用示波器解析汽车传感器SENT协议数据帧 在汽车电子系统的调试现场,工程师们常常需要面对各种传感器信号的解析难题。当传统的模拟信号无法满足高精度需求时,SENT协议作为一种数字化的替代方案逐渐崭露头角。不同于CAN…...

别再只懂PCA了!用PyTorch从零搭建一个Auto-Encoder,实战图像去噪与数据压缩

别再只懂PCA了!用PyTorch从零搭建Auto-Encoder实战图像去噪与数据压缩 当你的MNIST手写数字被噪声淹没时,当你的高维数据让PCA力不从心时,是时候尝试一种更强大的非线性降维工具了。Auto-Encoder(自编码器)这个看似简单…...

DownKyi哔哩下载姬:解锁B站视频下载的5个隐藏功能与实战指南

DownKyi哔哩下载姬:解锁B站视频下载的5个隐藏功能与实战指南 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等…...

从‘海马’到‘小脑蚓部’:手把手教你用AAL模板在MRIcroGL里可视化你的脑激活图

从‘海马’到‘小脑蚓部’:手把手教你用AAL模板在MRIcroGL里可视化你的脑激活图 第一次看到fMRI数据分析结果时,那些彩色的激活簇就像夜空中的星座——美丽却难以解读。当.nii文件中的ANG.L或HIP.R缩写出现在论文中,你是否曾困惑这些代码究竟…...

高效智能的免费小说下载工具:novel-downloader终极解决方案

高效智能的免费小说下载工具:novel-downloader终极解决方案 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在网络文学蓬勃发展的今天,如何永久保存喜爱的网络…...

告别盲猜:用Process Monitor给你的软件行为做一次“全身体检”(以Chrome/微信为例)

告别盲猜:用Process Monitor给你的软件行为做一次“全身体检”(以Chrome/微信为例) 你是否曾经好奇过,当你在电脑上双击一个软件图标时,它究竟在后台悄悄执行了哪些操作?为什么有些软件启动特别慢&#xff…...

Dante Cloud v4.0.6.0 版本发布:开源新功能,支持多架构灵活切换!

1. Dante Cloud v4.0.6.0 版本发布,有哪些亮点?国内首个同时支持阻塞式服务和响应式服务的、微服务版和单体版本可以无缝切换的 Dante Cloud v4.0.6.0 版本发布。为支持后续产品开发,继核心组件 Dante Engine 回归开源之后,该版本…...

终极指南:如何用xEdit快速清理和优化你的游戏Mod

终极指南:如何用xEdit快速清理和优化你的游戏Mod 【免费下载链接】TES5Edit xEdit by Elminster; Updated and maintained by Sharlikran, Zilav, and Hlp 项目地址: https://gitcode.com/gh_mirrors/te/TES5Edit xEdit是一款强大的游戏模组编辑器&#xff0…...

绝地求生终极压枪指南:5个技巧教你用罗技鼠标宏实现完美后坐力控制

绝地求生终极压枪指南:5个技巧教你用罗技鼠标宏实现完美后坐力控制 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 如果你正在寻找提…...

百万上下文之后,拼什么?

过去几天,科技圈的视线全被DeepSeek吸走了。满屏都是传闻中的估值溢价,或者是跟各类国产算力芯片的适配通稿。市场的狂热情绪,很容易让人迷失在庞大的数字迷宫里。大众的关注点,要么是“百万上下文"这个听起来很唬人的标签&a…...

大模型优化实战:LoRA与量化技术降低70亿参数模型显存需求

1. 大模型优化技术背景在深度学习模型规模不断膨胀的今天,如何让百亿参数级别的大模型真正落地应用,已经成为工业界和学术界共同关注的焦点问题。我最近在部署一个70亿参数的对话模型时,就深刻体会到了原始模型对计算资源的恐怖需求——单次推…...

物理知识点

⚙️ 经典力学(基础核心) • 质点运动学 • 参考系与位置矢量、位移 • 速度、加速度的矢量定义与导数表示 • 直角/自然/极坐标下运动分解 • 切向、法向加速度的物理意义 • 匀变速/抛体/圆周运动公式 • 伽利略速度变换(相对运动) • 质点动力学 • 牛顿三大定…...

手把手教你写一个Linux下的mdio调试工具(附完整C代码)

从零构建Linux MDIO调试工具:深入PHY寄存器操作实战 当你面对一块没有预装mii-tool或ethtool的嵌入式开发板,或者需要直接操作PHY芯片寄存器进行底层调试时,自己动手编写一个轻量级MDIO工具会成为解决问题的关键。本文将带你深入Linux内核的M…...

别再让Langchain流式输出卡脖子了!FastAPI + SSE实战,附ChatGLM3完整配置

Langchain流式输出实战:FastAPI与SSE深度整合指南 引言 在当今AI应用开发领域,流式输出已成为提升用户体验的关键技术。想象一下,当用户与你的AI助手交互时,等待完整响应的时间可能长达数秒甚至更久——这种等待体验在实时交互场…...