当前位置: 首页 > article >正文

从 LLM 到 Agent:“工具”和“主动性”?

最近AI概念实在是太火后端java仔不得不跟上时代。从大语言模型出现以后人们发现它可以写论文、写代码、做总结、回答问题表现得非常强大。但在实际使用中也逐渐暴露出几个明显问题第一幻觉严重。它可能会生成看似合理、但实际上并不存在的信息。第二只能生成文本。它本身不会真正查数据库、读文件、运行代码、操作网页。第三无法天然获取实时信息。比如“明天天气怎么样”“从这里到成都东站怎么走”如果没有外部工具它只能凭已有知识猜测甚至可能胡编。因此后来逐渐出现了 RAG、Function Calling、MCP、Skills 等机制本质上都是给 LLM 接上外部工具让它不再只是“会说话”而是可以“查资料、调用工具、观察结果、继续决策”。这时LLM 就开始从一个单纯的问答模型逐渐演变成一个 Agent。1. 什么是 Agent智能体是从传统的基于强化学习基于大数据到目前非常主流的基于llm的智能体。简单来说Agent 不是单纯的大模型而是一个由 LLM、工具、记忆、规划、执行和反馈机制共同组成的智能任务系统。如图所示来源传统的 LLM 是用户问一句 → LLM 回一句 → 结束而 Agent 是用户给目标LLM -理解任务 -Planner -拆解步骤Executor - 调用工具Observer -返回结果LLM -继续判断下一步直到任务完成这里个人觉得最大的变化是一个主动性他在不断的反馈给llm 下一步要干啥任务怎么拆解Agent 并不是 LLM 自己主动想干什么而是程序一次又一次地把问题丢给 LLM让它选择下一步Agent 的主动性就是外部程序不断问 LLM 这句话 : 下一步需要做啥LLM 本身没有“自我启动能力”真正的主动触发来自外部调度器、事件监听器、工作流系统。所以agent一般由一下部分组成1. LLM负责理解、推理、规划、决定下一步2. Tools负责搜索、读文件、查数据库、写代码、发邮件等3. Memory保存长期信息、历史任务、用户偏好4. Planner把大任务拆成小步骤5. Executor真正执行工具调用6. Observer把执行结果反馈给 LLM7. Controller决定什么时候继续什么时候停止而好的一个agent就是怎么让 LLM 在复杂任务中稳定、正确、可控地决定“下一步该做什么”。难点就是分为以下几点1. 任务拆解难后文会根据中兴的co-sight agent为例看大团队是如何解决的LLM 很容易把任务拆得太粗、太细、顺序不合理或者遗漏关键步骤2.工具选择难Agent 面前可能有很多工具PDF 阅读工具代码执行工具邮件工具3.工具调用结果理解难工具返回的结果不一定干净4.状态管理难Agent 不是一步完成任务而是多步执行。对应的优化点可以是第一是规划优化。复杂任务不能直接生成答案而要先拆解成若干子任务明确每一步的目标、所需工具和完成条件。第二是工具路由优化。要为每个工具定义清晰的功能、输入输出和适用场景同时结合规则、分类模型或 LLM 判断选择最合适的工具。第三是检索和工具参数优化。对于搜索或向量数据库ps光是向量数据库的设计就很复杂了不能直接使用用户原话而要进行 query rewriting、多路检索、过滤和重排提高返回结果的相关性。第四是状态和记忆优化。Agent 需要显式维护当前任务状态包括用户目标、约束、已完成步骤、待完成步骤和中间结论避免长任务中遗忘或跑偏。第五是验证和终止优化。Agent 在输出前应检查结果是否满足用户要求并设置完成标准和最大执行边界避免信息不足或无限循环。第六是安全和成本优化。对工具进行风险分级低风险工具自动执行高风险动作必须用户确认openclaw不是出现过删除用户数据的事故吗感觉就是权限没设计好同时限制调用次数、缓存结果降低成本和延迟。所以我认为 Agent 落地的关键是把 LLM 的推理能力、工具的执行能力和工程上的状态控制、安全控制、结果验证结合起来。2.Co-Sight解读来看一个标准agent的优秀案例代码地址https://github.com/ZTE-AICloud/Co-Sight/是一个“面向复杂调研任务的 Deep Research Agent 框架”是一个调研型 Agent 框架报告生成只是它的最终表现形式他的代码结构如下Co-Sight ├── app │ ├── agent_dispatcher │ ├── common │ └── cosight ├── cosight_server │ ├── deep_research │ ├── manus_server │ ├── sdk │ └── web ├── config ├── tools ├── CoSight.py └── llm.py从CoSight.py看它初始化了几个关键对象plan_llm act_llm tool_llm vision_llm TaskPlannerAgent TaskActorAgent TaskManager Plan也就是说它不是一个 LLM 干所有事情而是把模型角色拆开了规划模型、执行模型、工具模型、视觉模型。代码里也分别配置了llm_for_plan、llm_for_act、llm_for_tool、llm_for_vision即图片来源gpt-image用户问题 ↓ TaskPlannerAgent负责任务规划 ↓ Plan / TaskManager维护任务状态 ↓ TaskActorAgent执行具体步骤 ↓ Tools / MCP / Search获取外部信息 ↓ TRSF整理结构化事实 ↓ CAMV冲突验证 ↓ Planner finalize生成最终报告最关键的机制是TRSF 负责持续组织、验证、同步多个 Agent 之间的证据CAMV 把验证转化为“识别冲突 针对性证伪”只把计算资源放在不同 expert agents 的分歧点上即TRSF 把搜索/工具结果变成“有来源、有证据、可追溯”的事实账本CAMV 它解决的问题是多个 Agent 或多个资料来源可能说法不一致但不会把所有资料全部重新检查一遍而是专门盯住冲突点然后它针对这个冲突去验证。源代码中并没有这个两个命名的py文件这是中兴发表的论文提出的两个概念。对于agent来说还有个很重要的点就是如何设计他的上下文保持记忆和理解任务状态。1. 系统角色 你是一个 Agent目标是完成任务不是闲聊。 2. 用户目标 用户到底要你完成什么。 3. 当前状态 已经做了什么查到了什么还剩什么。 4. 可用工具列表 你有哪些工具每个工具干什么输入格式是什么。 5. 约束条件 不能做什么哪些操作要确认输出格式是什么。 6. 上一轮工具结果 刚刚调用工具返回了什么。 7. 下一步决策要求 请判断继续调用工具还是输出最终答案。以 Co-Sight 为例它不是让 LLM 自己记住所有东西而是用plan_id Plan TaskManager保存任务状态不是让 LLM 天然知道工具而是通过搜索配置和 MCP skill 配置把工具暴露给它每一轮执行时再把当前任务、当前步骤、工具信息和已有状态喂给对应角色的 LLM。如果要自己开发一个agent我们可以不用自己重复造一般可以用很火的langChain框架它是一个开发LLM相关业务功能的集大成者是一个Python的第三方库提供了各种功能的API。常见的LongChain是AgentExecutor、Tool、Chain、Runnable、LangGraph。其中面试经常会问LangGraph 更偏复杂 Agent 编排多智能体协作这些。仔细阅读 Co-Sight会发现他自己写了 Agent 编排逻辑t 没有主要依赖 LangChain 来搭 Agent Loop。是自研了一套面向 Deep Research 的 Agent 编排框架。它通过 Planner–Actor 架构完成任务拆解和执行通过TaskManager/Plan维护任务状态其中会话管理是一个很重要的概念很多公司的核心和基础业务。并通过 MCP skill 接入外部工具。LangChain 这类框架也能实现类似能力但 Co-Sight 的重点在于自定义的多 Agent 协作、结构化事实和冲突验证机制。向量数据库可以理解为是llm调用的一个很很重要的工具RAG/向量检索的核心链路分片Chunking把长文档切成小块方便检索→ 召回Recall从所有 chunk 中找出“可能相关”的一批→ 排序Ranking对召回结果再精排找出“最相关、最靠谱”的。常见的排序方式1. 向量相似度排序基础2. Cross-Encoder更精准3. LLM rerank最强但贵未完待续。。。。

相关文章:

从 LLM 到 Agent:“工具”和“主动性”?

最近AI概念实在是太火,后端java仔不得不跟上时代。 从大语言模型出现以后,人们发现它可以写论文、写代码、做总结、回答问题,表现得非常强大。但在实际使用中,也逐渐暴露出几个明显问题: 第一,幻觉严重。…...

告别报销烦恼!金蝶AI星辰费用报销实操指南,让企业效率飞起来

还在为繁琐的费用报销流程头疼吗?员工填单慢、财务审核累、老板看不清账?别担心,金蝶AI星辰带着“云报销”功能来拯救你了!今天,我们就用一篇通俗易懂的实操指南,带你体验从“报销难”到“报销爽”的华丽蜕…...

(10个核心知识点解构分章版)深度解析TCP/IP网络协议栈:从基础概念到核心机制的全方位指南

(10个核心知识点解构分章版)深度解析TCP/IP网络协议栈:从基础概念到核心机制的全方位指南作者:培风图南以星河揽胜 发布日期:2026-04-24 标签:#计算机网络 #TCP/IP #面试必备 #网络原理 #CSDN原创前言:为什么我们需要深…...

一条查询跑了 8 小时,改写后 519 毫秒?金仓子查询等价谓词传递优化深度解析

引言:明明有 WHERE 条件,为什么数据库还是全表扫描?你有没有遇到过这样的场景:写了一条 SQL,外层明明带了精确的 WHERE 过滤条件,但执行计划一看——子查询内部仍然是全表扫描,没有利用到任何过…...

为什么WHERE中的函数调用会引发灾难?揭秘KES与Oracle的函数执行顺序之谜

在 WHERE 子句里放一个"有副作用"的函数,就像在高速公路上放了一个随机变道的司机——也许今天没事,但迟早会出事故。引言:一段看起来"理所当然"的代码在一次代码评审中,我看到了这样一条 SQL:SEL…...

深度拆解 HermesAgent(二):闭环学习系统 —— AI Agent 如何“自我进化“?

深度拆解 HermesAgent(二):闭环学习系统 —— AI Agent 如何"自我进化"? 系列导读:本文是 HermesAgent 深度拆解系列 的第二篇。我们将深入分析 HermesAgent 最核心的创新——闭环学习系统,看看 …...

数据结构入门:栈实现全解析

个人专栏:《数据结构-初阶》《经典OJ题目》《C语言》 欢迎各位大佬交流! 目录 一、栈的概念及结构 1、栈的基本概念 2、栈的结构 二、代码实现 0、初始化 1、入栈 2、出栈 3、返回栈顶元素 4、获取栈中有效元素个数 5、检测栈是否为空 6、销毁…...

Sambert多情感语音合成部署教程:一键启动,快速体验AI语音生成

Sambert多情感语音合成部署教程:一键启动,快速体验AI语音生成 1. 引言:为什么选择Sambert语音合成? 在当今数字化时代,语音合成技术已经广泛应用于智能客服、有声读物、虚拟助手等领域。然而,传统语音合成…...

Keras深度学习多分类实战:从数据预处理到模型部署

1. 深度学习多分类实战:基于Keras的完整指南在计算机视觉和自然语言处理领域,多分类问题就像一位超市理货员需要将商品准确归到不同货架——MNIST手写数字识别要把图像分到0-9共10个类别,新闻主题分类则需将文章划入政治、经济或体育等板块。…...

Python Flask工程目录解读

📁 项目根目录 usedCar 项目主目录,是整个工程的工作区。📁 applications — 应用核心 Flask 应用的工厂模式组织目录,包含业务应用的初始化、扩展管理和全局配置。子目录/文件作用config.py应用全局配置文件,包含数据…...

AAEON GENE-EHL5工业级单板计算机解析与应用

1. AAEON GENE-EHL5 3.5英寸单板计算机概述AAEON GENE-EHL5是一款基于Intel Elkhart Lake处理器的3.5英寸单板计算机(SBC),专为工业自动化和边缘计算应用设计。这款紧凑型主板采用了Intel Atom x6000E系列、Pentium和Celeron处理器,在146101.7mm的标准3.…...

RWKV7-1.5B-G1A模型效果展示:对比传统LSTM在文本生成上的优势

RWKV7-1.5B-G1A模型效果展示:对比传统LSTM在文本生成上的优势 1. 开场亮点 最近测试了RWKV7-1.5B-G1A这个新模型,它在文本生成上的表现确实让人眼前一亮。特别是和传统LSTM对比时,差异更加明显。记得去年用LSTM做文本生成时,经常…...

计算机组成原理教学辅助:用LM Z-Image模拟CPU指令执行

计算机组成原理教学辅助:用LM Z-Image模拟CPU指令执行 1. 教学痛点与解决方案 计算机组成原理是计算机专业的核心课程,但学生在学习过程中常常遇到两个主要困难:一是难以将抽象的指令执行过程可视化,二是无法直观理解寄存器、AL…...

医疗AI安全评估框架:原理、实现与最佳实践

1. 医疗AI安全评估框架概述医疗领域的大型语言模型(LLMs)正在快速改变临床决策支持的方式,从急诊医学到精神科,AI助手已经能够提供专家级的诊疗建议。然而,这些系统面临着两类关键安全威胁:对抗攻击&#x…...

LFM2-VL-1.6B软件测试新范式:自动化生成测试用例与报告

LFM2-VL-1.6B软件测试新范式:自动化生成测试用例与报告 1. 软件测试的痛点与机遇 在快速迭代的敏捷开发环境中,测试团队常常面临两大挑战:一是测试用例编写耗时费力,二是需求变更导致测试用例维护成本高。传统的手工编写测试用例…...

提示工程:优化AI交互的核心技术与实践

1. 提示工程入门指南在人工智能交互领域,提示工程(Prompt Engineering)已经成为连接人类意图与AI理解的关键桥梁。就像教孩子解数学题需要清晰的题干描述一样,与AI模型有效沟通同样需要特定的表达技巧。我最初接触GPT-3时&#xf…...

SystemC Export API参数管理机制与硬件仿真实践

1. SystemC Export API参数管理机制解析在硬件仿真和系统级建模领域,SystemC Export API提供了一套完整的参数管理机制,这是构建可配置仿真环境的核心基础设施。作为从业十余年的芯片验证工程师,我经常需要与这些API打交道,特别是…...

DTVM:融合EVM生态与Wasm性能的下一代确定性虚拟机

1. 项目概述:下一代确定性虚拟机DTVM 如果你在区块链开发领域摸爬滚打过几年,尤其是在智能合约和虚拟机执行层有过深度实践,那你一定对性能、确定性和生态兼容性这“三座大山”深有体会。传统的EVM(以太坊虚拟机)以其…...

GLM-4.1V-9B-Base与C语言交互:通过本地API实现轻量级集成

GLM-4.1V-9B-Base与C语言交互:通过本地API实现轻量级集成 1. 为什么要在C项目中集成AI能力? 在嵌入式系统和性能敏感型应用中,C语言仍然是无可争议的王者。但传统AI框架往往依赖Python环境,这在资源受限场景下会带来诸多挑战&am…...

大语言模型幻觉现象解析与应对策略

1. 大语言模型幻觉现象概述当ChatGPT告诉你"根据爱因斯坦的相对论,人类可以在火星上种植香蕉"时,这就是典型的LLM幻觉(Hallucination)现象。作为从业者,我亲历过无数次模型一本正经地胡说八道的场景&#xf…...

边缘AI推理延迟骤降78%!Docker WASM混合部署方案全拆解,含3个生产级YAML模板

更多请点击: https://intelliparadigm.com 第一章:边缘AI推理与Docker WASM融合的范式革命 传统边缘AI部署长期受限于容器镜像体积大、启动延迟高、跨平台兼容性差等瓶颈。Docker 24.0 原生支持 WebAssembly(WASM)运行时&#xf…...

机器学习算法清单构建与应用实践指南

1. 算法清单的价值与挑战在机器学习实践中,我们常常面临这样的困境:面对一个具体业务问题时,如何从数百种算法中快速筛选出最适合的候选方案?我曾参与过一个电商推荐系统项目,团队花了整整两周时间反复讨论算法选型&am…...

Copilot Next 工作流自动化配置到底难在哪?92%开发者卡在第3步——资深架构师逐行调试实录

更多请点击: https://intelliparadigm.com 第一章:Copilot Next 工作流自动化配置的认知重构 传统工作流自动化常将 Copilot 视为代码补全工具,而 Copilot Next 的本质是语义驱动的意图执行引擎——它通过上下文感知的 LLM 编排层&#xff…...

Docker AI Toolkit 2026隐藏模式曝光:仅限docker ai enable --stealth启动的联邦学习协调器(附实测吞吐对比表)

更多请点击: https://intelliparadigm.com 第一章:Docker AI Toolkit 2026隐藏模式的发现与定义 Docker AI Toolkit 2026(简称 DAIT-2026)在正式发布版中未公开启用一项实验性功能——--modestealth,该模式通过动态容…...

【仅开放72小时】MCP 2026边缘部署优化SOP v3.2(含ARM64+RISC-V双平台适配清单)

更多请点击: https://intelliparadigm.com 第一章:MCP 2026边缘部署优化SOP发布说明与时效性约束 MCP 2026边缘部署优化标准操作流程(SOP)已于2024年10月1日正式发布,适用于所有基于ARM64与x86_64架构的边缘网关设备&…...

real-anime-z插画工作流整合:从草图生成→风格强化→尺寸适配一站式完成

real-anime-z插画工作流整合:从草图生成→风格强化→尺寸适配一站式完成 1. 镜像介绍与核心价值 real-anime-z是一款专为二次元插画创作设计的文生图工具,它整合了从草图生成到最终成品的完整工作流。这个镜像特别适合需要快速产出动漫风格作品的创作者…...

DeepSeek V4 重新设计了记忆

大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。发布概况DeepSeek V4 的 preview 版本近日…...

Qwen3-4B-Thinking镜像免配置价值:规避HuggingFace token认证与网络超时问题

Qwen3-4B-Thinking镜像免配置价值:规避HuggingFace token认证与网络超时问题 1. 模型概述与核心优势 1.1 模型背景与技术特点 Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是基于通义千问Qwen3-4B官方模型开发的高效推理版本。这个镜像通过精心设计的蒸馏技…...

AI工作流引擎:用DAG编排框架提升AI应用开发效率

1. 项目概述:一个面向AI应用开发的现代工作流工具如果你最近在折腾AI应用开发,无论是想快速搭建一个智能对话机器人,还是想把大语言模型(LLM)的能力集成到你的业务系统里,大概率会遇到一个共同的烦恼&#…...

2025届毕业生推荐的十大降重复率助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 目的是有效降低文本里人工智能生成的痕迹,为此特别建议执行下面这些指令&#xf…...