当前位置: 首页 > article >正文

大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路

大模型小白程序员必看收藏这份AI智能体学习路径与构建思路本文系统梳理AI智能体的概念、发展脉络与核心架构清晰拆解其与传统工作流的本质差异聚焦智能体三大核心组件规划能力、记忆系统、工具使用机制的技术细节深入剖析ReAct、Reflexion等主流实现框架并详解模型上下文协议MCP在大模型与外部系统联动中的关键作用为小白程序员和大模型爱好者提供可落地的技术学习路径与构建思路。OpenAI应用研究主管莉莲·翁Lilian Weng曾在博客中指出AI智能体有望开启AI应用的全新纪元并提出了经典的智能体基础架构公式智能体大语言模型LLM规划能力记忆系统工具使用。其中LLM作为智能体的“核心大脑”承担着推理决策、逻辑规划等核心任务是整个系统的能力基石。目前学术界与工业界对AI智能体Agent的定义虽存在细微差异但核心共识始终围绕“模拟人类自主决策与行动能力”展开。OpenAI进一步明确了这一架构逻辑再次强调Agent的核心构成即LLM、规划Planning、记忆Memory与工具使用Tool Use四大模块的有机结合这一公式也成为后续智能体开发的核心遵循。四大核心模块的具体功能拆解小白友好版1LLM大语言模型作为智能体的“大脑中枢”负责理解用户需求、拆解任务逻辑、生成决策指令是连接其他模块的核心枢纽相当于智能体的“思考核心”。2规划Planning解决“如何高效完成复杂任务”的问题分为两大核心能力子目标分解将大型复杂任务如“开发一个完整网站”拆解为若干个小型、可落地的子任务如“搭建页面结构”“编写后端接口”“调试功能”降低任务执行难度提升效率。自我反思与优化智能体可对过往行动轨迹进行复盘识别错误步骤如代码Bug、逻辑漏洞并修正形成“执行-反思-迭代”的闭环持续提升任务结果质量。3记忆Memory类比人类记忆机制分为短期与长期两类解决“信息存储与复用”问题短期记忆依托LLM自身的上下文窗口实现用于存储当前任务的实时信息如对话内容、临时计算结果但受模型上下文长度限制仅能保留短期信息。长期记忆通过外部向量数据库实现可持久化存储海量信息从几天到数年并支持快速检索调用突破LLM自身记忆容量限制让智能体具备“长期学习与经验沉淀”能力。4工具使用Tool Use为智能体补充“外部能力延伸”通过调用外部API、工具函数等获取LLM预训练数据中缺失的信息如实时新闻、专有数据库、代码执行结果突破模型自身能力边界实现“思考行动”的落地。这四大模块协同工作构建起以LLM为核心的自主智能体系统。值得注意的是LLM的潜力远不止文本生成文章、代码、论文等更在于通过与其他模块结合成为通用问题解决者适配各类复杂场景。一、智能体 vs 传统工作流本质区别1、工作流(Workflow)模式工作流是一种传统的自动化范式其核心是对一系列任务或步骤进行预先定义的、结构化的编排。它本质上是一个精确的、静态的流程图规定了在何种条件下、以何种顺序执行哪些操作。2、智能体(Agent)模式基于大型语言模型的智能体是一个具备自主性的、以目标为导向的系统。它不仅仅是执行预设指令而是能够在一定程度上理解环境、进行推理、制定计划并动态地采取行动以达成最终目标。LLM在其中扮演着大脑的角色。这种基于实时信息进行动态推理和决策的能力正是Agent的核心价值所在。二、智能体核心组件AI 的发展链路大致是这样的 从最初只能对话的 Chatbot辅助人类决策的 Copilot再到能自主感知和行动的 AgentAI 在任务中的参与度不断提升。组件一规划任务分解思维链Chain of ThoughtCoTWei等人2022已成为提升模型处理复杂任务性能的标准提示技术。模型被指令“逐步思考”通过更多的测试时计算将困难任务分解为更小、更简单的步骤。思维链将复杂任务转化为多个可管理的子任务同时也为解读模型的思考过程提供了思路。思维树Tree of ThoughtsYao等人2023在思维链的基础上进行了扩展每一步都会探索多种推理可能性。它首先将问题分解为多个思考步骤每个步骤生成多个思路形成树状结构。搜索过程可采用广度优先搜索BFS或深度优先搜索DFS每个状态通过分类器基于提示词或多数投票进行评估。任务分解可通过三种方式实现1通过LLM进行简单提示例如“完成XYZ的步骤1.”“实现XYZ的子目标有哪些”2使用任务特定指令例如写小说时使用“撰写故事大纲”3借助人工输入。自我反思自我反思是自主智能体的关键特性它能通过优化过往行为决策、纠正之前的错误实现迭代改进。在需要反复尝试的现实任务中自我反思发挥着至关重要的作用。ReActYao等人2023通过将动作空间扩展为任务特定的离散动作与语言空间的组合在LLM中整合了推理与行动。前者使LLM能够与环境交互例如调用维基百科搜索API后者则促使LLM以自然语言生成推理轨迹。ReflexionShinn Labash2023是一个为智能体配备动态记忆和自我反思能力以提升推理技能的框架。Reflexion采用标准强化学习RL设置奖励模型提供简单的二元奖励动作空间沿用ReAct的设置——在任务特定动作空间中加入语言以支持复杂推理步骤。每次动作执行后智能体计算启发式函数并根据自我反思结果决定是否重置环境开始新尝试。组件二记忆记忆的类型记忆可定义为获取、存储、保留和后续检索信息的过程。人类大脑的记忆主要分为以下几类感觉记忆这是记忆的最初阶段能够在原始刺激消失后短暂保留感官信息视觉、听觉等的印象。感觉记忆通常仅持续几秒。子类包括图像记忆视觉、声像记忆听觉和触觉记忆触觉。2.短期记忆STM或工作记忆存储当前意识到的信息用于支持学习、推理等复杂认知任务。短期记忆的容量约为7个项目Miller1956持续时间为20-30秒。3.长期记忆LTM能够长时间存储信息从几天到几十年不等存储容量几乎无限。长期记忆分为两个子类外显/陈述性记忆关于事实和事件的记忆指可有意识地回忆起的内容包括情景记忆事件和经历和语义记忆事实和概念。内隐/程序性记忆无意识的记忆涉及自动执行的技能和常规如骑自行车或打字。人类记忆分类。我们可以大致建立以下映射关系感觉记忆对应原始输入文本、图像或其他模态的嵌入表示学习短期记忆对应上下文学习受Transformer有限上下文窗口长度的限制具有短期性和有限性长期记忆对应外部向量数据库智能体在查询时可通过快速检索访问。外部记忆可缓解有限注意力跨度的限制。标准做法是将信息的嵌入表示存储到支持快速最大内积搜索MIPS的向量数据库中。为优化检索速度常用选择是近似最近邻ANN算法返回近似前k个最近邻以轻微的精度损失换取大幅的速度提升。组件三工具使用工具使用是人类显著的区别性特征。我们创造、修改和利用外部物体以完成超出自身生理和认知极限的事情。为LLM配备外部工具可显著扩展模型的能力。工具使用相关框架与实践MRKLKarpas等人2022是“模块化推理、知识与语言”的缩写是一种用于自主智能体的神经符号架构。MRKL系统由一组“专家”模块组成通用LLM充当路由器将查询分配给最合适的专家模块。这些模块可以是神经型的如深度学习模型或符号型的如数学计算器、货币转换器、天气API。研究人员进行了一项微调LLM调用计算器的实验以算术题为测试案例。结果显示LLM70亿参数Jurassic1-large模型解决文字数学题比明确表述的数学题更困难因为它难以可靠地提取基础算术的正确参数。这一结果表明当外部符号工具可可靠工作时“知道何时使用工具以及如何使用工具”至关重要而这取决于LLM的能力。TALM工具增强语言模型Parisi等人2022和ToolformerSchick等人2023均通过微调语言模型使其学会使用外部工具API。数据集的扩展基于新增的API调用标注是否能提升模型输出质量。更多细节可参考提示词工程的 “外部API”部分。ChatGPT的插件功能和OpenAI API的函数调用功能是LLM增强工具使用能力的实际应用案例。工具API集合可由其他开发者提供如插件或自定义如函数调用。HuggingGPTShen等人2023是一个以ChatGPT为任务规划器的框架它根据模型描述选择HuggingFace平台上可用的模型并基于执行结果总结响应。HuggingGPT工作原理示意图该系统包含四个阶段1任务规划LLM作为“大脑”将用户请求解析为多个任务。每个任务包含四个属性任务类型、ID、依赖关系和参数。通过少样本示例引导LLM进行任务解析和规划。指令示例 AI助手可将用户输入解析为多个任务[{“task”: 任务名称, “id”: 任务ID, “dep”: 依赖任务ID列表, “args”: {“text”: 文本内容, “image”: 图片URL, “audio”: 音频URL, “video”: 视频URL}}]。“dep”字段表示当前任务所依赖的、生成新资源的前序任务ID。特殊标签“-task_id”指代ID为task_id的依赖任务生成的文本、图片、音频和视频。任务必须从以下选项中选择 {{可用任务列表}} 。任务之间存在逻辑关系请注意顺序。若无法解析用户输入需返回空JSON。以下是参考案例 {{演示示例}} 。聊天历史记录为 {{聊天历史}} 。可从聊天历史中获取用户提及的资源路径用于任务规划。2模型选择LLM将任务分配给专家模型该请求以选择题形式呈现。LLM需从提供的模型列表中选择。由于上下文长度有限需先按任务类型过滤。指令示例 给定用户请求和调用命令AI助手帮助用户从模型列表中选择合适的模型处理请求。仅输出最合适模型的ID格式需严格遵循JSON“id”: “模型ID”, “reason”: “选择的详细理由”。候选模型列表 {{候选模型}} 。请从列表中选择一个模型。3任务执行专家模型执行特定任务并记录结果。指令示例 基于输入和推理结果AI助手需描述过程和结果。前序阶段信息如下用户输入 {{用户输入}} 任务规划 {{任务列表}} 模型选择 {{模型分配}} 任务执行 {{预测结果}} 。需先直接回应用户请求再以第一人称描述任务过程展示分析和模型推理结果。若推理结果包含文件路径需告知用户完整路径。4响应生成LLM接收执行结果向用户提供总结性回复。要将HuggingGPT投入实际应用需解决以下挑战1效率提升——LLM推理轮次和与其他模型的交互会拖慢流程2依赖长上下文窗口——需传递复杂任务内容3稳定性提升——LLM输出和外部模型服务的稳定性需优化。三、智能体框架在红杉资本AI峰会第三期吴恩达教授分享了对智能体工作流的看法。在本次演讲中他谈到了AI agentic workflow也就是智能体工作流的迭代模式以及基于人工评估基准测试的效果分析还谈到了自己对于AI智能体设计模式的四种分类包括反思、工具使用、规划、多智能体协作。吴恩达教授介绍了四种主要的Agent设计模式每一种都展现了提高AI能力的潜力。1.Reflection反思Agent通过自我审视和修正输出提高结果的质量。例如在代码编写中Agent能够自我反思并修正错误从而生成更优质的代码。*2.Tool Use工具使用LLM能够生成代码和调用API执行实际操作从而扩展了其应用范围。这种模式下LLM不仅能够生成文本还能够与外部工具和接口交互。***3.Planning规划Agent能够分解复杂任务并按计划执行展现了AI在处理复杂问题上的能力。规划算法使得Agent能够更有效地管理和完成任务。*****4.Multiagent Collaboration多Agent协作多个Agent扮演不同角色合作完成任务模拟了一个真实的工作环境中的协作。这种方式的强大之处在于它能够让LLM不仅仅是执行单一任务的工具而是成为一个能够处理复杂问题和工作流程的协作系统。**下面选两个常用框架进行详细介绍*1、ReAct框架ReAct是一种将推理(Reasoning)与行动(Action)相结合的智能体架构。其核心思想是让智能体在思考过程中明确表达推理步骤然后基于推理选择适当的行动再根据行动结果更新认知形成一个持续的循环。1. ReAct模式的核心理念与循环ReAct是Reasoning and Acting思考与行动的缩写。它最初由2022年10月的一篇论文提出尽管已有近三年时间其提出的Agent运行模式至今仍被广泛使用。在ReAct模式下Agent的运行流程是一个持续的循环用户提交任务。Thought思考Agent首先进行思考决定接下来要做什么。Action行动思考后Agent决定是否调用工具。如果需要它会调用合适的工具如读取文件、写入文件内容等。请注意这里大模型是请求调用工具实际执行工具的是Agent的工具调用组件。Observation观察Agent查看工具的执行结果例如所读取的文件内容或写入是否成功。循环在观察之后Agent会继续思考再次判断是否需要调用工具。如果仍然需要它会重复Thought - Action - Observation的流程直到它认为不再需要调用工具可以直接给出结论为止。Final Answer最终答案当Agent认为任务完成时它会输出最终答案整个流程结束。因此ReAct流程的核心要素是Thought、Action、Observation和Final Answe。2. ReAct模式的实现奥秘系统提示词为什么大模型拿到用户问题后会先思考再行动而不是直接行动呢这与模型的训练过程关系不大大部分奥秘都集中在**系统提示词System Prompt**上。系统提示词是与用户问题一起发送给大模型的提示词它规定了模型的角色、运行时要遵守的规则以及各种环境信息等。如果希望模型按照ReAct模式返回答案系统提示词就会比较复杂。一个典型的ReAct系统提示词大致包含五个部分职责描述明确告诉模型它需要解决一个任务并将任务分解为多个步骤。对于每个步骤首先使用thought标签思考然后使用action标签调用工具工具的执行结果通过observation返回并持续这个思考和行动的过程直到有足够的信息提供final answer。示例提供具体的ReAct流程示例例如用户提问、模型思考、调用工具、观察结果、再次思考并给出最终答案的完整对话示例。这有助于模型理解并遵循预设的交互规范。可用工具列举Agent可用的工具列表及其功能说明例如用于读取文件内容、写入文件内容、运行终端命令的工具等。注意事项提供一些操作上的注意点。环境信息告知大模型当前的操作系、目录以及目录下的文件列表等相关环境信息。通过将这样的系统提示词和用户任务一起提交给大模型大模型就会遵循这些规范来输出答案从而实现ReAct模式的运行。3. ReAct模式的实际运行演示以DeepSeek为例当我们将包含ReAct规范的系统提示词和“写一个贪吃蛇游戏”的任务提交给它时DeepSeek会按照要求先在thought标签中思考然后使用action标签请求调用write_to_file工具来写入index.html文件内容。在实际的Agent中当大模型请求调用工具后Agent的工具调用组件会真正执行该工具例如将HTML内容写入文件。然后工具的执行结果如“写入成功”会作为observation返回给Agent主程序Agent主程序再将其加入到历史消息列表并再次发送给大模型。模型拿到工具的执行结果后就能根据结果推测下一步要干什么继续进行思考thought并请求写入CSS、JS文件。当所有文件写入完成后大模型在thought之后会返回一个final answer整个回答过程便彻底结束。这个过程完美体现了ReAct的运行节奏Thought-Action-Observation直到任务完成输出Thought-Final Answer。系统提示词相当于给模型安排了一个迷你剧本模型会严格按照这个剧本一步一步走完。一个完整的ReAct Agent其核心代码在于一个run函数。这个函数内部构建了一个消息列表包含系统提示词和用户问题然后调用模型获取执行结果。它会提取返回结果中的thought部分并打印然后检测是否包含final answer。如果不是就解析出action提取函数名和参数并执行对应的工具。工具执行结果会被放入observation并添加到消息列表然后循环再次请求模型直到模型返回final answer。在这里我推荐一个提示词商城https://prompts.explinks.com/packs/integrate-user?refad059fb4ad642、Reflexion框架Reflection机制的核心思想是为智能体引入一种事后(post-hoc)的自我校正循环使其能够像人类一样审视自己的工作发现不足并进行迭代优化。它为智能体提供了一个内部纠错回路使其不再完全依赖于外部工具的反馈(ReAct的Observation)从而能够修正更高层次的逻辑和策略错误。Reflexion是一个框架为Agent提供动态记忆和自我反思的能力以提高推理技能。Reflexion采用标准的强化学习设置奖励模型提供简单的二元奖励即判断行动正确与否而行动空间遵循 ReAct 中的设置通过语言加强特定任务的行动空间增加了复杂的推理步骤。在每个行动之后Agent会计算一个启发式值并根据自我反思的结果决定是否重置环境以开始新的试验。Reflexion是一种强化学习方法与传统强化学习调整参数调优的方法不同本模型使用语言反馈而不是更新参数权重来强化语言智能体。旨在分析错误形成反思并保存作为上下文帮助后续决策。构造了一个基于当前环境的短期存储和基于反思的长期存储相结合的模型。四、模型上下文协议MCP在构建由大型语言模型LLM驱动的智能应用时如何让 AI 不仅仅停留在文本生成而是能够与外部世界的数据和工具进行交互是一个核心挑战。Anthropic 推出的Model Context Protocol (MCP)正是为了解决这一问题它提供了一个标准化的框架让 AI 应用能够安全、高效地获取上下文信息并调用外部功能。我认为 MCP 的出现是 prompt engineering提示工程发展的产物。更结构化的上下文信息对模型的性能提升是显著的。我们在构造 prompt 提示词时希望能提供一些更具体的信息比如本地文件数据库一些网络实时信息等给模型这样模型更容易理解真实场景中的问题。在这里我推荐一个提示词商城https://prompts.explinks.com/packs/integrate-user?refad059fb4ad64想象一下没有 MCP 之前我们会怎么做我们可能会人工从数据库中筛选或者使用工具检索可能需要的信息手动的粘贴到 prompt 中。随着我们要解决的问题越来越复杂手工把信息引入到 prompt 中会变得越来越困难。为了克服手工 prompt 的局限性许多 LLM 平台如 OpenAI、Google引入了function call函数调用功能。这一机制允许模型在需要时调用预定义的函数来获取数据或执行操作显著提升了自动化水平。但是同时又出现了新的问题。缺少标准化的上下文和工具集导致 Agent 开发有三大痛点1 开发耦合度高工具开发者需要深入了解 Agent 的内部实现细节并在 Agent 层编写工具代码。这导致在工具的开发与调试困难。2 工具复用性差因每个工具实现都耦合在 Agent 应用代码内即使是通过 API 实现适配层在给到 LLM 的出入参上也有区别。从编程语言角度来讲没办法做到跨编程语言进行复用。3 生态碎片化工具提供方能提供的只有 OpenAPI由于缺乏标准使得不同 Agent 生态中的工具 Tool 互不兼容。什么是MCPMCP (Model Context Protocol) 是一个开源标准和框架由Anthropic 在2024年11月份提出旨在连接 AI 应用程序与外部系统。它为 AI 助手提供了一种标准化的方式使其能够无缝地与外部数据源如内容管理系统、数据库、企业应用程序等和各种工具进行集成。简单来说MCP 使得 LLM 应用程序能够获取实时或领域特定的上下文信息超越其训练数据的限制。执行外部操作例如搜索网页、查询数据库、发送邮件等。MCP 架构由三个关键角色组成它们协同工作共同实现了 AI 应用与外部世界的连接1. Host (AI 应用本体)角色承载 AI 核心逻辑的应用程序例如 Cursor、Claude Desktop、Dify、Gptbots等或者您自己开发的 AI应用。*核心功能管理用户界面 (UI) 和对话历史提供用户交互界面并维护与用户的对话记录。*调用 LLM负责与底层的大型语言模型如 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等进行交互发送提示并接收响应。*挂载 MCP Client在其内部集成 MCP Client将 MCP Server 暴露的工具映射成 LLM 可以理解和调用的tools(Function Calling)。*处理tool_calls当 LLM 决定调用某个工具时Host 会将模型生成的tool_calls请求转发给 MCP Client进而触发对 MCP Server 的实际调用。2. Client (MCP ClientHost 内的一层运行时)角色位于 Host 内部的运行时层负责实现 MCP 协议并管理与 MCP Server 的连接。*核心功能协议实现者 进程/连接管理者本地 stdio 模式负责启动本地的 MCP Server 进程例如通过uvx mcp-server-time或python mcp_server.py命令并通过标准输入/输出 (stdin/stdout) 使用 MCP JSON-RPC 协议进行通信。3. Server (MCP Server)角色真正定义“有哪些工具”以及如何执行这些工具的一方。*核心功能实现 MCP 协议规定的方法响应initialize、tools/list、tools/call等协议方法。*内部注册工具注册具体的工具函数例如get_current_time(获取当前时间)、web_search(网页搜索) 等并为每个工具提供其参数的 JSON Schema 定义。*返回工具元数据当收到tools/list请求时返回所有注册工具的元数据包括工具名name、描述description和参数parameters。*执行工具当收到tools/call请求时根据工具名和参数执行相应的内部工具并将执行结果返回。外部工具工具方内部已经实现server了我们直接用即可内部工具需要我们自己去写server。典型的 MCP 使用流程用户配置 MCP Server 信息用户在 AI 应用Host的配置中例如一个mcp.json文件定义了有哪些 MCP Server以及如何连接它们是本地进程 stdio 模式还是远程 URLSSE 模式。2.Host 建立连接并获取工具列表Host 读取配置后通过其内部的 MCP Client 建立与 MCP Server 的连接启动本地进程或连接远程 URL。Client 按照 MCP 协议向 Server 发送tools/list请求。MCP Server 响应请求返回其内部注册的所有工具的列表包括每个工具的名称、描述和参数的 JSON Schema。Host 映射工具为 LLM 可调用格式Host 接收到 MCP Server 返回的工具列表后将这些工具的元数据转换成 LLM如 OpenAI 的 Function Calling 机制可以理解和调用的tools格式。这相当于“将 MCP 世界的工具安装进模型的插件系统”。4.用户对话LLM 判断是否需要工具用户与 AI 应用进行对话。Host 将用户输入和已映射的工具定义一同发送给 LLM通过chat.completionsAPI 调用并带上tools参数。LLM 根据对话内容和工具定义判断是否需要调用某个工具来完成任务。如果需要模型会返回一个tool_calls响应指明它“想用 MCP 里的某个工具”以及相应的参数。Host 用 MCP Client 调 tools/call 真正执行工具当 Host 收到 LLM 返回的tool_calls时它会通过 MCP Client 再次向 MCP Server 发送tools/call请求真正执行模型指定的工具并传入模型生成的参数。MCP Server 执行相应的内部工具并将执行结果返回给 MCP Client。Host 把结果塞回对话再让 LLM 给最终回答Host 收到工具执行结果后将这个结果作为新的上下文信息再次塞回给 LLM作为tool_outputs。LLM 结合之前的对话历史和工具执行结果生成最终的回答并返回给用户。举例来说用户在 CursorHost中配置了一个新的 MCP Server。Cursor 内置的 MCP Client 会立即启动这个 MCP 进程如果是本地模式或建立远程连接。Host 随后通过 Client 拉取 MCP Server 暴露的所有工具并将它们转换为 OpenAI 的tools格式。当用户提问时模型可能会决定调用一个 MCP 工具例如web_searchHost 通过tools/call将请求转发给 MCP Server。Server 执行搜索并返回结果Host 再将搜索结果提供给模型让模型生成最终的最终回答。五、MCP 与传统插件机制的区别mcp实际就是提供了一种标准化的访问外部数据源的方式他能做的插件也能做但是插件与模型厂商挂钩协议格式各不相同对接复杂mcp简化了这种流程且更加开放 标准了 别人写好了mcp工具我们直接就能用。在构建基于大型语言模型LLM的应用时理解function_call和Model Context Protocol (MCP)这两个概念至关重要。它们虽然都与工具集成相关但作用的“层级”和解决的问题截然不同。1.function_call是“LLM API 级别”的能力function_call或类似的工具调用机制如 Anthropic 的tool_use是 LLM 提供商在其 API 中内置的一种能力。它解决的核心问题是“这个模型如何在一次 API 调用里请求某个函数、传参并让调用者拿到结果”对于开发者来说使用function_call时你需要自己搞定以下这些“手工工作”工具发现去哪里找到这些可供 LLM 调用的函数工具多个 server、几十上百个工具怎么声明、分类、动态启用/禁用*工具传输和生命周期这些函数工具是本地运行的、需要通过远程 HTTP API 调用的还是通过命令行接口CLI执行的连接、心跳、长任务、cancel、错误码处理*服务厂商差异化处理如果有多个工具服务提供商它们的 API schema/鉴权/错误码可能各不相同如何统一处理因此在没有 MCP 这样的协议层时你的 AI 应用Host里实际上做了很多繁琐且定制化的工作从 JSON 配置文件或特定的 MCP Server 拉取工具元数据。把它们“翻译”成 OpenAI 或其他 LLM 平台所要求的toolsFunction Calling格式。收到tool_calls再自己路由到不同的 server 去执行。2. MCP 是“工具/Agent 生态层”的协议Model Context Protocol (MCP)则是一个更高层级的协议它旨在解决更宏观的问题“世界上所有想给 LLM 用的工具/Agent要用什么统一的方式把自己挂出来让任何 AI 应用都能方便地发现和使用”MCP 协议提供了一套标准化的机制包括外部工具能力标准化发现 传输工具发现mcpServers 配置 tools/list → Host 不需要为每个服务商自定义“列出我有哪些能力”的协议。tools/call JSON‑RPC over stdio/HTTP/SSE → 不同传输方式下语义和报文结构是一致的。工具协议处理鉴权 / 请求 / 响应 / 错误码initialize / tools/list / tools/call标准 JSON‑RPC 报文标准 error.code / error.message / error.data。各家服务商在自己的 MCP Server 里把乱七八糟的内部 API鉴权、数据结构、错误码统统“翻译”为统一的 MCP 形状Host 只跟 MCP Server 说话看到的是统一的多端复用同一个 MCP Server可以被不同的 AI 应用Host如 Cursor、Claude Desktop 或你自己的自定义 Host直接连接并复用极大地提高了工具的生态复用性。对于 AI 应用Host来说有了 MCP 这一层协议之后其工作变得更加简化和标准化通过client按照mcp协议连上 mcp-serverhost连接client获取server的所有工具挂到 llm-function_call 里按规范把 tools.call 转发出去就行不用管每家怎么实现。可以这么说在“能不能让模型调工具”这件事上function_call 理论上都能做到 MCP 能做的事但两者不在一个层级MCP 是把一整层东西“标准化 外包”了。总结function_call是 LLM 本身具备的“调用函数”的能力而MCP则是一套“如何标准化地组织、发现和调用这些函数”的协议和生态系统。MCP 极大地简化了 HostAI应用 在工具集成方面的工作将复杂性下沉到 Client 和 Server 层从而促进了 AI 工具生态的繁荣和互操作性。最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路

大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路 本文系统梳理AI智能体的概念、发展脉络与核心架构,清晰拆解其与传统工作流的本质差异,聚焦智能体三大核心组件(规划能力、记忆系统、工具使用机制)的技术细节…...

7.系统配置与性能评价

一、系统配置与性能评价 00:00 1. 考情分析 00:12 考查频率:本章节在历年真题中偶尔出现,非每年必考分值占比:若考查则占1-2分,分值较低内容稳定性:与旧版教材内容基本一致,无实质…...

5分钟快速上手:AnythingtoRealCharacters2511动漫图片转真人照片教程

5分钟快速上手:AnythingtoRealCharacters2511动漫图片转真人照片教程 1. 认识你的动漫转真人工具 1.1 工具能做什么? AnythingtoRealCharacters2511是一个专门将动漫图片转化为真人照片的AI工具。它基于Qwen-Image-Edit模型开发,特别擅长处…...

OpenClaw语音交互方案:Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF对接语音输入输出模块

OpenClaw语音交互方案:Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF对接语音输入输出模块 1. 为什么需要语音交互能力 去年冬天的一个深夜,我正蜷在沙发上调试一个自动化脚本,突然意识到——当双手被咖啡杯占据时,用语…...

VS Code + Flask新手避坑指南:从虚拟环境配置到第一个Hello World页面

VS Code Flask新手避坑指南:从虚拟环境配置到第一个Hello World页面 刚接触Flask框架的开发者常会遇到各种环境配置问题——虚拟环境切换失败、包导入报错、路由访问404……这些看似简单的坑往往让人耗费数小时。本文将用最小可行方案带你在VS Code中快速搭建Flas…...

腾讯地图API实战:5分钟搞定经纬度录入与地图选点功能(Vue版)

腾讯地图API实战:5分钟搞定经纬度录入与地图选点功能(Vue版) 在当今的Web开发中,地图功能已成为许多应用的标配需求。无论是电商平台的店铺定位,还是社交应用的位置分享,甚至是企业内部系统的区域管理&…...

终极指南:如何快速导出并永久保存微信聊天记录

终极指南:如何快速导出并永久保存微信聊天记录 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾担心更换手机后丢失宝贵的微信聊天记录?工…...

2023-2026热门网页游戏盘点|传奇页游稳居顶流,5大类型闭眼冲

近几年,电脑网页游戏凭借“无需下载、点开即玩”的便捷优势,依旧深受玩家喜爱,适配上班族、学生党等各类人群的碎片化娱乐需求。从复古传奇到策略竞技,从休闲解压到沉浸式MMO,各类热门页游百花齐放。今天,就…...

Capacitor插件避坑指南:Android/iOS双端自动更新那些踩过的坑

Capacitor跨平台自动更新实战:Android与iOS双端兼容性深度解析 移动应用开发中,自动更新功能是提升用户体验的关键环节。对于使用Capacitor框架的开发者而言,如何优雅处理Android和iOS平台的差异,成为技术实现的核心挑战。本文将…...

TMI8260SP的替代品7889直流双向电机驱动芯片详解

在直流电机驱动领域,TMI8260SP作为一款经典的双向马达驱动芯片,曾广泛应用于各类中低功率电机控制场景,其稳定的性能积累了良好的市场口碑。但随着市场对电机驱动芯片的性能、功耗及性价比要求不断提升,7889直流双向电机驱动芯片凭…...

EVA-01部署教程:Qwen2.5-VL-7B模型服务API封装+NERV风格响应协议

EVA-01部署教程:Qwen2.5-VL-7B模型服务API封装NERV风格响应协议 1. 引言:欢迎来到NERV指挥中心 想象一下,你面前有一个能“看懂”图片的智能助手,但它不是普通的聊天窗口,而是一个充满未来感的机甲驾驶舱。紫色的装甲…...

【obs studio】从零开始:高效录制屏幕与声音的完整指南

1. 为什么选择OBS Studio录制屏幕与声音? 如果你正在寻找一款免费、开源且功能强大的屏幕录制工具,OBS Studio绝对是你的不二之选。我最初接触这款软件是因为需要录制一些技术教程,试过市面上不少付费软件后,发现OBS Studio不仅完…...

SAM 3入门到应用:从图片分割到视频跟踪完整指南

SAM 3入门到应用:从图片分割到视频跟踪完整指南 1. SAM 3简介与核心能力 SAM 3(Segment Anything Model 3)是Facebook推出的新一代图像和视频分割模型,它通过统一的基础架构实现了前所未有的通用分割能力。与传统的专用分割模型…...

Python 函数式编程利器:Partial 与 ParamSpec 技术解析

partial 是 Python functools 模块中的偏函数,核心作用是「冻结」一个函数的部分参数(位置参数或关键字参数),生成一个新的函数,新函数调用时只需传入剩余未被冻结的参数即可,无需重复传入固定参数&#xf…...

Qwen3-1.7B效果展示:看这个1.7B参数模型如何生成高质量中文内容

Qwen3-1.7B效果展示:看这个1.7B参数模型如何生成高质量中文内容 1. 开篇惊艳:小模型的大能量 在AI大模型领域,参数规模往往与性能表现直接挂钩。但Qwen3-1.7B的出现打破了这一常规认知——这个仅有1.7B参数的轻量级模型,在中文内…...

ReAct、CoT、ToT大模型推理框架:小白入门指南+程序员实战技巧(收藏必备)

ReAct、CoT、ToT大模型推理框架:小白入门指南程序员实战技巧(收藏必备) 本文深入解析ReAct、CoT、ToT三大核心推理框架,阐述其如何推动大模型从直接输出答案升级为逻辑化推理解题。通过五大维度解析,结合通俗示例与实用…...

收藏!程序员转行大模型必看:6高潜职业方向与学习资料包推荐

收藏!程序员转行大模型必看:6高潜职业方向与学习资料包推荐 大模型技术引领行业变革,为程序员带来转行机遇。本文推荐6大高潜职业方向:自然语言处理工程师、计算机视觉工程师、大模型算法工程师、大模型部署工程师、大模型产品经理…...

OpenClaw浏览器自动化实战:百川2-13B驱动的智能信息检索系统

OpenClaw浏览器自动化实战:百川2-13B驱动的智能信息检索系统 1. 为什么需要自动化信息检索 作为一名技术研究者,我每天需要跟踪大量行业动态和论文进展。传统的手动搜索-阅读-摘录流程效率极低,经常出现以下痛点: 重复劳动&…...

AI小白/程序员必备:收藏这份大模型Agent落地实战指南,从零到企业级系统全解析!

AI小白/程序员必备:收藏这份大模型Agent落地实战指南,从零到企业级系统全解析! 本文系统介绍了构建可落地的AI Agent系统的六大核心模块,包括运行环境(Docker本地)、MCP服务工具集、LangChain与LangGraph框…...

1元一包的“干脆面”,为什么一年卖了近5亿包?——从康师傅财报看休闲食品的“新风口”!

近日,市场上出现了一个让人意想不到的现象:1元左右就能买到的一包干脆面,竟然在2025年卖出了接近5亿包!这一现象背后,折射出了方便面行业从“主食”向“休闲零食”角色的成功转变,以及消费观念的深刻变迁。…...

Realistic Vision V5.1 复古与未来风碰撞:赛博朋克城市中的古典人物肖像

Realistic Vision V5.1 复古与未来风碰撞:赛博朋克城市中的古典人物肖像 最近在玩Realistic Vision V5.1这个模型,突发奇想,想试试看它能不能理解一些“矛盾”的指令。比如,让一个穿着精致古典服饰的人物,站在霓虹闪烁…...

Phi-3-mini-128k-instruct Chainlit集成:支持Markdown渲染、LaTeX公式与代码高亮

Phi-3-mini-128k-instruct Chainlit集成:支持Markdown渲染、LaTeX公式与代码高亮 1. 模型简介 Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型,属于Phi-3系列中的高性能版本。这个模型经过精心训练,特别适合需要长文本理解和复杂…...

Slickflow.NET 基于 AI 大模型实现智能客服多轮问答系统

正文 异步/等待解决了什么问题? 在传统同步I/O操作中(如文件读取或Web API调用),调用线程会被阻塞直到操作完成。这在UI应用中会导致界面冻结,在服务器应用中则造成线程资源的浪费。async/await通过非阻塞的异步操作解…...

从安全卫士到AI指挥官:周鸿祎的“AI突围”实录!

2026年3月27日,北京——在360总部楼下,一张临时搭建的长桌上,周鸿祎身穿印有“AI世界”的黑色工装马甲,手握键盘,亲自为现场观众“装龙虾”。这幅画面不仅让人恍惚回到十几年前的中关村,也标志着一场关于AI…...

数据治理平台选型,真正应该看哪几件事

上个月,一位在某制造业集团做数据架构的朋友跟我吐槽:“我们花了半年时间选型,最后上线的产品,管元数据的归元数据,管质量的归质量,两个系统之间打不通,数据血缘断在半路上。现在每次出了数据问…...

Steam创意工坊下载终极指南:WorkshopDL让你轻松获取海量模组

Steam创意工坊下载终极指南:WorkshopDL让你轻松获取海量模组 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 还在为无法访问Steam创意工坊而烦恼吗?Work…...

10-红外接收探头电路设计实战指南

1. 红外接收探头基础入门 第一次接触红外接收探头时,我也被那一堆专业术语搞得晕头转向。其实这东西就像个"红外线翻译官",专门把遥控器发来的红外光信号转换成电信号。市面上常见的HS0038、LF0038L这些型号,本质上都是将光敏二极…...

Android App集成AI对话功能:从基础实现到性能优化与安全实践

Android App集成AI对话功能:从基础实现到性能优化与安全实践 在移动应用开发领域,AI对话功能的集成已经从"锦上添花"变成了"必备能力"。对于中高级Android开发者而言,仅仅实现基础功能已经不够——用户期待的是流畅、安…...

多模态RAG:解锁大模型学习,收藏这份从入门到精通的实战指南!

多模态RAG:解锁大模型学习,收藏这份从入门到精通的实战指南! 多模态RAG在传统RAG基础上扩展了对图像、视频等非文本数据的处理能力,其流程包括文档解析(提取多模态数据并保留结构关联)、入库与检索&#x…...

Kimi-VL-A3B-Thinking作品分享:OCR识别模糊手写体+公式识别+LaTeX自动转换

Kimi-VL-A3B-Thinking作品分享:OCR识别模糊手写体公式识别LaTeX自动转换 1. 引言:当AI能看懂你的草稿纸 想象一下,你有一张拍得有点模糊的会议白板照片,上面潦草地写满了讨论要点和几个复杂的数学公式。或者,你翻出一…...