当前位置：首页 > article >正文

收藏必备！小白程序员轻松入门大模型核心概念（附实例解析）

article 2026/3/23 20:04:10

本文以通俗易懂的方式介绍了大语言模型LLM、Transformer自注意力机制、Prompt提示词、API理解、Function Calling函数调用、Agent智能体、MCP模型上下文协议以及A2A智能体通信协议等基本概念。文章通过实例解析了LLM的本质是文字接龙Transformer如何实现自注意力机制以及Prompt在AI对话中的重要性。此外还详细阐述了Function Calling如何使大模型输出稳定可编程Agent如何拓展大模型能力以及MCP和A2A协议如何实现工具与Agent的解耦和智能体间通信。最后文章展望了AI技术将如何重塑编程行业并提出了AI编程工程师的角色设想。1、LLM (大语言模型)本质就是文字接龙。把问题当成输入把大模型当成函数把回答当成输出。大模型回答问题的过程就是一个循环执行函数的过程。另外有必要了解一下AI技术爆发于2023年ChatGPT经过了几次迭代才崭露头角。Transformer架构。参数爆发增长。人工干预奖励模型。思考题: 语言能代表智能吗?2、Transformer (自注意力机制)自注意力机制就是动态关联上下文的能力。如何实现的呢每个分词就是一个 token每个token 都有一个 Q, K, V 向量 (参数)Q 是查询向量K 是线索向量V 是答案向量推理的过程:当前token 的Q 与前面所有的 K 计算权重每个 token 的V加权相加得到一个 token预测值选择 N 个与预测值最接近的 token, 掷骰子选择最简化示例: 小明吃完冰淇淋结果肚子疼。首先分词及每个token的 Q, K, V向量。tokenQ查询K键V值语义解释小明[0.2, 0.3][0.5, -0.1][0.1, 0.4]人物主体吃完[-0.4, 0.6][0.3, 0.8][-0.2, 0.5]动作吃完冰淇淋[0.7, -0.5][-0.6, 0.9][0.9, -0.3]食物冷饮可能致腹泻结果[0.8, 0.2][0.2, -0.7][0.4, 0.1]结果需关联原因接着开始推理:1. 使用最后一个 token 的 Q“结果”的 Q 向量Q_current [0.8, 0.2]2. 计算 Q_current 与所有 K 的点积相似度点积公式Q·K q₁*k₁ q₂*k₂TokenK向量点积计算结果小明[0.5, -0.1]0.8 * 0.5 0.2*(-0.1) 0.4 - 0.020.38吃完[0.3, 0.8]0.8 * 0.3 0.2 * 0.8 0.24 0.160.4冰淇淋[-0.6, 0.9]0.8*(-0.6) 0.2 * 0.9 -0.48 0.18-0.3结果[0.2, -0.7]0.8 * 0.2 0.2*(-0.7) 0.16 - 0.140.023. Softmax 归一化得到注意力权重将点积结果输入 Softmax 函数Token点积指数值e^x权重小明0.38e^0.38 ≈ 1.461.46 / 2.74 ≈ 0.53吃完0.4e^0.40 ≈ 1.491.49 / 2.74 ≈ 0.54冰淇淋-0.3e^-0.30 ≈ 0.740.74 / 2.74 ≈ 0.27结果0.02e^0.02 ≈ 1.021.02 / 2.74 ≈ 0.37加权求和 V 向量生成上下文向量将权重与对应 V 向量相乘后相加Token权重V向量加权 V 向量小明0.53[0.1, 0.4]0.53*[0.1, 0.4] ≈ [0.053, 0.212]吃完0.54[-0.2, 0.5]0.54*[-0.2, 0.5] ≈ [-0.108, 0.27]冰淇淋0.27[0.9, -0.3]0.27*[0.9, -0.3] ≈ [0.243, -0.081]结果0.37[0.4, 0.1]0.37*[0.4, 0.1] ≈ [0.148, 0.037]最终上下文向量[0.053−0.1080.2430.148,0.2120.27−0.0810.037][0.336,0.438]预测下一个 token模型将上下文向量 [0.336, 0.438] 与候选 token 的嵌入向量对比嵌入向量不作过多解释, 只要知道QKV三个向量可从嵌入向量计算得到即可候选词嵌入向量相似度点积概率肚子疼[0.3, 0.5]0.336 * 0.3 0.438 * 0.5 ≈ 0.101 0.219 0.320最大概率例如 65%头疼[0.2, 0.1]0.336 * 0.2 0.438 * 0.1 ≈ 0.067 0.044 0.111次之例如 20%开心[-0.5, 0.8]0.336*(-0.5) 0.438 * 0.8 ≈ -0.168 0.350 0.182较低例如 15%最终模型选择最高概率的 “肚子疼” 作为下一个 token。注意在实际场景中预测的下一个token是不确定的是因为有一个掷骰子的操作大模型会在概率最大的几个token中随机挑选一个作为最终输出。3、Prompt (提示词)对于这个词大家并不陌生。我们用chatGPT时经常会用到 “你是一个…”但你真的理解它吗与ai对话时的这种预设角色其实并不是严格意义上的 prompt。为什么这么说呢先看一下API。4、理解API我们前面提到过大语言模型的本质就是文字接龙相对应的使用大模型也比较简单。可以参见deepseek的文字接龙 api 请求https://api-docs.deepseek.com/zh-cn/api/create-chat-completion这里比较重要的几个部分需要理解:temperature 温度Temperature温度是一个控制生成文本随机性和多样性的关键参数。它通过调整模型输出的概率分布直接影响生成内容的“保守”或“冒险”程度。看几个典型场景:场景温度代码生成/数学解题0数据抽取/分析1通用对话1.3翻译1.3创意类写作/诗歌创作1.5tools 工具支持大模型对 function calling 的支持后面再详细介绍。角色和信息这一部分是ai对话的主体。其中role 定义了四个角色。system 系统设定。user 用户回复。assistant 模型回答。tool 是配合function call工作的角色可以调用外部工具。回到前一章的问题ai对话时其实是user部分输入的内容所以system角色的设定内容才应该是严格意义上的Prompt。这有啥区别呢? (user 与 system?)个人一个合理的猜测: system的内容在Transformer推理中拥有较高的权重。所以拥有较高的响应优先级。关于多轮对话因为LLM是无状态的。我们要时刻记得文字接龙的游戏因此在实际操作中也是这样的。在第一轮请求时传递给 API 的 messages 为。大模型回答。当用户发起第二轮问题时请求变成了这样5、Function Calling (函数调用)仅仅一个可以回答问题的机器人作用并不太大。要完成复杂的任务就需要大模型的输出是稳定的而且是可编程的。因此OpenAI 推出了 function calling的支持。也就是前面提到的 tools参数相关内容。基本流程工具声明及用户输入模型检测到需要使用工具返回相关工具参数开发者根据方法名和参数调用相关工具方法将工具方法的返回值附加到请求中再次请求大模型得出最终结果The current temperature in Paris is 14°C (57.2°F).总结一下实现原理(猜测)a. 实现方式一: prompt 遵循 (示例)提前设置规则:b. 实现方式二: 模型训练特定优化对结构化输出有特定要求可能需要特定训练吧。这个不太确定?6、Agent (智能体)包含: 大模型任务规划上下文记忆工具调用。它是大模型能力的拓展。其实只要对API进行简单的封装只要能完成特定任务都可以称为智能体。比如下面的例子:创建AI客服系统这个智能体主要包括:配置了一个 prompt: “你是一个电商客服可查询订单状态”引入 query_order 工具其它创建方式服务商开放接口供用户创建比如腾讯元器https://yuanqi.tencent.com/my-creation/agent一个简单的提示词都可以创建智能体7、MCP (模型上下文协议)通过上面的智能体调用工具的示例我们可以看到每接入一个工具都需要编写相应的接入代码。经常写代码的我们都知道这不是好的架构设计。好的设计应该把动态改变的部分 ( tools的声名和调用分离出来 )做为一个独立的模块来拓展。这就有了大众追捧的 MCP: -----(哪有这么玄都是程序员的常规操作啊…)MCP是工具接入的标准化协议https://modelcontextprotocol.io/introduction遵循这套协议可以实现工具与Agent的解耦。你的Agent 接入MCP协议的client sdk后。接入工具不再需要编写工具调用代码只需要注册 MCP Server就可以了。而MCP Server可由各个服务商独立提供。MCP Server做什么呢?、声明提供的能力 ListTools。调用能力的方式 CallTool。来看一下MCP Server的部分代码 (红框中就是做上面两个事不难理解) :8、A2A (Agent通信协议)A2A本质是对 MCP协议的拓展按字面意思就是 Agent to Agent. 有兴趣的自己详细看吧。智能体与智能体之间通信的标准化协议https://github.com/google/A2A?tabreadme-ov-file#agent2agent-a2a-protocol在这套协议下一个智能体要引入其它的智能体的能力也变得可插拔了。9、未来假想如同蒸汽机电计算机这些伟大的技术一样。AI会成为下一个彻底改变人类生活工作方式的新技术。现在AI编程能力越来越强程序员是不是要失业了?职业不会消失消失的只有人。但是AI编程的确会重塑整个行业。我预想几年后纯粹的业务代码工程师可能会消失。而会增加更多的AI编程工程师。AI编程工程师的职责是解决AI模糊性的问题。而工具的引入就是增加确定性的手段。我们程序员可以把自己的积累通过 mcp server的方式挂载到项目agent 上去。这样我们就可以解放双手去解决更多有挑战性的问题。当前我们有哪些工作可以由AI来处理?理论上一切重复性的工作都可以交由AI完成。保险起见创造性的工作暂时可以只作为参考。日常的反馈分析。团队知识库。个人知识库。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

收藏必备！小白程序员轻松入门大模型核心概念（附实例解析）

相关文章：

收藏必备！小白程序员轻松入门大模型核心概念（附实例解析）

DVI vs HDMI：数字视频接口的终极对比与选型建议

Stable Yogi Leather-Dress-Collection入门必看：动态LoRA切换+智能提示词嵌入完整解析

AI浪潮下的22个新职业：高薪诱惑背后，你真的能抓住吗？

避开网络坑：SpaCy模型下载的3种方法对比（pip/conda/离线包）

人工智能|计算机视觉——微表情识别（Micro expression recognition）的研究现状

计算机毕业设计springboot基于的农业无人机培训考试系统基于SpringBoot的智慧农业无人机技能培训与考核平台设计与实现基于SpringBoot的农用无人机操作员培训认证系统设计与实现

漏洞分析-浪潮GS企业管理软件远程代码执行漏洞实战解析

NestJS + TypeORM实战：从零搭建一个用户管理系统（附完整代码）

告别等待！SpringBoot + WebFlux + WebSocket 三件套搞定OpenAI流式对话（附完整代码）

从山东大学考题看机器学习核心概念：线性回归、朴素贝叶斯与SVM详解

别光重启了！深度拆解苍穹外卖项目Nginx配置与后端端口映射的联调逻辑

从算法竞赛题解到实战技巧：以潍坊一中挑战赛为例

Visio绘图专题之电力电子拓扑+控制框图一站式绘图指南（永久收藏）

避坑指南：企业微信自建应用前端开发中最容易忽略的5个配置细节

《高频电路设计实战》 —— 从串并阻抗转换到谐振回路优化

龙迅LT6911GXD：解码8K超高清时代，如何用单芯片打通HDMI/DP/USB-C到MIPI/LVDS的显示桥梁？

FreeRTOS任务栈溢出检测实战：从portSTACK_GROWTH到uxTaskGetStackHighWaterMark

TanStack Virtual 终极性能优化指南：10个实用技巧让大型列表流畅如飞

Cadence: 电子设计自动化(EDA)软件全解析

终极指南：object-reflector高级用法揭秘 - 处理继承属性和整数属性名

ECC 256k1 vs 256r1：哪个更适合你的加密需求？参数对比与性能测试

Tensorpack模型压缩终极指南：DoReFa-Net低比特量化实战详解

《解锁 Python 依赖注入（DI）的实战潜力：三种实现方式、代价权衡与可测试性完整案例》

pbrt-v4性能调优实战：从CPU到GPU的全面优化策略

5分钟快速上手：基于PyTorch的声纹识别系统完整教程

J1939协议实战：从原始报文到工程值的快速换算指南

EI会议投稿避坑指南：五大出版社（Springer、JPCS、IEEE、SPIE、ACM）检索稳定性与学科适配深度解析

ESP32传感器数据边缘分析终极指南：基于xiaozhi-esp32-server的完整实现方案

如何快速恢复xiaozhi-esp32-server数据：完整备份文件管理指南 [特殊字符]️