当前位置: 首页 > article >正文

收藏必备!小白程序员轻松入门大模型核心概念(附实例解析)

本文以通俗易懂的方式介绍了大语言模型LLM、Transformer自注意力机制、Prompt提示词、API理解、Function Calling函数调用、Agent智能体、MCP模型上下文协议以及A2A智能体通信协议等基本概念。文章通过实例解析了LLM的本质是文字接龙Transformer如何实现自注意力机制以及Prompt在AI对话中的重要性。此外还详细阐述了Function Calling如何使大模型输出稳定可编程Agent如何拓展大模型能力以及MCP和A2A协议如何实现工具与Agent的解耦和智能体间通信。最后文章展望了AI技术将如何重塑编程行业并提出了AI编程工程师的角色设想。1、LLM (大语言模型)本质就是文字接龙。把问题当成输入把大模型当成函数把回答当成输出。大模型回答问题的过程就是一个循环执行函数的过程。另外有必要了解一下AI技术爆发于2023年ChatGPT经过了几次迭代才崭露头角。Transformer架构。参数爆发增长。人工干预奖励模型。思考题: 语言能代表智能吗?2、Transformer (自注意力机制)自注意力机制就是动态关联上下文的能力。如何实现的呢每个分词就是一个 token每个token 都有一个 Q, K, V 向量 (参数)Q 是查询向量K 是线索向量V 是答案向量推理的过程:当前token 的Q 与 前面所有的 K 计算权重每个 token 的V加权相加得到一个 token预测值选择 N 个与预测值最接近的 token, 掷骰子选择最简化示例: 小明吃完冰淇淋结果 肚子疼。首先分词及每个token的 Q, K, V向量。tokenQ查询K键V值语义解释小明[0.2, 0.3][0.5, -0.1][0.1, 0.4]人物主体吃完[-0.4, 0.6][0.3, 0.8][-0.2, 0.5]动作吃完冰淇淋[0.7, -0.5][-0.6, 0.9][0.9, -0.3]食物冷饮可能致腹泻结果[0.8, 0.2][0.2, -0.7][0.4, 0.1]结果需关联原因接着开始推理:1. 使用最后一个 token 的 Q“结果”的 Q 向量Q_current [0.8, 0.2]2. 计算 Q_current 与所有 K 的点积相似度点积公式Q·K q₁*k₁ q₂*k₂TokenK向量点积计算结果小明[0.5, -0.1]0.8 * 0.5 0.2*(-0.1) 0.4 - 0.020.38吃完[0.3, 0.8]0.8 * 0.3 0.2 * 0.8 0.24 0.160.4冰淇淋[-0.6, 0.9]0.8*(-0.6) 0.2 * 0.9 -0.48 0.18-0.3结果[0.2, -0.7]0.8 * 0.2 0.2*(-0.7) 0.16 - 0.140.023. Softmax 归一化得到注意力权重将点积结果输入 Softmax 函数Token点积指数值e^x权重小明0.38e^0.38 ≈ 1.461.46 / 2.74 ≈ 0.53吃完0.4e^0.40 ≈ 1.491.49 / 2.74 ≈ 0.54冰淇淋-0.3e^-0.30 ≈ 0.740.74 / 2.74 ≈ 0.27结果0.02e^0.02 ≈ 1.021.02 / 2.74 ≈ 0.37加权求和 V 向量生成上下文向量将权重与对应 V 向量相乘后相加Token权重V向量加权 V 向量小明0.53[0.1, 0.4]0.53*[0.1, 0.4] ≈ [0.053, 0.212]吃完0.54[-0.2, 0.5]0.54*[-0.2, 0.5] ≈ [-0.108, 0.27]冰淇淋0.27[0.9, -0.3]0.27*[0.9, -0.3] ≈ [0.243, -0.081]结果0.37[0.4, 0.1]0.37*[0.4, 0.1] ≈ [0.148, 0.037]最终上下文向量[0.053−0.1080.2430.148,0.2120.27−0.0810.037][0.336,0.438]预测下一个 token模型将上下文向量 [0.336, 0.438] 与候选 token 的嵌入向量对比嵌入向量不作过多解释, 只要知道QKV三个向量可从嵌入向量计算得到即可候选词嵌入向量相似度点积概率肚子疼[0.3, 0.5]0.336 * 0.3 0.438 * 0.5 ≈ 0.101 0.219 0.320最大概率例如 65%头疼[0.2, 0.1]0.336 * 0.2 0.438 * 0.1 ≈ 0.067 0.044 0.111次之例如 20%开心[-0.5, 0.8]0.336*(-0.5) 0.438 * 0.8 ≈ -0.168 0.350 0.182较低例如 15%最终模型选择最高概率的 “肚子疼” 作为下一个 token。注意在实际场景中预测的下一个token是不确定的是因为有一个掷骰子的操作大模型会在概率最大的几个token中随机挑选一个作为最终输出。3、Prompt (提示词)对于这个词大家并不陌生。我们用chatGPT时经常会用到 “你是一个…”但你真的理解它吗与ai对话时的这种预设角色其实并不是严格意义上的 prompt。为什么这么说呢先看一下API。4、理解API我们前面提到过大语言模型的 本质就是文字接龙相对应的使用大模型也比较简单。可以参见deepseek的文字接龙 api 请求https://api-docs.deepseek.com/zh-cn/api/create-chat-completion这里比较重要的几个部分需要理解:temperature 温度Temperature温度 是一个控制生成文本随机性和多样性的关键参数。它通过调整模型输出的概率分布直接影响生成内容的“保守”或“冒险”程度。看几个典型场景:场景温度代码生成/数学解题0数据抽取/分析1通用对话1.3翻译1.3创意类写作/诗歌创作1.5tools 工具支持大模型对 function calling 的支持后面再详细介绍。角色和信息这一部分是ai对话的主体。其中role 定义了四个角色。system 系统设定。user 用户回复。assistant 模型回答。tool 是配合function call工作的角色可以调用外部工具。回到前一章的问题ai对话时其实是user部分输入的内容所以system角色的设定内容才应该是严格意义上的Prompt。这有啥区别呢? (user 与 system?)个人一个合理的猜测: system的内容在Transformer推理中拥有较高的权重。所以拥有较高的响应优先级。关于多轮对话因为LLM是无状态的。我们要时刻记得文字接龙的游戏因此在实际操作中也是这样的。在第一轮请求时传递给 API 的 messages 为。大模型回答。当用户发起第二轮问题时请求变成了这样5、Function Calling (函数调用)仅仅一个可以回答问题的机器人作用并不太大。要完成复杂的任务就需要大模型的输出是稳定的而且是可编程的。因此OpenAI 推出了 function calling的支持。也就是前面提到的 tools参数相关内容。基本流程工具声明及用户输入模型检测到需要使用工具返回相关工具参数开发者根据方法名和参数调用相关工具方法将工具方法的返回值附加到请求中再次请求大模型得出最终结果The current temperature in Paris is 14°C (57.2°F).总结一下实现原理(猜测)a. 实现方式一: prompt 遵循 (示例)提前设置规则:b. 实现方式二: 模型训练特定优化对结构化输出有特定要求可能需要特定训练吧。这个不太确定?6、Agent (智能体)包含: 大模型任务规划上下文记忆工具调用。它是大模型能力的拓展。其实只要对API进行简单的封装只要能完成特定任务都可以称为智能体。比如下面的例子:创建AI客服系统这个智能体主要包括:配置了一个 prompt: “你是一个电商客服可查询订单状态”引入 query_order 工具其它创建方式服务商开放接口供用户创建比如腾讯元器https://yuanqi.tencent.com/my-creation/agent一个简单的提示词都可以创建智能体7、MCP (模型上下文协议)通过上面的智能体调用工具的示例我们可以看到每接入一个工具都需要编写相应的接入代码。经常写代码的我们都知道这不是好的架构设计。 好的设计应该把动态改变的部分 ( tools的声名和调用分离出来 )做为一个独立的模块来拓展。这就有了大众追捧的 MCP: -----(哪有这么玄都是程序员的常规操作啊…)MCP是工具接入的标准化协议https://modelcontextprotocol.io/introduction遵循这套协议可以实现工具与Agent的解耦。你的Agent 接入MCP协议的client sdk后。接入工具不再需要编写工具调用代码只需要注册 MCP Server就可以了。而MCP Server可由各个服务商独立提供。MCP Server做什么呢?、声明提供的能力 ListTools。调用能力的方式 CallTool。来看一下MCP Server的部分代码 (红框中就是做上面两个事不难理解) :8、A2A (Agent通信协议)A2A本质是对 MCP协议的拓展按字面意思就是 Agent to Agent. 有兴趣的自己详细看吧。智能体与智能体之间通信的标准化协议https://github.com/google/A2A?tabreadme-ov-file#agent2agent-a2a-protocol在这套协议下一个智能体要引入其它的智能体的能力也变得可插拔了。9、未来假想如同蒸汽机电计算机这些伟大的技术一样。AI会成为下一个彻底改变人类生活工作方式的新技术。现在AI编程能力越来越强程序员是不是要失业了?职业不会消失消失的只有人。但是AI编程的确会重塑整个行业。我预想几年后纯粹的业务代码工程师可能会消失。而会增加更多的AI编程工程师。AI编程工程师的职责是解决AI模糊性的问题。而工具的引入就是增加确定性的手段。我们程序员可以把自己的积累通过 mcp server的方式挂载到项目agent 上去。这样我们就可以解放双手去解决更多有挑战性的问题。当前我们有哪些工作可以由AI来处理?理论上一切重复性的工作都可以交由AI完成。保险起见创造性的工作暂时可以只作为参考。日常的反馈分析。团队知识库。个人知识库。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

相关文章:

收藏必备!小白程序员轻松入门大模型核心概念(附实例解析)

本文以通俗易懂的方式介绍了大语言模型(LLM)、Transformer自注意力机制、Prompt提示词、API理解、Function Calling函数调用、Agent智能体、MCP模型上下文协议以及A2A智能体通信协议等基本概念。文章通过实例解析了LLM的本质是文字接龙,Trans…...

DVI vs HDMI:数字视频接口的终极对比与选型建议

DVI vs HDMI:数字视频接口的终极对比与选型指南 在搭建家庭影院或设计多屏工作站时,视频接口的选择往往成为影响最终显示效果的关键因素。DVI和HDMI作为两种主流的数字视频接口,各自拥有独特的技术特性和适用场景。本文将深入剖析这两种接口的…...

Stable Yogi Leather-Dress-Collection入门必看:动态LoRA切换+智能提示词嵌入完整解析

Stable Yogi Leather-Dress-Collection入门必看:动态LoRA切换智能提示词嵌入完整解析 想快速生成动漫风格的皮衣穿搭图片,却总被复杂的模型切换和提示词调整劝退?今天要介绍的这款工具,或许能让你眼前一亮。 Stable Yogi Leathe…...

AI浪潮下的22个新职业:高薪诱惑背后,你真的能抓住吗?

AI时代新增职业:充满挑战的新战场 22个以前不存在的工作,不是每个人都能做,但每个人都需要了解2026年初,OpenAI与美国国防部达成合作协议,AI模型将获准进入军方分类网络。 这是AI行业的一个标志性事件。 但更值得关注的…...

避开网络坑:SpaCy模型下载的3种方法对比(pip/conda/离线包)

避开网络坑:SpaCy模型下载的3种方法对比(pip/conda/离线包) 在自然语言处理(NLP)领域,SpaCy凭借其高效的性能和简洁的API设计,已成为众多开发者的首选工具。然而,对于国内用户而言&a…...

人工智能|计算机视觉——微表情识别(Micro expression recognition)的研究现状

一、简述 微表情是一种特殊的面部表情,与普通的表情相比,微表情主要有以下特点: 持续时间短,通常只有1/25s~1/3s;动作强度低,难以察觉;在无意识状态下产生,通常难以掩饰或伪装&#…...

计算机毕业设计springboot基于的农业无人机培训考试系统 基于SpringBoot的智慧农业无人机技能培训与考核平台设计与实现 基于SpringBoot的农用无人机操作员培训认证系统设计与实现

计算机毕业设计springboot基于的农业无人机培训考试系统(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。近年来,随着智慧农业的快速发展,农业无人机在植保…...

漏洞分析-浪潮GS企业管理软件远程代码执行漏洞实战解析

1. 浪潮GS企业管理软件漏洞背景 浪潮GS企业管理软件是浪潮集团面向大中型企业推出的综合管理平台,采用SOA架构和GSP应用中间件开发。这套系统在集团型企业中应用广泛,主要实现数据集中、应用集中和管理集中的三大核心功能。我在实际安全评估工作中发现&a…...

NestJS + TypeORM实战:从零搭建一个用户管理系统(附完整代码)

NestJS TypeORM 实战:构建企业级用户管理系统 引言 在当今快速发展的互联网时代,后端开发框架的选择直接影响着项目的开发效率和可维护性。NestJS作为一款渐进式Node.js框架,结合TypeORM这一强大的ORM工具,能够为开发者提供高效、…...

告别等待!SpringBoot + WebFlux + WebSocket 三件套搞定OpenAI流式对话(附完整代码)

SpringBoot WebFlux WebSocket 构建高效流式对话系统 引言:为什么我们需要流式响应? 想象一下这样的场景:你在使用某个智能对话系统时,每次提问后都需要等待十几秒甚至更长时间才能看到完整的回答。这种体验就像是在拨号上网时代…...

从山东大学考题看机器学习核心概念:线性回归、朴素贝叶斯与SVM详解

从机器学习考题透视三大核心算法:原理拆解与实战指南 当一张机器学习期末试卷摆在面前时,那些看似抽象的数学符号背后,隐藏着怎样的算法智慧?本文将以典型考题为线索,带您穿透线性回归、朴素贝叶斯和支持向量机的理论迷…...

别光重启了!深度拆解苍穹外卖项目Nginx配置与后端端口映射的联调逻辑

别光重启了!深度拆解苍穹外卖项目Nginx配置与后端端口映射的联调逻辑 当你第5次按下重启键时,有没有想过——为什么Nginx总在和你作对?上周我部署苍穹外卖项目时,眼睁睁看着同事对着401错误狂敲F5,而真正的问题其实藏在…...

从算法竞赛题解到实战技巧:以潍坊一中挑战赛为例

1. 从竞赛题解到实战能力的迁移 参加过算法竞赛的同学都知道,题目解出来只是第一步。真正有价值的是如何把解题过程中积累的经验和技巧,转化为解决实际问题的能力。潍坊一中挑战赛的题目看似简单,但每道题背后都隐藏着值得深入挖掘的编程思维…...

Visio绘图专题之电力电子拓扑+控制框图一站式绘图指南(永久收藏)

1. Visio电力电子绘图入门指南 第一次用Visio画电力电子图纸时,我盯着空白画布发呆了半小时。作为过来人,我完全理解新手面对各种拓扑符号时的茫然。其实掌握几个关键技巧,就能快速上手专业级的电力电子绘图。 Visio最强大的地方在于它的智能…...

避坑指南:企业微信自建应用前端开发中最容易忽略的5个配置细节

避坑指南:企业微信自建应用前端开发中最容易忽略的5个配置细节 在数字化转型浪潮中,企业微信作为连接内部组织与外部生态的重要平台,其自建应用开发已成为企业提升协同效率的关键手段。然而,许多前端开发者在初次接触企业微信生态…...

《高频电路设计实战》 —— 从串并阻抗转换到谐振回路优化

1. 高频电路设计的核心挑战 高频电路设计就像在高速公路上开车,稍有不慎就会"翻车"。我刚开始接触射频电路时,经常被各种奇怪的信号失真和能量损耗搞得焦头烂额。后来才发现,串并阻抗转换这个看似基础的概念,其实是解决…...

龙迅LT6911GXD:解码8K超高清时代,如何用单芯片打通HDMI/DP/USB-C到MIPI/LVDS的显示桥梁?

1. 认识龙迅LT6911GXD:8K时代的接口转换神器 第一次拿到龙迅LT6911GXD芯片时,我正被一个VR头显项目折磨得焦头烂额。客户要求用游戏主机的HDMI 2.1信号驱动MIPI接口的4K 120Hz屏幕,传统方案需要三颗芯片级联,电路板面积比显示屏还…...

FreeRTOS任务栈溢出检测实战:从portSTACK_GROWTH到uxTaskGetStackHighWaterMark

FreeRTOS任务栈深度优化实战:从生长方向到高水位检测 1. 理解FreeRTOS任务栈的核心机制 在嵌入式实时操作系统中,任务栈的管理是确保系统稳定运行的关键。FreeRTOS作为一款广泛应用的RTOS,其栈管理机制设计精巧且高效。要真正掌握栈优化技术&…...

TanStack Virtual 终极性能优化指南:10个实用技巧让大型列表流畅如飞

TanStack Virtual 终极性能优化指南:10个实用技巧让大型列表流畅如飞 【免费下载链接】virtual 项目地址: https://gitcode.com/gh_mirrors/virtu/virtual TanStack Virtual 是一个强大的虚拟列表库,能够帮助开发者在处理大型数据列表时保持 60F…...

Cadence: 电子设计自动化(EDA)软件全解析

1. Cadence EDA软件家族概览 Cadence作为电子设计自动化(EDA)领域的巨头,其工具链覆盖了从电路设计到芯片验证的全流程。我第一次接触Cadence是在研究生课题中,当时需要设计一块高频电路板,导师直接甩给我一套Allegro安…...

终极指南:object-reflector高级用法揭秘 - 处理继承属性和整数属性名

终极指南:object-reflector高级用法揭秘 - 处理继承属性和整数属性名 🔥【免费下载链接】object-reflector Allows reflection of object attributes, including inherited and non-public ones 项目地址: https://gitcode.com/gh_mirrors/ob/object-r…...

ECC 256k1 vs 256r1:哪个更适合你的加密需求?参数对比与性能测试

ECC 256k1与256r1深度解析:如何为你的项目选择最优椭圆曲线 在当今的数字安全领域,椭圆曲线加密(ECC)已成为保护数据传输和存储的黄金标准。相比传统RSA算法,ECC能在更短的密钥长度下提供同等级别的安全性,…...

Tensorpack模型压缩终极指南:DoReFa-Net低比特量化实战详解

Tensorpack模型压缩终极指南:DoReFa-Net低比特量化实战详解 【免费下载链接】tensorpack 项目地址: https://gitcode.com/gh_mirrors/ten/tensorpack 想要将深度学习模型部署到移动设备或嵌入式系统,但受限于模型大小和计算资源?&…...

《解锁 Python 依赖注入(DI)的实战潜力:三种实现方式、代价权衡与可测试性完整案例》

《解锁 Python 依赖注入(DI)的实战潜力:三种实现方式、代价权衡与可测试性完整案例》 📌 开篇引入 客观来看,Python 自 1991 年由 Guido van Rossum 诞生以来,以其简洁优雅的语法和“人生苦短,我…...

pbrt-v4性能调优实战:从CPU到GPU的全面优化策略

pbrt-v4性能调优实战:从CPU到GPU的全面优化策略 【免费下载链接】pbrt-v4 Source code to pbrt, the ray tracer described in the forthcoming 4th edition of the "Physically Based Rendering: From Theory to Implementation" book. 项目地址: http…...

5分钟快速上手:基于PyTorch的声纹识别系统完整教程

5分钟快速上手:基于PyTorch的声纹识别系统完整教程 【免费下载链接】VoiceprintRecognition-Pytorch This project uses a variety of advanced voiceprint recognition models such as EcapaTdnn, ResNetSE, ERes2Net, CAM, etc. It is not excluded that more mod…...

J1939协议实战:从原始报文到工程值的快速换算指南

1. J1939协议基础与实战价值 第一次接触J1939协议时,我被满屏的十六进制报文搞得头晕眼花。直到在卡车诊断项目中被迫"硬啃"协议文档,才发现这套标准其实藏着精妙的设计逻辑。J1939协议就像车辆电子系统的"普通话",让不同…...

EI会议投稿避坑指南:五大出版社(Springer、JPCS、IEEE、SPIE、ACM)检索稳定性与学科适配深度解析

1. EI会议投稿的五大出版社全景概览 第一次投EI会议的朋友们,最头疼的问题往往是:这么多出版社,到底选哪家才靠谱?我当年第一次投稿时,就被Springer、JPCS这些缩写搞得晕头转向。后来帮导师审过上百篇会议论文&#xf…...

ESP32传感器数据边缘分析终极指南:基于xiaozhi-esp32-server的完整实现方案

ESP32传感器数据边缘分析终极指南:基于xiaozhi-esp32-server的完整实现方案 【免费下载链接】xiaozhi-esp32-server 本项目为xiaozhi-esp32提供后端服务,帮助您快速搭建ESP32设备控制服务器。Backend service for xiaozhi-esp32, helps you quickly buil…...

如何快速恢复xiaozhi-esp32-server数据:完整备份文件管理指南 [特殊字符]️

如何快速恢复xiaozhi-esp32-server数据:完整备份文件管理指南 🛡️ 【免费下载链接】xiaozhi-esp32-server 本项目为xiaozhi-esp32提供后端服务,帮助您快速搭建ESP32设备控制服务器。Backend service for xiaozhi-esp32, helps you quickly b…...