LLM 大模型基础认知篇
目录
1、基本概述
2、大模型工作原理
3、关键知识点
(1)RAG 知识库
(2)蒸馏
(3)微调
(4)智能体
1、基本概述
大型语言模型(Large Language Model, LLM)是一种基于深度学习的自然语言处理模型,其核心架构为 Transformer 神经网络。这类模型的参数量通常达到千亿级别(如 GPT-3 的 1750 亿参数、PaLM 的5400亿参数),通过海量文本数据训练,具备对语言规律的深度建模能力。Transformer 架构通过自注意力机制实现了对长距离语义依赖的高效捕捉,其编码器-解码器结构支持并行计算,成为 LLM 的技术基石。
下面是 LLM 大模型的几个主要特点:
(1)超大规模参数:LLM 的参数量级从数十亿到数万亿不等,这种规模使其能够存储复杂的语言模式。例如,GPT-4 的参数量达到 1.8 万亿,而 DeepSeek V3 的总参数更是高达6710亿。参数规模与模型性能呈指数级正相关,根据OpenAI的扩展法则(Scaling Law),计算量增加10倍时,模型规模需扩大5倍,数据量需增加2倍。
(2)海量训练数据:LLM通常使用TB级文本语料进行训练,涵盖网页、书籍、代码等多源数据。DeepSeek V3的预训练数据达到14.8T tokens(约相当于2.5倍维基百科总词量),并通过数据清洗和权重优化提升质量。多模态融合成为新趋势,如PaLM-E模型已实现文本与图像的联合训练。
(3)涌现能力与泛化性:当模型规模突破临界点(约100亿参数)时,LLM会展现出零样本学习、复杂推理等"涌现能力"。例如,GPT-4在未专门训练的情况下能解决高等数学问题。这种泛化能力使LLM可应用于机器翻译、代码生成、知识问答等数百种场景。
(4)训练与推理成本:训练千亿级模型需要百万GPU小时的计算资源,但技术创新正在降低成本。以DeepSeek V3为例,其采用FP8混合精度和DualPipe算法,仅耗资557万美元完成训练,效率较Llama 3提升11倍。在推理环节,MoE架构通过动态激活专家模块(如DeepSeek V3仅激活370亿参数)降低能耗。
特别的,最近国产最牛逼的模型 DeepSeek 横空出世,作为开源模型的标杆,在独特的架构设计和训练策略上展示了很多创新。
DeepSeek V3 主要特点如下:
(1)混合专家架构(MoE)优化:采用256个细粒度专家的DeepSeekMoE结构,通过负载均衡策略将专家利用率提升至98%,相比传统MoE模型减少30%计算冗余。该架构支持动态路由,在代码生成任务中激活数学专家模块,在文学创作时调用语义理解专家。
(2)多头潜在注意力机制(MLA):通过低秩联合压缩技术,将键值缓存需求降低至传统Transformer的1/4,使4096 tokens长文本推理的显存占用减少60%。该机制在SWE-bench代码测试中实现89%的准确率,超越GPT-4o的85%。
(3)训练效率革新
-
- FP8混合精度:首次在千亿级模型验证8位浮点训练可行性,内存占用减少40%
- DualPipe算法:实现计算与通信的98%重叠率,单卡吞吐量达3.2万tokens/秒
- 多令牌预测(MTP) :同时预测后续4个token,训练速度提升2.3倍
(4)性能指标突破:在MATH 500数学竞赛级测试中获得97.3%准确率,超越人类平均水平(约65%);代码生成任务中,SWE-bench验证通过率达72.5%,较GPT-4提升15%。其API成本仅为Claude 3.5的1/10,实现性能与成本的帕累托最优。
DeepSeek R1 作为专注推理任务的衍生模型,在 DeepSeek V3 基础上实现了方法论创新:
(1)纯强化学习范式:摒弃传统监督微调(SFT),采用群组相对策略优化(GRPO)算法,通过3.2亿次试错迭代自主进化。在AIME 2024国际数学奥林匹克测试中,R1的pass@1分数从基线的15.6%跃升至71%。
(2)冷启动-蒸馏双阶段训练
-
- 冷启动阶段:注入200万条高质量思维链(CoT)数据,解决初始探索的盲目性
- 知识蒸馏:将R1的推理能力迁移至7B小模型,使其在GSM8K数学测试中的准确率从45%提升至82%
(3)实际应用优势:
-
- 医疗诊断:在CMR-Xray影像报告中,推理错误率较传统模型降低58%
- 科研辅助:处理蛋白质折叠预测任务时,速度比AlphaFold快3倍且能耗降低70%
- 多模态扩展:视觉语言模型VLM-R1在领域外测试数据上的泛化性提升40%
(4)成本革命:通过 PTX 指令级优化,R1 的每百万 tokens 推理成本降至 0.002 美元,仅为 GPT-4的 1/500。其开源版本支持本地部署,在消费级显卡(如RTX 4090)上即可运行。最近 DeepSeek 官方公布其成本利润率高达 545%,很牛逼!!!
2、大模型工作原理
核心架构:Transformer的革新性设计
LLM 的核心架构基于 Transformer,这是一种革命性的神经网络结构。其核心组件自注意力机制(Self-Attention)使模型能够同时关注输入序列中所有位置的词,并动态计算词与词之间的关联权重。例如,在句子“猫追老鼠”中,模型通过自注意力机制可以捕捉到“追”的动作主体是“猫”,客体是“老鼠”。这种机制解决了传统RNN无法处理长距离依赖的问题,并支持并行计算,极大提升了训练效率。
Transformer的具体结构包含:
编码器-解码器框架:编码器负责将输入文本转换为上下文向量,解码器基于此生成输出文本。
位置编码:通过旋转位置编码(RoPE)等技术,将词的位置信息融入向量表示,增强模型对词序的感知。
多头注意力:允许模型从不同角度分析文本,例如同时关注语法结构和语义关系。
预训练:从海量数据中学习语言规律
预训练是 LLM 能力的基石。模型通过无监督学习在大规模文本(如网页、书籍、代码)上完成以下任务:
- 语言建模(Language Modeling):预测被掩盖的词(如 BERT 的 MLM 任务)或下一个词(如 GPT的自回归预测)。
- 训练规模:现代 LLM 的预训练数据量可达数万亿 Token(例如 LLaMA 3 的 3T Token),模型参数规模从数十亿到上万亿不等。
预训练目标函数通常采用交叉熵损失,通过梯度下降不断优化模型对语言统计规律的拟合能力。例如,在预测句子“天空是___”时,模型需要学习“蓝色”比“苹果”更可能出现在此位置的概率分布。
微调:从通用到专用的能力迁移
预训练后的模型通过有监督微调适应具体任务:
- 全参数微调:更新所有模型参数,适合数据充足场景,但计算成本高。

- 参数高效微调:例如LoRA(低秩适配),仅训练新增的低秩矩阵,在保持原参数不变的情况下实现任务适配。这种方法可将训练成本降低90%以上。
- 多任务微调:同时学习多个相关任务(如翻译+摘要),提升模型泛化能力。

我们在使用 LLM 大模型的时候,大语言模型的工作概括来说是根据给定的文本预测下一个 token。对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。
大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的 token,根据概率最大原则预测出下一个最有可能的 token,然后将该预测的 token 加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个 token,这个过程叫做自回归。直到输出特殊 token(如<EOS>,end of sentence,专门用来控制推理何时结束)或输出长度达到阈值。

3、关键知识点
(1)RAG 知识库
知识库是结构化或半结构化的外部信息库(如企业文档、行业标准),通过检索增强生成(RAG)技术辅助 LLM 生成更准确、专业的回答。例如,医疗诊断系统结合医学知识库可减少“幻觉”错误。
知识库的出现主要是因为当前通用的 LLM 大模型存在如下问题:
- 训练数据不是实时的,知识领域覆盖不足的问题,无法实时更新或涵盖专有知识;
- LLM 存在“幻觉”问题,会一本正经的胡说八道,其输出结果无法被论证;
- 企业内部存在知识壁垒,LLM 模型训练数据中没有企业的私有数据;
通过对用户整理的私有文档(各种多模态数据)进行分块,使用 Embedding 模型(如BERT)将文本转换为向量,构建高效检索索引,并存入向量数据库。在用户查询时,先从知识库召回相关片段,再连同 Prompt 输入 LLM 模型生成答案。
(2)蒸馏
蒸馏是一种通过将大型模型(教师模型)的知识迁移到小型模型(学生模型)中的训练策略。其核心目标是保持小模型的性能接近大模型,同时显著降低计算资源需求和推理延迟。例如,目前很多厂商基于他们原有的模型进行蒸馏,使用 DeepSeek 的输出.

技术流程:
- 选择教师模型:通常为高性能的大模型(如GPT-4)。
- 生成软标签:教师模型对未标注数据进行预测,生成概率分布(软目标)而非硬标签,保留更多知识细节。
- 训练学生模型:学生模型学习模仿教师模型的输出或中间层表示,结合自身损失函数优化。
- 评估与迭代:验证学生模型在目标任务上的性能,必要时进行多轮蒸馏或引入多教师模型。
存在的不足:
- 信息丢失:小模型无法完全复现大模型的复杂推理能力,尤其在生成任务中表现受限。
- 依赖教师质量:若教师模型存在偏差,学生模型可能继承错误。
- 数据需求:需大量未标注数据生成软标签,某些场景下难以满足。
(3)微调
微调是在预训练模型基础上,使用特定领域的小规模数据集进行二次训练,使模型适应具体任务(如法律文档分析、医疗问答)。例如,GPT-3.5 Turbo可通过微调优化客服对话的语气和风格。
虽然预训练模型虽具备广泛语言理解能力,但缺乏垂直领域的专业知识(如金融术语、医学指南),同时也很慢满足企业个性化的需求,经过微调的 LLM 系统还可以简化 Prompt 的难度。
不过微调存在一些难度,需要有算力支持,而且需要适当的调优,需要有相关专业的人才支持。大部分还是采用的 RAG 知识库。
技术流程:
- 数据准备:清洗并划分领域数据集为训练集、验证集和测试集。
- 参数调整:通过监督学习更新模型权重,通常仅调整部分层(如LoRA技术)以减少计算量。
- 超参数优化:调整学习率、批量大小等,防止过拟合或灾难性遗忘(即丢失预训练知识)。
- 评估与部署:验证模型在目标任务的准确率,并通过持续迭代优化。
(4)智能体
注意此处的智能体与很多国内厂商宣传的“智能体”不同,不是简单的 prompt 工程。
智能体是基于 LLM 的自主系统,能感知环境、分解任务、调用工具并持续优化决策。例如,AI 客服智能体可自动处理用户投诉,分派工单。从软件工程的角度来看,智能体是指基于大语言模型的,能使用工具与外部世界进行交互的计算机程序。
下面是智能体与 LLM 大模型的区别:
- 它不局限于输出回答,还能通过插件(工具)与外部世界交互,例如发送邮件、发布文章、联网查询、执行代码、下单购物等……理论上只要是计算机程序能做的事情,它都能做到。
- 它不再是被动式地接受多轮提问,而是能自主地推理(拆解任务、选择最优路径)、主动纠错、自主完成任务。你可以让它每完成一个或多个步骤就给你同步进展,和你确认下一步的动作,也可以授权它自主地完成所有步骤。
- 它不仅可以完成简单的事情,还能完成复杂的任务,比如搭建一个网站、开发一款游戏,因为它能拆解任务、自我纠错、调用外部工具等。
- 它可以自我迭代,吸取历史经验,不断成长,因为它不仅能记住这次会话里你对它的指导,还能记住以前的会话里你给它提过的要求。
- 它不仅能完成通用的任务,还能完成特定领域的任务,因为它可以接入特定领域的外部知识库和工具。
关键组件:
- 规划与推理:将任务分解为子目标,并制定执行路径(如先检索再生成)。
- 记忆机制:短期记忆存储对话历史,长期记忆记录经验以提升决策质量。
- 工具调用:集成搜索引擎、计算器等外部工具,弥补纯文本生成的局限。
- 反思与迭代:通过自我评估调整策略,例如检测错误后重新规划步骤。
万字赏析DS创造之美:DeepSeek R1 是怎样炼成的?-虎嗅网
DeepSeek-V3 / R1 推理系统概览 - 知乎
阿里云培训中心
相关文章:
LLM 大模型基础认知篇
目录 1、基本概述 2、大模型工作原理 3、关键知识点 (1)RAG 知识库 (2)蒸馏 (3)微调 (4)智能体 1、基本概述 大型语言模型(Large Language Model, LLM)…...
leetcode700-二叉搜索树中的搜索
leetcode 700 思路 我们需要先了解一下二叉搜索树的特性: 左子树的所有节点值 < 当前节点的值。右子树的所有节点值 > 当前节点的值。这个特性适用于树中的每个节点 那么根据这个特性,我们可以通过根节点的值和目标值的大小来判断后序的走向&…...
《MySQL三大核心日志解析:Undo Log/Redo Log/Bin Log对比与实践指南》
MySQL三大核心日志解析:Undo Log/Redo Log/Bin Log对比与实践指南 一、核心日志全景概览 在MySQL数据库体系中,Undo Log、Redo Log和Bin Log构成了事务处理和数据安全的三大基石。这三大日志各司其职,协同保障了数据库的ACID特性与高可用架…...
java中实体类常见的设计模式
实体类常见的设计模式 1. Set 链式编程 在实体类中实现链式调用通常是指让 setter 方法返回当前对象实例(this),从而允许连续调用多个 setter 方法设置属性值。这种方式可以使代码更加简洁和直观。 例如实体类为: public clas…...
【够用就好006】如何从零开发游戏上架steam面向AI编程的godot独立游戏制作实录001流程
记录工作实践 这是全新的系列,一直有个游戏制作梦 感谢AI时代,让这一切变得可行 长欢迎共同见证,期更新,欢迎保持关注,待到游戏上架那一天,一起玩 面向AI编程的godot独立游戏制作流程实录001 本期是第…...
发行思考:全球热销榜的频繁变动
几点杂感: 1、单机游戏销量与在线人数的衰退是剧烈的,有明显的周期性,而在线游戏则稳定很多。 如去年的某明星游戏,最高200多万在线,如今在线人数是48名,3万多。 而近期热门的是MH,在线人数8…...
docker目录挂载与卷映射的区别
在 Docker 中,目录挂载(Bind Mount)和卷映射(Volume Mount)的命令语法差异主要体现在路径格式上,具体表现为是否以斜杠(/)开头。以下是两者的核心区别及使用场景的总结: …...
`label` 标签的 `for` 属性详解
一、基本概念 label 标签的 for 属性用于将标签与表单控件(如 input、select 等)绑定,其值需与目标元素的 id 完全匹配。这种关联允许用户点击标签时触发控件交互(如聚焦输入框或切换复选框),提升操作便捷…...
公开笔记:自然语言处理(NLP)中文文本预处理主流方法
在自然语言处理(NLP)领域,将中文文本转化为数字的主流方法主要集中在预训练语言模型和子词编码技术上。这些方法能够更好地捕捉语义信息,并且在各种NLP任务中表现出色。以下是目前主流的文本编码方法: 1. 基于预训练语…...
【一个月备战蓝桥算法】递归与递推
字典序 在刷题和计算机科学领域,字典序(Lexicographical order)也称为词典序、字典顺序、字母序,是一种对序列元素进行排序的方式,它模仿了字典中单词的排序规则。下面从不同的数据类型来详细解释字典序: …...
算法策略深度解析与实战应用
一、算法策略的本质与价值 算法策略是计算机科学的灵魂,它决定了问题解决的效率与质量。优秀的算法设计者就像战场上的指挥官,需要根据地形(问题特征)选择最佳战术(算法策略)。本文将深入剖析五大核心算法…...
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】
美美超过管解 题目: 3. 无重复字符的最长子串 给定一个字符串 s ,请你找出其中不含有重复字符的 最长的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 注…...
计算机网络(1) 网络通信基础,协议介绍,通信框架
网络结构模式 C/S-----客户端和服务器 B/S -----浏览器服务器 MAC地址 每一个网卡都拥有独一无二的48位串行号,也即MAC地址,也叫做物理地址、硬件地址或者是局域网地址 MAC地址表示为12个16进制数 如00-16-EA-AE-3C-40 (每一个数可以用四个…...
在 Docker 中,无法直接将外部多个端口映射到容器内部的同一个端口
Docker 的端口映射是一对一的,即一个外部端口只能映射到容器内部的一个端口。 1. 为什么不能多对一映射? 端口冲突: 如果外部多个端口映射到容器内部的同一个端口,Docker 无法区分外部请求应该转发到哪个内部端口,会…...
计算机网络开发(2)TCP\UDP区别、TCP通信框架、服务端客户端通信实例
TCP与UDP区别 UDP:用户数据报协议,面向无连接,可以单播,多播,广播, 面向数据报,不可靠TCP:传输控制协议,面向连接的,可靠的,基于字节流ÿ…...
ubuntu打包 qt 程序,不用每次都用linuxdeployqt打包
用linuxdeployqt打包太麻烦,每次程序编译都要用linuxdeployqt打包一次,而且每次都要很长时间,通过研究得出一个新的打包方法 1.用用linuxdeployqt得出依赖的库文件(只要没有增加新模块,只要用一次就可以) …...
【Python项目】基于深度学习的车辆特征分析系统
【Python项目】基于深度学习的车辆特征分析系统 技术简介:采用Python技术、MySQL数据库、卷积神经网络(CNN)等实现。 系统简介:该系统基于深度学习技术,特别是卷积神经网络(CNN),用…...
C++(初阶)(二)——类和对象
类和对象 类和对象类的定义格式访问限定符类域 实例化实例化概念内存对齐 this指针 类的定义 类(Class)是一种用于创建对象的蓝图或模板。它定义了对象(变量)的属性(数据)和方法(行为ÿ…...
JS—组成:2分钟掌握什么是ECMAScript操作,什么是DOM操作,什么是BOM操作
个人博客:haichenyi.com。感谢关注 1. 目录 1–目录2–组成3–内置对象 2. 组成 一直都在说JS,JS,到底啥是JS有了解过吗?JS由哪几部分组成的呢? 定义: JavaScript是一种轻量级、解释型或即时编译型的编程语…...
ArcGIS操作:10 投影坐标系转地理坐标系
应用情景:在计算shp面质心坐标的时,由于需要的坐标是经纬度,所以需要将投影坐标系转化为地理坐标系 1、打开工具箱 2、右侧:数据管理工具 → 投影和变换 → 要素 → 投影 3、选择投影的数据、输出路径、地理坐标系,点…...
Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...
AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...
FastAPI 教程:从入门到实践
FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,支持 Python 3.6。它基于标准 Python 类型提示,易于学习且功能强大。以下是一个完整的 FastAPI 入门教程,涵盖从环境搭建到创建并运行一个简单的…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...
WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
【HTML-16】深入理解HTML中的块元素与行内元素
HTML元素根据其显示特性可以分为两大类:块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...
select、poll、epoll 与 Reactor 模式
在高并发网络编程领域,高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表,以及基于它们实现的 Reactor 模式,为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。 一、I…...
第 86 场周赛:矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词
Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的row x col 的 grid,其中有多少个 3 3 的 “幻方” 子矩阵&am…...
项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
