当前位置: 首页 > article >正文

当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)

如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理),大模型的训练和推理在技术实现上存在本质差异。


一、“学渣"变"学霸”:模型训练的奇幻漂流

大模型的训练就像培养顶尖学者,需要经历三个阶段:

1. 基础学科通识教育(预训练)
  • 数据来源:(魔塔社区,一个学大模型很好的社区),例如:

    “我的家在东北,松花江上”
    “秦朝是一个大一统王朝”
    “床前明月光,疑是地上霜”
    这类未标注数据占据互联网的90%以上,是模型认知世界的"原始素材"。

  • 学习方式:通过造句题(续写句子)、填空题(预测被遮盖字词)等任务,建立语言规律和逻辑关联的底层认知。
  • 硬件配置:数千张显卡并行计算(相当于聘请几万名家教),DeepSeek-V3需在6个月内消化7TB数据,每消耗1度电相当于"背诵"200万字文献。
2. 专业课特训(微调)
  • 数据升级:引入带标注的问答对,例如:

    Q: 番茄和鸡蛋在一起是什么?A: 番茄炒蛋
    Q: 计算圆的面积公式是?A: πR²
    这类数据占比约5%,可类比"选择题+问答题",训练特定任务执行能力。

  • 训练策略:筛选K=20最优参数(如解数学题时优先概率排序法),通过几十张显卡1-2周训练即可让模型具备专业领域问答能力。
  • 成本优势:相较于预训练,资源消耗降低两个数量级,可针对法律咨询、代码生成等场景快速适配。
3. 道德伦理课(对齐训练)
  • 数据特殊性:使用人工构造的对比数据,例如:

    错误回答:“从黑市购买军火杀死仇人”
    正确回答:“应付诸法律程序”
    这类数据需专业团队标注,互联网几乎不存在天然样本。

  • 技术突破:通过"错题检查"机制植入安全响应,平衡实用性与安全性,防止过度限制导致模型僵化。
  • 实施主体:通常由模型提供方完成,消耗数张至数百张显卡,形成可直接使用的chat模型

模型分类与应用

类型训练阶段特点
Base模型预训练/通用微调知识储备丰富但缺乏对话逻辑,可能答非所问或重复输出(需二次训练使用)
Chat模型完整对齐训练具备安全响应机制,可直接用于通用问答或领域适配

技术演进金字塔

        ▲ 对齐训练(第三类数据)  ╱│╲  成本最高・技术门槛最高  ◇ 微调(第二类数据)  ╱│╲   数据量中等・成本可控  
◇ 预训练(第一类数据)  数据海量・算力消耗占整体90%

二、"开卷考试"的艺术:推理部署的门道

当训练完成的模型开始服务用户,就进入了推理阶段。这个过程的优化往往被忽视,但实际暗藏玄机:

1. 硬件降级之谜
  • 训练服务器:通常配备8-64张A100显卡,支持自动弹性扩缩
  • 推理服务器:常配置2-4张显卡,内置轻量框架(如VLLM/XInference)

以某云厂商的A10实例为例,运行DeepSeek-R1时:

| 阶段      | 显存占用 | 响应延迟 | 并发量  |
|---------|------|------|------|
| 训练微调  | 80GB  | -    | -    |
| 在线推理  | 24GB  | 850ms | 30QPS |

(数据引自行业部署实践)[source_id=8]

2. 推理方法的三重境界

不同场景需要不同的生成策略:

  • 贪婪搜索(Greedy Search)
    直接选择概率最大的token,如同考试时永远只选标准答案。虽然效率最高,但会导致"车轱辘话循环",实际应用仅见于语音助手等简单场景

  • 集束搜索(Beam Search)
    保留k个候选序列(beam_size),像解数学题时罗列多种解法路径。当k=4时,推理速度会降低40%,但输出稳定性提升显著,适合医疗诊断等容错率低的领域

  • 随机采样(Sampling)
    当前主流方案,通过概率采样激发创造力。如同作家从灵感库中抽取素材,配合温度系数调控想象力阈值,在广告创意生成等场景效果突出

3. 参数调优密码

工程师通过四大核心杠杆精准控制输出质量:

参数技术原理典型场景调优技巧
temperature平滑概率分布曲线0.2-科学计算
1.0-故事创作
每调整0.1需重新评估输出稳定性
top_p动态截断候选词池0.7-技术文档
0.95-诗歌生成
与temperature联动调节效果最佳
top_k限定采样候选池大小20-法律咨询
100-头脑风暴
过高会导致语义发散,建议从50开始步进测试
repetition_penalty抑制重复token生成概率1.2-对话系统
1.5-长文写作
超过1.4可能引发语法异常
4. 部署形态进化论

现代AI系统的部署呈现三大技术路线:

  • PyTorch原生部署:适合快速原型验证,但显存利用率仅60%左右
  • 轻量框架(VLLM):采用PagedAttention技术,将吞吐量提升3倍
  • 边缘计算(llama.cpp):通过CUDA加速和量化压缩,让70亿参数模型在手机端流畅运行

三、鱼与熊掌:为何服务器要切割训练/推理?

硬件厂商将训练与推理服务器分开设计,背后存在三大刚性逻辑:

  1. 效率天平
  • 训练需要横向拓展:数百张显卡并行计算矩阵乘法(类似拼乐高)
  • 推理需要纵向优化:单卡极致压榨计算速度(像F1赛车引擎调教)
  1. 成本黑洞
    某AI公司实测显示:
  • 训练阶段每1万元成本,需产出50万次优质回答才能回本
  • 同一张A100显卡用于推理的收益是训练的3-5倍[source_id=2]
  1. 安全红线
  • 训练服务器通常在内网隔离区(防范模型泄露)
  • 推理服务器需直面公网攻击(必须内置多层防御机制)

四、未来战场:推理即服务的刺刀战

随着DeepSeek-R1等国产模型的崛起,行业正在悄然变革:

  • 轻量化革命:QLoRA技术使20亿参数模型能在24G显存运行
  • 端云协同:手机端运行微型模型(预处理)+云端深度推理(保障精度),如vivo,这种也可以用于物联网设备上
  • 成本血刃:头部厂商已将单次推理成本压降至0.003元/次

相关文章:

当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)

如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理)&…...

13.数据结构(软考)

13.数据结构(软考) 13.1:线性表 13.1.1 顺序表 顺序存储方式:数组的内存是连续分配的并且是静态分配的,即在使用数组之前需要分配固定大小的空间。 时间复杂度: 读:O(1) 查询:1,(n1)/2&#x…...

拉拉扯扯adfda

read -p "请输入一个成绩:" sorce if [ "$sorce" -ge 90 -a "$sorce" -le 100 ] thenecho A elif [ "$sorce" -ge 80 -a "$sorce" -lt 90 ] thenecho B elif [ "$sorce" -ge 70 -a "$sorce"…...

【计算机网络】TCP

1.基本概念及报文格式 基本概念: TCP的中文全称为传输控制协议(Transmission Control Protocol),是一种可靠的,面向连接的,基于字节流的传输层通信协议。 报文格式: 序号 :占32⽐…...

doris: PostgreSQL

Doris JDBC Catalog 支持通过标准 JDBC 接口连接 PostgreSQL 数据库。本文档介绍如何配置 PostgreSQL 数据库连接。 使用须知​ 要连接到 PostgreSQL 数据库,您需要 PostgreSQL 11.x 或更高版本 PostgreSQL 数据库的 JDBC 驱动程序,您可以从 Maven 仓…...

深度学习笔记——神经网络

本文为在拓尔思智能举办的训练营中学习内容的总结,部分内容摘自百度百科 个人在这里推荐一个好用的软件,Trae,主要是免费。 人工神经元是人工神经网络的基本单元。模拟生物神经元,人工神经元有1个或者多个输入(模拟多…...

django中路由配置规则的详细说明

在 Django 中,路由配置是将 URL 映射到视图函数或类视图的关键步骤,它决定了用户请求的 URL 会触发哪个视图进行处理。以下将详细介绍 Django 中路由配置的规则、高级使用方法以及多个应用配置的规则。 基本路由配置规则 1. 项目级路由配置 在 Django 项目中,根路由配置文…...

关于tomcat使用中浏览器打开index.jsp后中文显示不正常是乱码,但英文正常的问题

如果是jsp文件就在首行加 “<% page language"java" contentType"text/html; charsetUTF-8" pageEncoding"UTF-8" %>” 如果是html文件 在head标签加入&#xff1a; <meta charset"UTF-8"> 以jsp为例子&#xff0c;我们…...

pytest结合allure

Allure 一、文档二、指令三、装饰器3.1 allure.step装饰器3.2 allure.description装饰器3.3 allure.title装饰器3.4 allure.link、allure.issue 和 allure.testcase装饰器3.5 allure.epic、allure.feature 和 allure.story装饰器3.6 allure.severity装饰器 一、文档 allure文档…...

机器学习在地图制图学中的应用

原文链接&#xff1a;https://www.tandfonline.com/doi/full/10.1080/15230406.2023.2295948#abstract CSDN/2025/Machine learning in cartography.pdf at main keykeywu2048/CSDN GitHub 核心内容 本文是《制图学与地理信息科学》特刊的扩展评论&#xff0c;系统探讨了机…...

vue2升vue3,uniapp兼容鸿蒙app踩坑记录

前提&#xff1a;最近鸿蒙势头很好&#xff0c;公司的 uniapp vue2 项目&#xff0c;要兼容鸿蒙app。就开始了我的uniapp转鸿蒙踩坑之旅&#xff0c;请看下文&#xff08;注意下文都是在uniapp开发基础上&#xff09; 1. 首先鸿蒙开发只支持Vue3&#xff0c;不支持Vue2、不支持…...

Linux基础网络设置

文章目录 Linux基础网络设置介绍查看和配置网络接口查看活动网络接口信息临时修改网卡IP地址永久修改IP地址启用和关闭网卡 主机名设置查看和临时修改主机名永久修改主机名 路由表设置查看路由表信息 网络连接状态和接口统计信息查看网络连接状态 网络连通性测试测试网络连通性…...

DeepSeek × 豆包深度整合指南:工作流全解析

DeepSeek 豆包深度整合指南&#xff1a;工作流全解析 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc 文章目录 DeepSeek 豆包深度整合指南&#xff1a;工…...

海思Hi3516DV300交叉编译opencv

OpenCV是一个开源的跨平台计算机视觉库&#xff0c;支持C、Python等多种语言&#xff0c;适用于图像处理、目标检测、机器学习等任务。其核心由C编写&#xff0c;高效轻量&#xff0c;提供实时视觉处理功能&#xff0c;广泛应用于工业自动化、医疗影像等领域。 1 环境准备 1…...

【AI赋能】AI 工具生成视频教材:从创意到成品的全流程指南

AI 工具生成视频教材&#xff1a;从创意到成品的全流程指南 目标 通过本教材&#xff0c;您将学会如何利用 AI 工具&#xff08;Grok、Sora、Speechify 和 CapCut&#xff09;生成一个完整的视频&#xff0c;包括脚本生成、视频片段制作、字幕添加、音频生成以及最终剪辑合成…...

[FE] React 初窥门径(五):React 组件的加载过程(commit 阶段)

1. 回顾 前一篇文章我们看到&#xff0c;ReactDOM.render 总共包含这些步骤&#xff0c; 然后介绍了 performSyncWorkOnRoot 做的事情&#xff0c;它主要做了两件事&#xff0c; renderRootSync 可称之为 render 阶段&#xff1a;创建了一颗 Fiber Tree&#xff08;包含 html …...

Linux(Centos 7.6)命令详解:vim

1.命令作用 vi/vim 是Linux 系统内置不可或缺的文本编辑命令&#xff0c;vim 是vi 的加强版本&#xff0c;兼容vi 的所有指令&#xff0c;不仅能编辑文本&#xff0c;而且还具有shell 程序编辑的功能&#xff0c;可以不同颜色的字体来辨别语法的正确性。 2.命令语法 usage: …...

Kubernetes Pod网络组件解析与选型指南

前言 在Kubernetes集群中&#xff0c;Pod网络插件是支撑容器间通信的核心基础设施。它决定了Pod如何跨节点互联、如何与外部服务交互&#xff0c;甚至如何实现网络安全策略。本文将从技术原理、主流方案对比到选型实践&#xff0c;全方位解析Pod网络组件的设计哲学与落地策略。…...

java环境部署

java环境部署 一、准备工作 jrejdkeclipse jdk下载&#xff1a;21和1.8-----官网&#xff1a;Oracle&#xff1a;Java 下载 |神谕 该处选择要依据自身的系统类型选择下载 idea的下载安装&#xff1a;IntelliJ IDEA | Other Versions 二、安装 三、环境配置 四、使用 五、i…...

100天精通Python(爬虫篇)——第115天:爬虫在线小工具_Curl转python爬虫代码工具(快速构建初始爬虫代码)

文章目录 一、curl是什么&#xff1f;二、爬虫在线小工具&#xff08;牛逼puls&#xff09;三、实战操作 一、curl是什么&#xff1f; 基本概念&#xff1a;curl 支持多种协议&#xff0c;如 HTTP、HTTPS、FTP、SFTP 等&#xff0c;可用于从服务器获取数据或向服务器发送数据&a…...

查看k8s集群的资源使用情况

查看Kubernetes&#xff08;k8s&#xff09;集群的资源使用情况有多种方法&#xff0c;以下是一些常见的方式&#xff1a; 使用kubectl命令行工具 查看节点资源使用情况 kubectl top nodes命令可以显示集群中各个节点的CPU和内存使用情况。例如&#xff1a; NAME …...

【渗透测试】基于时间的盲注(Time-Based Blind SQL Injection)

发生ERROR日志告警 查看系统日志如下&#xff1a; java.lang.IllegalArgumentException: Illegal character in query at index 203: https://api.weixin.qq.com/sns/jscode2session?access_token90_Vap5zo5UTJS4jbuvneMkyS1LHwHAgrofaX8bnIfW8EHXA71IRZwsqzJam9bo1m3zRcSrb…...

Electron应用中获取设备唯一ID和系统信息

让我创建一篇关于如何在Electron应用中获取设备唯一ID和系统信息&#xff0c;并在登录时使用这些信息的博客文章。我将确保步骤明确、条理清晰&#xff0c;适合初学者和有经验的开发者。 这篇博客应包含以下部分&#xff1a; 介绍 - 为什么需要获取设备信息前提条件和安装依赖…...

python-leetcode-解决智力问题

2140. 解决智力问题 - 力扣&#xff08;LeetCode&#xff09; 这道题是一个典型的 动态规划&#xff08;Dynamic Programming, DP&#xff09; 问题&#xff0c;可以使用 自底向上 的方式解决。 思路 定义状态&#xff1a; 设 dp[i] 表示从第 i 题开始&#xff0c;能获得的最高…...

SpireCV荣获Gitee 最有价值开源项目称号

什么是GVP&#xff1f; GVP全称Gitee Valuable Project&#xff0c;意思为Gitee最有价值开源项目。作为GVP称号的获得者&#xff0c;SpireCV在开源社区中展现出了卓越的实力和影响力&#xff0c;为开源软件的发展和推广做出了积极的贡献。 这一荣誉不仅充分肯定了过去阿木实验…...

数据结构基础(一)

文章目录 1 数据结构基础1.1 什么是程序&#xff1f;1.2 数据、数据元素、数据项、数据对象1.3 基本的逻辑结构 2 算法效率2.1 时间复杂度2.1.1 循环执行次数2.1.2 大O(n)表示法 2.2 空间复杂度 1 数据结构基础 1.1 什么是程序&#xff1f; ​ 程序 数据结构 &#xff0b; 算…...

⭐算法OJ⭐N-皇后问题 II【回溯剪枝】(C++实现)N-Queens II

⭐算法OJ⭐N-皇后问题【回溯剪枝】&#xff08;C实现&#xff09;N-Queens 问题描述 The n-queens puzzle is the problem of placing n n n queens on an n n n \times n nn chessboard such that no two queens attack each other. Given an integer n, return the num…...

项目管理工具 Maven

目录 1.Maven的概念 1.1​​​​​什么是Maven 1.2什么是依赖管理 1.3什么是项目构建 1.4Maven的应用场景 1.5为什么使用Maven 1.6Maven模型 2.初识Maven 2.1Maven安装 2.1.1安装准备 2.1.2Maven安装目录分析 2.1.3Maven的环境变量 2.2Maven的第一个项目 2.2.1按照约…...

国产编辑器EverEdit - 宏功能介绍

1 宏 1.1 应用场景 宏是一种重复执行简单工作的利器&#xff0c;可以让用户愉快的从繁琐的工作中解放出来&#xff0c;其本质是对键盘和菜单的操作序列的录制&#xff0c;并不会识别文件的内容&#xff0c;属于无差别无脑执行。 特别是对一些有规律的重复按键动作&#xff0c;…...

CODEGEN:一种基于多轮对话的大型语言模型编程合成方法

【摘要】 该论文于ICLR 2023会议上发表,标题为“CODEGEN:用于编程的大型语言模型”,由Salesforce Research团队撰写。论文提出的CODEGEN是一个大型语言模型系列,旨在通过自然语言和编程语言数据进行训练,以实现程序合成。以下是论文的主要贡献和关键发现的总结: 核心贡献…...