当前位置: 首页 > article >正文

深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

阅读笔记如下:

在人工智能领域不断演进的当下,大语言模型(LLM)已成为研究和应用的焦点。2024年,LLM领域专业化趋势愈发明显,除了预训练和微调等基础操作,从检索增强生成(RAG)到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速,第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。
特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向,能够处理复杂任务,展现出独特的价值,著名AI研究者Sebastian Raschka对其进行了深入探讨。

推理模型:定义与应用场景

“推理模型”这一术语在AI领域的定义存在模糊性。在本文中,推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里?”这类事实性问答,无需推理即可解答;而“如果一列火车以60英里/小时的速度行驶3小时,它会行驶多远?”这样的问题,则需要通过识别距离、速度和时间的关系进行推理求解。在这里插入图片描述
图释:常规的 LLM 可能只提供简短的答案(如左图所示),而推理模型通常包括揭示部分思维过程的中间步骤。(请注意,许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。)大多数现代 LLM 都具有基本的推理能力,可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时,它会行驶多远?」这样的问题。因此,今天当我们提到推理模型时,我们通常指的是擅长更复杂推理任务的 LLM,例如解决谜题、谜语和数学证明。
推理模型中的中间步骤可以两种方式出现。第一种,中间步骤可能显式地出现在响应中,如上图所示。第二种,一些推理 LLM(例如 OpenAI o1)则会运行多个迭代,中间步骤对用户来说是不可见的。
在这里插入图片描述

使用「推理」的两个不同层级:1)通过多个中间步骤处理输入和生成结果,2)将某种形式的推理放在响应中提供给用户。

推理模型擅长处理复杂任务,如谜题、高级数学和编程难题等。在这些场景中,模型通过演绎或归纳推理、思维链推理,分解多步骤问题,做出复杂决策,并且能更好地泛化到新问题。不过,推理模型也存在局限性,在这里插入图片描述
在处理简单任务时,可能会因“过度思考”导致效率低下、成本增加,还可能在基于知识的任务中出现“幻觉”现象。

DeepSeek R1:训练流程与模型变体

DeepSeek发布的R1系列推理模型包含三个变体:DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3(671B)基础模型,每个变体都经历了不同的训练阶段。
根据其技术报告中的描述的模型的开发过程。
在这里插入图片描述

  • DeepSeek - R1 - Zero:基于2024年12月发布的671B预训练版DeepSeek - V3,采用“冷启动”训练方式,仅使用强化学习(RL),跳过监督微调(SFT)步骤。训练过程中设置了准确度奖励和格式奖励,准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应;格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。
  • DeepSeek - R1:以DeepSeek - R1 - Zero为基础,增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调,后续的RL阶段除保留准确度和格式奖励外,还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练,DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。
  • DeepSeek - R1 - Distill:利用训练DeepSeek - R1过程中生成的SFT数据,对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”,虽不同于传统深度学习中的知识蒸馏,但能提升小模型的推理能力。小模型效率更高,可在低端硬件上运行,同时也为纯监督微调(SFT)的研究提供了案例。
为什么他们开发了这些蒸馏模型?

有两个关键原因:

  1. 小型模型更高效。这意味着它们运行成本更低,但它们也可以在低端硬件上运行,这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。
  2. 纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准,展示了纯监督微调(SFT)在不使用强化学习的情况下可以将模型带到多远。
    在这里插入图片描述
    蒸馏后的模型明显弱于 DeepSeek-R1,但与 DeepSeek-R1-Zero 相比,它们却出奇地强大,尽管规模小了几个数量级。值得注意的是,这些模型与 o1 mini 相比,表现非常好

DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点,他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果,其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型(我认为训练细节从未披露过)。此比较提供了一些额外的洞察,即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。
在这里插入图片描述

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 更有效。这与以下观点一致:单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力,而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

  1. Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比可以取得多大的改进。
  2. DeepSeek-V3 使用纯 SFT 进行训练,与创建蒸馏模型的方式类似。这样可以直接比较,看看 RL + SFT 相对于纯 SFT 的效果如何。

构建推理模型的四大方法

当前,增强LLM推理能力、构建推理模型的方法主要有以下四种:

  1. 推理时间扩展:在推理过程中增加计算资源提升输出质量。思维链(CoT)提示方法是典型应用,在提示词中加入“think step by step”等短语,鼓励模型生成中间推理步骤,提高复杂问题的解答准确率。此外,投票和搜索策略也属于推理时间扩展,如多数投票让模型生成多个答案,通过投票选择正确结果;集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法,但它常在LLM应用层实现,OpenAI的o1和o3模型可能运用了此技术,这也解释了其成本较高的原因。
  2. 纯RL:DeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同,它跳过SFT阶段,仅依靠RL训练,并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型,但它展现出推理能力,证实了纯RL开发推理模型的可行性。
  3. 监督微调加强化学习(SFT + RL):这是构建高性能推理模型的关键方法,DeepSeek - R1的开发就是典型案例。在这里插入图片描述
    在RL之前进行SFT,利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型,后续的RL阶段添加一致性奖励,再经过多轮SFT数据收集和RL训练,有效提升了模型性能。OpenAI o1很可能也采用了类似方法。
  4. 纯监督微调(SFT)和蒸馏:DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调,开发出蒸馏模型。这些小模型效率更高,可作为纯SFT的研究基准。实验表明,对于较小模型,蒸馏比纯RL更有效,高质量推理数据的SFT在小模型应用中是更优策略。

对DeepSeek R1的综合评价

DeepSeek R1系列模型是AI领域的重要成果,其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目,并且模型遵循宽松的MIT开源许可证开源,具有积极的推动意义。

与OpenAI的o1相比,DeepSeek - R1在推理时间上更高效,但由于OpenAI未充分披露o1的信息,如是否为混合专家(MoE)模型、模型规模大小以及训练方式细节等,两者难以直接比较。

关于DeepSeek - R1的训练成本,虽有600万美元的估算,但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆,DeepSeek团队并未透露R1的具体成本,目前的估算均为猜测。

启示性的工作:有限预算下的推理模型开发

开发如DeepSeek - R1级别的推理模型成本高昂,不过,模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。

DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能,尽管蒸馏过程也需要大量计算资源。

Sky - T1项目:

仅用17K的SFT样本、450美元的GPU成本,训练出表现与OpenAI o1大致相当的32B模型,展示了小样本、低成本微调的潜力。在这里插入图片描述
图源:《Sky-T1:在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/

纯 RL 的:TinyZero

在纯RL领域,TinyZero项目以不到30美元的成本训练出3B参数模型,该模型展现出自我验证能力,支持了小模型通过纯RL涌现推理能力的观点。在这里插入图片描述

超越传统 SFT:旅程学习

此外,“旅程学习”方法为推理模型开发提供了新思路。它用错误的解决路径训练模型,让模型从错误中学习,增强自我修正能力,有望提升推理模型的可靠性,尤其适用于低预算的推理模型开发场景。
在这里插入图片描述

推理模型领域正处于快速发展阶段,各种创新方法不断涌现。无论是大模型的优化,还是小模型在有限预算下的突破,都为AI技术的进步注入了活力。在未来,我们有望看到更多令人惊喜的研究成果和应用突破。

相关文章:

深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是…...

有哪些滤波,原理是什么,分别在什么时候用

均值滤波(Average Filtering) 原理:通过计算像素点邻域内像素值的平均值来作为该像素点滤波后的新值。例如,对于一个 3x3 的邻域,将 9 个像素值相加然后除以 9 得到滤波后的像素值。优点:简单易实现&#x…...

小初高各学科教材,PDF电子版下载

链接:https://pan.quark.cn/s/7c2125f648e2 小初高中电子课本资料pdf合集 高中各科教材 (部分举例) - 语文:新人教版、旧人教版、苏教版等 - 数学:人教A版、沪教版、鄂教版等 - 英语:重大版、人教版…...

Kafka分区管理大师指南:扩容、均衡、迁移与限流全解析

#作者:孙德新 文章目录 分区分配操作(kafka-reassign-partitions.sh)1.1 分区扩容、数据均衡、迁移(kafka-reassign-partitions.sh)1.2、修改topic分区partition的副本数(扩缩容副本)1.3、Partition Reassign场景限流1.4、节点内副本移动到不…...

java后端开发day14--之前练习的总结和思考

1.感受 这两天学点儿新的就直接上手打代码,真的是累死个人。我唯一的感受就是,课听完了,代码也跟着打完了(是的,跟着打的,没自己打),感觉自己脑袋里乱乱的,对代码的分区…...

[运输时间]

运输时间 真题目录: 点击去查看 E 卷 200分题型 题目描述 M(1 ≤ M ≤ 20)辆车需要在一条不能超车的单行道到达终点,起点到终点的距离为 N(1 ≤ N ≤ 400)。 速度快的车追上前车后,只能以前车的速度继续行驶,求最后一辆车到达目的地花费的时间。 注:每辆车固定间隔…...

【愚公系列】《Python网络爬虫从入门到精通》008-正则表达式基础

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。近期荣誉2022年度…...

理解 WebGPU 中的 GPUQueue:GPU 的命令队列

在现代图形编程中,与 GPU 的交互变得越来越高效和灵活,而 WebGPU API 的出现更是为 Web 开发者带来了强大的图形处理能力。其中, GPUQueue 作为 WebGPU 的核心接口之一,扮演着至关重要的角色。本文将详细介绍 GPUQueue 的概…...

AIoT时代来临,物联网技术如何颠覆未来生活?

在这个万物互联的时代,“物联网”(IoT)正以前所未有的速度改变我们的生活,而“AIoT”则是在物联网基础上融入人工智能技术,赋予设备更高的智能和自主决策能力。随着5G、边缘计算和云技术的不断发展,物联网正…...

基于SpringBoot的电影院售票管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...

CanMV的刷新比Openmv强

今天使用CanMV k230的板子,发现CanMV的刷新比Openmv强,速度快,不用再次拍照刷新,写一次就能在ide屏幕上同时显示。 参考一下CanMV K230拍照保存Demo - CanMV(K210 / K230) - 01科技 | 01Studio Takephot(…...

深度学习与人工智能:解锁未来的无限可能

在当今这个科技飞速发展的时代,深度学习和人工智能已不再只是科幻小说中的概念,它们正以惊人的速度渗透到我们生活的方方面面,从智能手机上的语音助手到医疗领域的疾病诊断,从自动驾驶汽车到金融市场的风险预测,其影响…...

广东茂名能源国际会议(IS-ESE 2025)

能源科学与工程国际研讨会(IS-ESE 2025)将于4月18-20日中国茂名召开,聚焦能源科学与工程,录用文章将由IOP出版并提交EI索引,旨在促进国际合作与交流,诚邀海内外专家学者参会。 征稿主题集中但不限于“能源…...

2025年02月14日Github流行趋势

项目名称:data-formulator 项目地址url:https://github.com/microsoft/data-formulator项目语言:TypeScript历史star数:5921今日star数:820项目维护者:Chenglong-MS, danmarshall, apps/dependabot, micros…...

MySQL-SQL

1.客户端内置命令 客户端内置命令客户端独有,可能不同数据库产品的客户端内置命令存在很大差异,不像SQL命令有标准规范。 help \h ? \? 这四个命令都可以输出帮助文档查看客户端内置命令 ?(\?)“帮助”…...

华为云+硅基流动使用Chatbox接入DeepSeek-R1满血版671B

华为云硅基流动使用Chatbox接入DeepSeek-R1满血版671B 硅基流动 1.1 注册登录 1.2 实名认证 1.3 创建API密钥 1.4 客户端工具 OllamaChatboxCherry StudioAnythingLLM 资源包下载: AI聊天本地客户端 接入Chatbox客户端 点击设置 选择SiliconFloW API 粘贴1.3创…...

一文详解机器视觉环形光源,视觉检测中的环形光源应用

环形光源 是机器视觉系统中常用的一种照明设备,通常用于提供均匀、无阴影的照明,特别适合检测物体的表面特征、边缘和轮廓。以下是关于环形光源的详细介绍: 环形光源的结构与特点 结构:环形光源由多个 LED 灯珠均匀排列成环形,通常安装在相机镜头周围。 光源的内径和外径…...

动态建表并插入数据

Service层根据解析到的数据在Mysql数据库中动态建表并插入数据 以Easy Excel解析得到的文件为例 Slf4j Service public class ExcelImportServiceImpl implements ExcelImportService {Autowired private ExcelImportDao dao; Value("${source.url}") private Stri…...

【github】docker realtime

Linux和Docker实时指南,适用于Ubuntu实时内核和PREEMPT_RT ReadMe.md 作者:Tobit Flatscher(2021 - 2024) 概述 本指南解释了如何在Linux操作系统内开发/部署运行实时代码的Docker容器。因此,它会带你了解&#xf…...

MySQL官网驱动下载(jar包驱动和ODBC驱动)【详细教程】

1.打开MySQL的官网,选择下载(Download) MySQL[这里是图片001]https://www.mysql.com/cn/ 2.往下划点击MySQL Community(GPL)Downloads 3.要下载MySQL的jar包的选择Connector/J 4.进入后,根据自己的需求选择相应的版本 5.下载完成后,进行解压…...

jenkins服务启动-排错

服务状态为active (exited) 且进程不在 查看/etc/rc.d/init.d/jenkins配置 获取配置参数 [rootfy-jenkins-prod jenkins]# cat /etc/rc.d/init.d/jenkins | grep -v #JENKINS_WAR"/usr/lib/jenkins/jenkins.war" test -r "$JENKINS_WAR" || { echo "…...

JavaScript设计模式 -- 适配器模式

在软件开发中,经常会遇到这样的情况:现有的类或第三方库提供的接口与系统中期望的接口不匹配。如果直接修改已有代码风险较大或者不可行,这时适配器模式(Adapter Pattern)就能派上用场。适配器模式通过创建一个包装类&…...

Redis7.0八种数据结构底层原理

导读 本文介绍redis应用数据结构与物理存储结构,共八种应用数据结构和 一. 内部数据结构 1. sds sds是redis自己设计的字符串结构有以下特点: jemalloc内存管理预分配冗余空间二进制安全(c原生使用\0作为结尾标识,所以无法直接存储\0)动态计数类型(根据字符串长度动态选择…...

细说STM32F407单片机RTC的备份寄存器原理及使用方法

目录 一、备份寄存器的功能 二、示例功能 三、项目设置 1、晶振、DEBUG、CodeGenerator、USART6 2、RTC 3、NVIC 4、GPIO 及KEYLED 四、软件设计 1、main.h 2、main.c 3、rtc.c 4、keyled.c、keyled.h 五、运行调试 本实例旨在介绍备份寄存器的作用。本实例继续使…...

spring 学习 (注解)

目录 前言 常用的注解 须知 1 Conponent注解 demo(案例) 2 ControllerServiceRepository demo(案例) 3 ScopeLazyPostConstructPreDestroy demo(案例) 4 ValueAutowiredQualifierResource demo(案例) 5 Co…...

html+css设计情人节网页制作主页页面

制作一个情人节主题的网页主页是一个有趣的项目。以下是一个简单的HTML和CSS示例,帮助你开始。这个示例包括一个基本的情人节主题网页,包含标题、一些浪漫的背景图像、以及一些情人节相关的内容。 HTML部分 <!DOCTYPE html> <html lang="zh-CN"> <…...

【Linux】多线程 -> 从线程概念到线程控制

线程概念 在一个程序里的一个执行路线就叫做线程&#xff08;thread&#xff09;。更准确的定义是&#xff1a;线程是“一个进程内部的控制序列”。一切进程至少都有一个执行线程。线程在进程内部运行&#xff0c;本质是在进程地址空间内运行。在Linux系统中&#xff0c;在CPU眼…...

mapbox 从入门到精通 - 目录

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;mapbox 从入门到精通 文章目录 一、&#x1f340;总目录1.1 ☘️ mapbox基础1.2 ☘️…...

深度学习在半导体领域的创新点研究

摘要&#xff1a;本论文聚焦于深度学习在半导体领域的创新应用&#xff0c;全面剖析其为半导体产业带来的变革与机遇。通过深入探究深度学习在半导体设计、制造、测试及质量管控等多方面的创新实践&#xff0c;揭示其对提升半导体性能、降低成本及增强产业竞争力的关键作用。同…...

谈谈云计算、DeepSeek和哪吒

我不会硬蹭热点&#xff0c;去分析自己不擅长的跨专业内容&#xff0c;本文谈DeepSeek和哪吒&#xff0c;都是以这两个热点为引子&#xff0c;最终仍然在分析的云计算。 这只是个散文随笔&#xff0c;没有严谨的上下游关联关系&#xff0c;想到哪里就写到哪里。 “人心中的成见…...