当前位置: 首页 > news >正文

深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

阅读笔记如下:

在人工智能领域不断演进的当下,大语言模型(LLM)已成为研究和应用的焦点。2024年,LLM领域专业化趋势愈发明显,除了预训练和微调等基础操作,从检索增强生成(RAG)到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速,第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。
特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向,能够处理复杂任务,展现出独特的价值,著名AI研究者Sebastian Raschka对其进行了深入探讨。

推理模型:定义与应用场景

“推理模型”这一术语在AI领域的定义存在模糊性。在本文中,推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里?”这类事实性问答,无需推理即可解答;而“如果一列火车以60英里/小时的速度行驶3小时,它会行驶多远?”这样的问题,则需要通过识别距离、速度和时间的关系进行推理求解。在这里插入图片描述
图释:常规的 LLM 可能只提供简短的答案(如左图所示),而推理模型通常包括揭示部分思维过程的中间步骤。(请注意,许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。)大多数现代 LLM 都具有基本的推理能力,可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时,它会行驶多远?」这样的问题。因此,今天当我们提到推理模型时,我们通常指的是擅长更复杂推理任务的 LLM,例如解决谜题、谜语和数学证明。
推理模型中的中间步骤可以两种方式出现。第一种,中间步骤可能显式地出现在响应中,如上图所示。第二种,一些推理 LLM(例如 OpenAI o1)则会运行多个迭代,中间步骤对用户来说是不可见的。
在这里插入图片描述

使用「推理」的两个不同层级:1)通过多个中间步骤处理输入和生成结果,2)将某种形式的推理放在响应中提供给用户。

推理模型擅长处理复杂任务,如谜题、高级数学和编程难题等。在这些场景中,模型通过演绎或归纳推理、思维链推理,分解多步骤问题,做出复杂决策,并且能更好地泛化到新问题。不过,推理模型也存在局限性,在这里插入图片描述
在处理简单任务时,可能会因“过度思考”导致效率低下、成本增加,还可能在基于知识的任务中出现“幻觉”现象。

DeepSeek R1:训练流程与模型变体

DeepSeek发布的R1系列推理模型包含三个变体:DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3(671B)基础模型,每个变体都经历了不同的训练阶段。
根据其技术报告中的描述的模型的开发过程。
在这里插入图片描述

  • DeepSeek - R1 - Zero:基于2024年12月发布的671B预训练版DeepSeek - V3,采用“冷启动”训练方式,仅使用强化学习(RL),跳过监督微调(SFT)步骤。训练过程中设置了准确度奖励和格式奖励,准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应;格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。
  • DeepSeek - R1:以DeepSeek - R1 - Zero为基础,增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调,后续的RL阶段除保留准确度和格式奖励外,还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练,DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。
  • DeepSeek - R1 - Distill:利用训练DeepSeek - R1过程中生成的SFT数据,对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”,虽不同于传统深度学习中的知识蒸馏,但能提升小模型的推理能力。小模型效率更高,可在低端硬件上运行,同时也为纯监督微调(SFT)的研究提供了案例。
为什么他们开发了这些蒸馏模型?

有两个关键原因:

  1. 小型模型更高效。这意味着它们运行成本更低,但它们也可以在低端硬件上运行,这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。
  2. 纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准,展示了纯监督微调(SFT)在不使用强化学习的情况下可以将模型带到多远。
    在这里插入图片描述
    蒸馏后的模型明显弱于 DeepSeek-R1,但与 DeepSeek-R1-Zero 相比,它们却出奇地强大,尽管规模小了几个数量级。值得注意的是,这些模型与 o1 mini 相比,表现非常好

DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点,他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果,其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型(我认为训练细节从未披露过)。此比较提供了一些额外的洞察,即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。
在这里插入图片描述

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 更有效。这与以下观点一致:单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力,而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

  1. Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比可以取得多大的改进。
  2. DeepSeek-V3 使用纯 SFT 进行训练,与创建蒸馏模型的方式类似。这样可以直接比较,看看 RL + SFT 相对于纯 SFT 的效果如何。

构建推理模型的四大方法

当前,增强LLM推理能力、构建推理模型的方法主要有以下四种:

  1. 推理时间扩展:在推理过程中增加计算资源提升输出质量。思维链(CoT)提示方法是典型应用,在提示词中加入“think step by step”等短语,鼓励模型生成中间推理步骤,提高复杂问题的解答准确率。此外,投票和搜索策略也属于推理时间扩展,如多数投票让模型生成多个答案,通过投票选择正确结果;集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法,但它常在LLM应用层实现,OpenAI的o1和o3模型可能运用了此技术,这也解释了其成本较高的原因。
  2. 纯RL:DeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同,它跳过SFT阶段,仅依靠RL训练,并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型,但它展现出推理能力,证实了纯RL开发推理模型的可行性。
  3. 监督微调加强化学习(SFT + RL):这是构建高性能推理模型的关键方法,DeepSeek - R1的开发就是典型案例。在这里插入图片描述
    在RL之前进行SFT,利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型,后续的RL阶段添加一致性奖励,再经过多轮SFT数据收集和RL训练,有效提升了模型性能。OpenAI o1很可能也采用了类似方法。
  4. 纯监督微调(SFT)和蒸馏:DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调,开发出蒸馏模型。这些小模型效率更高,可作为纯SFT的研究基准。实验表明,对于较小模型,蒸馏比纯RL更有效,高质量推理数据的SFT在小模型应用中是更优策略。

对DeepSeek R1的综合评价

DeepSeek R1系列模型是AI领域的重要成果,其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目,并且模型遵循宽松的MIT开源许可证开源,具有积极的推动意义。

与OpenAI的o1相比,DeepSeek - R1在推理时间上更高效,但由于OpenAI未充分披露o1的信息,如是否为混合专家(MoE)模型、模型规模大小以及训练方式细节等,两者难以直接比较。

关于DeepSeek - R1的训练成本,虽有600万美元的估算,但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆,DeepSeek团队并未透露R1的具体成本,目前的估算均为猜测。

启示性的工作:有限预算下的推理模型开发

开发如DeepSeek - R1级别的推理模型成本高昂,不过,模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。

DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能,尽管蒸馏过程也需要大量计算资源。

Sky - T1项目:

仅用17K的SFT样本、450美元的GPU成本,训练出表现与OpenAI o1大致相当的32B模型,展示了小样本、低成本微调的潜力。在这里插入图片描述
图源:《Sky-T1:在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/

纯 RL 的:TinyZero

在纯RL领域,TinyZero项目以不到30美元的成本训练出3B参数模型,该模型展现出自我验证能力,支持了小模型通过纯RL涌现推理能力的观点。在这里插入图片描述

超越传统 SFT:旅程学习

此外,“旅程学习”方法为推理模型开发提供了新思路。它用错误的解决路径训练模型,让模型从错误中学习,增强自我修正能力,有望提升推理模型的可靠性,尤其适用于低预算的推理模型开发场景。
在这里插入图片描述

推理模型领域正处于快速发展阶段,各种创新方法不断涌现。无论是大模型的优化,还是小模型在有限预算下的突破,都为AI技术的进步注入了活力。在未来,我们有望看到更多令人惊喜的研究成果和应用突破。

相关文章:

深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是…...

linux中top命令详解

linux中top命令详解 top 是 Linux 中用于实时监控系统资源使用情况的命令,显示包括 CPU、内存、进程等信息的动态视图。以下是 top 命令的详细说明: 命令格式 top [选项] 常用选项 -d:设置刷新间隔时间(秒)。 -n&am…...

前端包管理器的发展以及Npm、Yarn和Pnpm对比

在现代前端开发中,包管理器是不可或缺的核心工具。随着 JavaScript 生态的快速发展,开发者经历了从 npm 一统天下到 Yarn 挑战格局,再到 pnpm 创新突破的技术演进。这里将对三种主流包管理器(npm/Yarn/pnpm)进行全方位…...

node.js+兰空图床实现随机图

之前博客一直用的公共的随机图API,虽然图片的质量都挺不错的,但是稳定性都比较一般,遂打算使用之前部署的兰空图床,自己弄一个随机图 本文章服务器操作基于雨云——新一代云服务提供商的云服务器进行操作,有兴趣的话可…...

【MySQL】高频 SQL 50 题(基础版)

高频SQL50题(基础版) 1.查询 2.连接 MySQL多表查询(联合查询、连接查询、子查询) left join 左连接 我们首先执行LEFT JOIN操作,将两个表的数据基于 id 列进行组合。同样,我们使用 LEFT JOIN 来确保将所…...

盛铂科技 SMF106 低相位噪声贴片式频率综合器模块

在现代通信和电子设备领域,频率综合器作为关键组件,其性能优劣直接影响系统的整体表现。盛铂科技的 SMF106 低相位噪声贴片式频率综合器,以其卓越的性能和独特设计,成为众多高性能系统的选择。 一、频率覆盖范围广,步进…...

C语言如何实现面向对象?——从结构体到自由函数的思考

1. 问题的背景 面向对象编程(OOP)是一种广泛使用的编程范式,其核心思想包括封装、继承和多态。C、Java等语言原生支持OOP,但C语言作为一门面向过程的语言,是否也能实现面向对象?如果可以,如何实…...

深入探索C语言中的字符串处理函数:strstr与strtok

在C语言的字符串处理领域, strstr 和 strtok 是两个非常重要的函数,它们各自承担着独特的功能,为开发者处理字符串提供了强大的支持。 一、strstr函数:字符串查找的利器 strstr 函数用于在一个字符串中查找另一个字符串的首次出现…...

浅聊Docker使用、部署

在Java面试中,当被问到关于Docker中间件的使用、部署及在实际项目中的考虑时,可以按照以下结构和内容来详细回答: 一、Docker中间件的使用 1. Docker是什么? Docker是一个开源平台,允许开发者将应用程序及其依赖项打…...

jenkins war Windows安装

Windows安装Jenkins 需求1.下载jenkins.war2.编写快速运行脚本3.启动Jenkins4.Jenkins使用 需求 1.支持在Windows下便捷运行Jenkins; 2.支持自定义启动参数; 3.有快速运行的脚步样板。 1.下载jenkins.war Jenkins下载地址:https://get.j…...

学习数据结构(9)栈和队列上

1.栈的概念 栈是一种特殊的线性表,只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作 的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出(先进先出)的原则 栈的插入操作叫做进栈/压栈/入栈&#xff…...

【git-hub项目:YOLOs-CPP】本地实现03:跑自己的实例分割模型

本节博客,我们继续讲解,如何在cpu+windows上,跑通自己的实例分割模型。 目录 模型 类别名称 量化 导出模型 拉取最新代码 进入官网ultralytics 模型 该项目包括存储在 models 和 quantized_models 目录中的各种预训练标准 YOLO 模型: 模型类型模型名称标准模型yolo5…...

MySQL和SQL server的区别

在当今数据驱动的世界里,数据库技术的选择对于企业和个人开发者来说至关重要。MySQL 和 SQL Server 是两个广泛使用的数据库管理系统(DBMS),它们各自拥有独特的优势和适用场景。本文将深入探讨这两个数据库系统之间的区别&#xf…...

C#运动控制——轴IO映射

1、IO映射的作用 该功能允许用户对专用 IO 信号的硬件输入接口进行任意配置,比如轴的急停信号,通过映射以后,可以将所有轴的急停信号映射到某一个IO输入口上,这样,我们只要让一个IO信号有效就可以触发所有轴的急停。 进…...

DeepSeek官方发布R1模型推荐设置

今年以来,DeepSeek便在AI领域独占鳌头,热度一骑绝尘。其官方App更是创造了惊人纪录,成为史上最快突破3000万日活的应用,这一成绩无疑彰显了它在大众中的超高人气与强大吸引力。一时间,各大AI及云服务厂商纷纷投身其中&…...

DeepSeek教unity------MessagePack-03

数据契约兼容性 你可以使用 [DataContract] 注解代替 [MessagePackObject]。如果类型用 DataContract 进行注解,可以使用 [DataMember] 注解代替 [Key],并使用 [IgnoreDataMember] 代替 [IgnoreMember]。 然后,[DataMember(Order int)] 的…...

《安富莱嵌入式周报》第350期:Google开源Pebble智能手表,开源模块化机器人平台,开源万用表,支持10GHz HRTIM的单片机,开源CNC控制器

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版: https://www.bilibili.com/video/BV1YPKEeyEeM/ 《安富莱嵌入式周报》第350期:Google开…...

img标签的title和alt

img标签的title和alt 显示上 title:鼠标移入到图片上时候显示的内容&#xff1b; alt:图片无法加载时候显示的内容; <div class"box"><div><!-- title --><h3>title</h3><img src"./image/poster.jpg" title"这是封…...

MambaMorph brain MR-CT

loss代码实现了几种用于医学图像配准(Registration)和分割(Segmentation)任务的损失函数,主要包括以下几种: NCC (Normalized Cross-Correlation): 功能: 计算局部归一化互相关损失,用于衡量两个图像之间的相似性。 应用场景: 通常用于图像配准任务,通过最大化图像之间…...

小米 R3G 路由器(Pandavan)实现网络打印机功能

小米 R3G 路由器&#xff08;Pandavan&#xff09;实现网络打印机功能 一、前言 家中有多台 PC 设备需要打印服务&#xff0c;但苦于家中的 Epson L380 打印机没有网络打印功能&#xff0c;并且配置 Windows 共享打印机实在是过于繁琐且需要共享机保持唤醒状态过于费电。想到…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中&#xff0c;iftop是网络管理的得力助手&#xff0c;能实时监控网络流量、连接情况等&#xff0c;帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时&#xff0c;需结合业务场景设计数据流转链路&#xff0c;重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点&#xff1a; 一、核心对接场景与目标 商品数据同步 场景&#xff1a;将1688商品信息…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时&#xff0c;你可能需要保留重要的数据&#xff0c;例如通讯录。好在&#xff0c;将通讯录从 iPhone 转移到 Android 手机非常简单&#xff0c;你可以从本文中学习 6 种可靠的方法&#xff0c;确保随时保持连接&#xff0c;不错过任何信息。 第 1…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备 ​​工具安装​​&#xff1a; 下载安装DevEco Studio 4.0&#xff08;支持HarmonyOS 5&#xff09;配置HarmonyOS SDK 5.0确保Node.js版本≥14 ​​项目初始化​​&#xff1a; ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章 参考资料 源码&#xff1a; https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现&#xff08;两者等价&#xff09;&#xff0c;用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例&#xff1a; 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理

引言 Bitmap&#xff08;位图&#xff09;是Android应用内存占用的“头号杀手”。一张1080P&#xff08;1920x1080&#xff09;的图片以ARGB_8888格式加载时&#xff0c;内存占用高达8MB&#xff08;192010804字节&#xff09;。据统计&#xff0c;超过60%的应用OOM崩溃与Bitm…...

视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)

前言&#xff1a; 最近在做行为检测相关的模型&#xff0c;用的是时空图卷积网络&#xff08;STGCN&#xff09;&#xff0c;但原有kinetic-400数据集数据质量较低&#xff0c;需要进行细粒度的标注&#xff0c;同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...