当前位置: 首页 > news >正文

【推理llm论文精度】DeepSeek-R1:强化学习驱动LLM推理能力飞跃

最近deepseek R1模型大火,正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来,大型语言模型(LLM)在推理能力上取得了显著进展,但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文,探索了**强化学习(RL)**在激发LLM推理潜力方面的新方法,并开源了模型和相关资源。

一、背景:后训练与推理能力提升(提出问题:如何超越openai的o1模型)

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放思维链(CoT),在推理任务上取得突破。然而,如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法,但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性,关注LLM在无监督数据下的自我进化

二、DeepSeek-R1-Zero:从零开始的纯RL探索(利器1: RL引导V3模型出现自我进化)

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型,完全不依赖监督微调(SFT),直接在 DeepSeek-V3-Base 上应用RL。

RL算法:GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法,节省RL训练成本。GRPO避免了传统的评论员模型,通过组得分估计基线,目标函数如下:

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型:规则驱动

奖励模型采用规则驱动方式,包含:

  • 准确率奖励:评估答案正确性,规则驱动验证。
  • 格式奖励:强制模型思考过程置于<think></think>标签内。

训练模版:引导思考

训练模版引导模型先输出思考过程,再给出答案,结构如下:

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力,推理能力随RL训练稳步提升。在AIME 2024测试中,pass@1分数从15.6%跃升至71.0%,媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**,模型学会分配更多思考时间,提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差语言混合问题。

三、DeepSeek-R1:冷启动与多阶段RL(利器2:多阶段训练,推理能力起飞,瞬间兼顾通用能力)

DeepSeek-R1在Zero基础上,引入冷启动数据多阶段训练,旨在提升性能并解决Zero的局限性。

  1. 冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调,作为RL初始actor,提升训练稳定性。冷启动数据强调可读性,采用格式 | special_token | <reasoning_process> | special_token | <summary>

  1. 推理导向RL

在冷启动微调后,进行与Zero相同的RL训练,重点增强推理能力。引入语言一致性奖励,缓解语言混合问题,最终奖励结合准确率和语言一致性。

  1. 拒绝采样与SFT

RL收敛后,使用checkpoint收集SFT数据,扩展到写作、角色扮演等通用任务,提升模型泛化能力。SFT数据包括:

  • 推理数据:拒绝采样生成,包含生成奖励模型辅助判断的数据,过滤低质量CoT。
  • 非推理数据:复用DeepSeek-V3 pipeline和SFT数据,少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

  1. 面向所有场景的RL

二次RL阶段,提升模型的helpfulnessharmlessness。结合规则驱动(推理数据)和奖励模型(通用数据),训练目标兼顾推理能力和安全对齐。

四、蒸馏:赋予小型模型推理能力(不止拉升自己模型推理能力,顺便提拉一下同行)

为使小型模型具备推理能力,DeepSeek-AI采用蒸馏技术,使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明,蒸馏显著提升小型模型推理能力,例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型,仅SFT,未包含RL阶段,旨在展示蒸馏有效性。

实验评估

DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估,并与主流模型对比。

DeepSeek-R1评估结果

  • 知识型基准:优于DeepSeek-V3,STEM问题提升显著。
  • 长文本QA (FRAMES):表现出色,文档分析能力强。
  • 事实性QA (SimpleQA):优于DeepSeek-V3。
  • 指令遵循 (IF-Eval):表现出色,归功于SFT和RL阶段的指令数据。
  • 开放域问答 (AlpacaEval & ArenaHard):卓越性能,写作能力强,大规模RL提升泛化能力。
  • 数学 & 代码任务:媲美OpenAI-01-1217,大幅超越其他模型。

蒸馏模型评估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513,DeepSeek-R1-14B超越QwQ-32B-PreviewDeepSeek-R1-32B/70B显著超越o1-mini,证明蒸馏潜力巨大。
在这里插入图片描述

讨论:蒸馏 vs. 强化学习

实验对比了蒸馏模型和RL训练模型。结果表明,蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B,即使后者经过大规模RL训练。

结论:

  1. 蒸馏更强大模型到小型模型效果显著,纯RL小型模型计算成本高,性能可能不及蒸馏。
  2. 蒸馏经济有效,但突破智能边界可能仍需更强基础模型和更大规模RL

结论与创新贡献

DeepSeek-R1研究探索了RL提升LLM推理能力,DeepSeek-R1-Zero验证了纯RL潜力,DeepSeek-R1通过冷启动和多阶段训练进一步提升性能,并通过蒸馏赋予小型模型推理能力。

文章创新点和贡献:

  1. 公开纯RL如何提升LLM推理能力:首次公开验证纯RL无需SFT即可激励LLM推理能力,解开o1模型面纱。
  2. 更强的模型,更低的成本,还是开源的:多多少少有点针对openai,不不不,是close ai
  3. 核心点
  • DeepSeek-R1多阶段训练流程:有效提升推理能力、可读性和通用性。(DeepSeek来告诉世界,推理能力要怎么训出来)
  • 证明蒸馏技术传递推理能力:蒸馏可高效赋予小型模型高性能推理能力。(普遍使用,老少兼宜)

相关文章:

【推理llm论文精度】DeepSeek-R1:强化学习驱动LLM推理能力飞跃

最近deepseek R1模型大火&#xff0c;正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948 近年来&#xff0c;大型语言模型&#xff08;LLM&#xff09;在推理能力上取得了显著进展&#xff0c;但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepS…...

arm linux下的中断处理过程。

本文基于ast2600 soc来阐述&#xff0c;内核版本为5.10 1.中断gic初始化 start_kernel() -> init_IRQ() -> irqchip_init() of_irq_init()主要是构建of_intc_desc. 489-514: 从__irqchip_of_table中找到dts node中匹配的of_table(匹配matches->compatible)&#xf…...

C语言:指针详解

C语言&#xff1a;指针详解 1&#xff1a;指针的基本概念1&#xff1a;什么是指针2&#xff1a;为什么要引入指针3&#xff1a;指针的作用4&#xff1a;指针的类型 2&#xff1a;指针的声明与初始化1&#xff1a; 指针的声明2&#xff1a; 指针的初始化 3&#xff1a;指针的操作…...

github用户名密码登陆失效了

问题&#xff1a; git push突然推代码需要登陆&#xff0c;但是用户名和密码正确输入后&#xff0c;却提示403 git push# Username for https://github.com: **** #Password for https://gyp-programmergithub.com: #remote: Permission to gyp-programmer/my-app.git denie…...

【删除tomcat默认管理控制台】

停止Tomcat&#xff1a; ./catalina.sh stop 删除管理控制台应用&#xff1a; 进入Tomcat的webapps目录&#xff1a; cd /path/to/tomcat/webapps List item 删除manager和host-manager文件夹&#xff1a; rm -rf manager host-manager 启动Tomcat&#xff1a; ./catali…...

动态库与静态库:深入解析与应用

在软件开发中&#xff0c;库&#xff08;Library&#xff09;是预编译的代码集合&#xff0c;用于在多个程序之间共享功能。根据链接方式的不同&#xff0c;库主要分为两种类型&#xff1a;静态库&#xff08;Static Library&#xff09; 和 动态库&#xff08;Dynamic Library…...

【鱼眼镜头12】Scaramuzza的鱼眼相机模型实操,不依赖于具体的相机几何结构,直接从图像数据出发,因此更具灵活性。

文章目录 Scaramuzza相机模型标定效果2、原理和代码代码1、 2D映射到3D&#xff0c;函数输入为2D点坐标OCAM参数代码功能详解2、3D --> 2D 3、总结Scaramuzza 模型的核心思想Scaramuzza 模型的核心思想与 Kannala-Brandt 模型的对比Scaramuzza 模型的独特之处Scaramuzza 的意…...

LVS 负载均衡集群(NAT模式)

一、环境准备 四台主机&#xff08;一台 LVS、两台 RS、一台客户端&#xff09; 注意每个虚拟机都需要关闭防火墙和 selinux 1.1.LVS 主机 LVS 主机&#xff08;两块网卡&#xff09; 第一块&#xff1a;NAT模式&#xff08;内网&#xff09; 第二块&#xff1a;添加网卡&am…...

MATLAB中的APPdesigner绘制多图问题解析?与逻辑值转成十进制

在matlab APPdesigner中绘图可以用UIAxes组件进行绘图&#xff0c;但是当想多张图时&#xff0c;只能提前绘制图像区域不方便。下面是几种办法&#xff1a; 为了操作可以添加Panl组件&#xff0c;方便操作。 1、当是要求的几个图像大小都是相同时刻采用函数&#xff1a; til…...

9种慢慢被淘汰的编程语言...

技术不断进步&#xff0c;我们使用的编程语言也不例外。 随着人工智能的兴起以及对编程语言使用的影响&#xff0c;我们更加关注哪些语言将在未来继续流行&#xff0c;哪些会被淘汰。 Python、Java 和 JavaScript 等多功能编程语言正在主导市场&#xff0c;而其他一些语言则逐…...

vue知识点5

1.如何让组件里的样式与其他组件互相不干扰 scope范围的意思 <style scope> </style> 2.vue的生命周期 创建 挂载 更新 销毁 3.vue的四个生命周期详解 创建beforeCreate,created 挂载 beforeMount,mounted 更新 beforeUpdate,updated 销毁 beforeDest…...

rdiff-backup备份

目录 1. 服务器备份知识点 1.1 备份策略 1.2 备份步骤和宝塔面板简介 1.3 CentOS7重要目录 2. 备份工具 2.1 tar -g 备份演示 2. rsync 备份演示 3. rdiff-backup 备份演示 4. 差异和优缺点 3. rdiff-backup安装和使用 3.1 备份命令rdiff-backup 3.2 恢复命令--…...

UE_C++ —— Metadata Specifiers

声明UClasses、UFunctions、UProperties、UEnums和UInterfaces时使用的元数据关键词&#xff0c;表示其与引擎和关卡编辑器诸多方面的互动方式&#xff1b; 当声明classe、interfaces、structs、enums、enum values、functions、or propertie时&#xff0c;可添加 Metadata Spe…...

【算法与数据结构】并查集详解

目录 一&#xff0c;什么是并查集 二&#xff0c;并查集的结构 三&#xff0c;并查集的代码实现 1&#xff0c;并查集的大致结构和初始化 2&#xff0c;find操作 3&#xff0c;Union操作 4&#xff0c;优化 小结&#xff1a; 四&#xff0c;并查集的应用场景 省份…...

deepseek多列数据对比,联想到excel的高级筛选功能

目录 1 业务背景 ​2 deepseek提示词输入 ​3 联想分析 4 EXCEL高级搜索 1 业务背景 系统上线的时候经常会遇到一个问题&#xff0c;系统导入的数据和线下的EXCEL数据是否一致&#xff0c;如果不一致&#xff0c;如何快速找到差异值&#xff0c;原来脑海第一反应就是使用公…...

Windows操作系统部署Tomcat详细讲解

Tomcat是一个开源的Java Servlet容器&#xff0c;用于处理Java Web应用程序的请求和响应。以下是关于Tomcat的用法大全&#xff1a; 一、安装Tomcat 下载 访问Apache Tomcat官方网站&#xff08;https://tomcat.apache.org/&#xff09;&#xff0c;根据你的操作系统&#xf…...

每日Attention学习23——KAN-Block

模块出处 [SPL 25] [link] [code] KAN See In the Dark 模块名称 Kolmogorov-Arnold Network Block (KAN-Block) 模块作用 用于vision的KAN结构 模块结构 模块代码 import torch import torch.nn as nn import torch.nn.functional as F import mathclass Swish(nn.Module)…...

今日写题04work

题目&#xff1a;移除链表元素 两种实现思路 思路一 使用双指针&#xff0c;prev&#xff0c;cur快慢指针解决。当cur不等于val&#xff0c;两个指针跳过。当等于val时&#xff0c;要考虑两种情况&#xff0c;一种是pos删&#xff0c;一种是头删除。 pos删除就是正常情况&am…...

Managed Lustre 和 WEKA:高性能文件系统的对比与应用

Managed Lustre 和 WEKA&#xff1a;高性能文件系统的对比与应用 1. 什么是 Managed Lustre&#xff1f;主要特点&#xff1a;适用场景&#xff1a; 2. 什么是 WEKA&#xff1f;主要特点&#xff1a;适用场景&#xff1a; 3. Managed Lustre 和 WEKA 的对比4. 如何选择 Managed…...

LeetCode541 反转字符串2

一、题目描述 给定一个字符串 s 和一个整数 k&#xff0c;从字符串开头算起&#xff0c;每计数至 2k 个字符&#xff0c;就反转这 2k 字符中的前 k 个字符。具体规则如下&#xff1a; 如果剩余字符少于 k 个&#xff0c;则将剩余字符全部反转。如果剩余字符小于 2k 但大于或等…...

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站&#xff0c;会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后&#xff0c;网站没有变化的情况。 不熟悉siteground主机的新手&#xff0c;遇到这个问题&#xff0c;就很抓狂&#xff0c;明明是哪都没操作错误&#x…...

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言&#xff1a; 通过AI视觉技术&#xff0c;为船厂提供全面的安全监控解决方案&#xff0c;涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面&#xff0c;能够实现对应负责人反馈机制&#xff0c;并最终实现数据的统计报表。提升船厂…...

【WiFi帧结构】

文章目录 帧结构MAC头部管理帧 帧结构 Wi-Fi的帧分为三部分组成&#xff1a;MAC头部frame bodyFCS&#xff0c;其中MAC是固定格式的&#xff0c;frame body是可变长度。 MAC头部有frame control&#xff0c;duration&#xff0c;address1&#xff0c;address2&#xff0c;addre…...

QMC5883L的驱动

简介 本篇文章的代码已经上传到了github上面&#xff0c;开源代码 作为一个电子罗盘模块&#xff0c;我们可以通过I2C从中获取偏航角yaw&#xff0c;相对于六轴陀螺仪的yaw&#xff0c;qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

OpenLayers 分屏对比(地图联动)

注&#xff1a;当前使用的是 ol 5.3.0 版本&#xff0c;天地图使用的key请到天地图官网申请&#xff0c;并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能&#xff0c;和卷帘图层不一样的是&#xff0c;分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一&#xff0c;概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本&#xff1a;2014.07&#xff1b; Kernel版本&#xff1a;Linux-3.10&#xff1b; 二&#xff0c;Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01)&#xff0c;并让boo…...

C++:多态机制详解

目录 一. 多态的概念 1.静态多态&#xff08;编译时多态&#xff09; 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1&#xff09;.协变 2&#xff09;.析构函数的重写 5.override 和 final关键字 1&#…...