当前位置: 首页 > article >正文

DeepSeek-R1 论文阅读总结

1. QA问答(我的笔记)

Q1: DeepSeek如何处理可读性问题?

通过构建冷启动数据(数千条长CoT数据)微调基础模型,结合多阶段训练流程(RL训练、拒绝采样生成SFT数据),并优化输出格式(如特殊标记分隔),显著提升可读性。相比仅用RL的Zero版本,改进后的R1保持了推理能力且输出更易读。

Q2: DeepSeek-R1-Zero与R1的核心区别?

-R1-Zero:纯RL训练,无监督数据,输出存在语言混杂、可读性差

-R1:引入监督学习阶段

冷启动阶段用高质量CoT数据微调

拒绝采样生成600K过滤数据(移除混合语言/冗余内容)

二阶段RL(推理任务用规则奖励,通用任务用人类偏好奖励)

Q3: 如何验证推理能力蒸馏效果?

在标准评测网站(如LiveCodeBench/Codeforces)测试,经蒸馏的小模型性能超越直接用RL训练的同规模模型。

Q4: 成本节约方法?

自进化RL减少监督数据需求

GRPO算法优化RL训练效率

复用V3训练集生成思维链

2. 论文核心贡献(做了什么)

方法论创新:提出四阶段训练框架(冷启动→推理RL→数据生成→通用能力RL)

性能突破:在数学(MATH-500 97.3%)知识任务(MMLU 90.8%)达到SOTA

工程实践:解决纯RL训练的可读性缺陷,构建首个支持人类友好CoT的RL优化模型

技术验证:证明RL可通过自我进化提升推理能力,且该能力可蒸馏至小模型

3. 关键技术路径

3.1 混合奖励机制

任务类型

奖励构成

目标特性

推理任务

准确性(70%)+过程合规性(30%)

严谨性

通用任务

有用性(50%)+无害性(30%)+可读性(20%)

安全性

3.2 数据生产管线

4. 当前局限性

4.1 技术瓶颈

MCTS应用失败:语言生成空间离散性导致搜索复杂度爆炸(相比围棋增长10^3倍)

过程奖励困境:

原子步骤定义模糊(如数学证明中间态)

需人工标注百万级步骤数据(成本$380K+)

奖励黑客问题频发(模型学会伪造合规步骤)

4.2 实践缺陷

5. 未来方向

短期重点

蒸馏优化:探索RL+蒸馏联合框架(当前仅用SFT)

架构改进:

动态上下文窗口(当前固定4K)

混合专家系统(MoE)提升工程能力

长期愿景

自进化系统:构建完全闭环的RL训练生态(人工标注量<1%)

多模态推理:扩展至视觉-语言联合推理场景

安全增强:研发可解释的奖励模型(当前黑盒率>92%)

相关文章:

DeepSeek-R1 论文阅读总结

1. QA问答&#xff08;我的笔记&#xff09; Q1: DeepSeek如何处理可读性问题&#xff1f; 通过构建冷启动数据&#xff08;数千条长CoT数据&#xff09;微调基础模型&#xff0c;结合多阶段训练流程&#xff08;RL训练、拒绝采样生成SFT数据&#xff09;&#xff0c;并优化输…...

scoop退回软件版本的方法

title: scoop退回软件版本的方法 date: 2025-3-11 23:53:00 tags: 其他 前言 在软件更新后&#xff0c;如果出现了很影响使用体验的问题&#xff0c;那么可以把软件先退回以前的版本进行使用&#xff0c; 但是scoop本身并没有提供直接让软件回退版本的功能&#xff0c;因此…...

Linux 》》Ubuntu 18 LTS 之后的版本 修改IP地址 主机名

进入目录 /etc/netplan 修改 50-cloud-init.yaml 》保存文件后&#xff0c;执行以下命令应用更改&#xff1a; sudo netplan apply 》》 DHCP模式 修改主机名 hostnamectl set-hostname xxxx 修改cloud.cfg 防止重启主机名还原 但测试下来 不修改&#xff0c; 重启 也不会还…...

泰山派开发之—Ubuntu24.04下Linux开发环境搭建

简介 最近翻到了吃灰已久的泰山派&#xff0c;是刚出来的时候用优惠券买的&#xff0c;当时价格挺便宜的&#xff0c;最近给它翻出来了&#xff0c;打算试试做个项目。买的泰山派容量是2G16G&#xff0c;SOC芯片使用的是RK3566&#xff0c;搭载1TOP算力的NPU&#xff0c;并且具…...

哈尔滨算力服务器托管推荐-青蛙云

哈尔滨年平均气温3.5摄氏度&#xff0c;有发展云计算和算力数据中心的天然优势 &#xff0c;今天为哈尔滨算力服务器托管服务商&#xff1a;青蛙云&#xff0c;黑龙江经营17年的老牌IDC服务商。 先来了解下算力服务器&#xff1a; 算力服务器&#xff0c;尤其是那些用于运行人…...

openharmony体验

openharmony5 去年已经出来了 如果以前做过android开发的&#xff0c;学起来不难&#xff0c;关键 1&#xff1a;环境 DevEco Studio 5.0.3 Beta2 https://developer.huawei.com/consumer/cn/deveco-studio/ win10_64bit CPU amd64(不是arm的) 2:安装 执行EXE 安装就行&#x…...

[Ai 力扣题单] 数组基本操作篇 27/704/344/386

题单分类:DeepSeek刷力扣辅助题单 存留记录-CSDN博客 27 27. 移除元素 - 力扣&#xff08;LeetCode&#xff09; 这道题就一个点 1.数组在内存上连续 所以要么赋值覆盖,要么移动覆盖,但是它要求了前 k 个元素 所以只能移动覆盖 所以我有了如下思考过程: 3223 , 3举例 如果是…...

⭐算法OJ⭐汉明距离【位操作】(C++ 实现)Hamming Distance

Hamming Distance&#xff08;汉明距离&#xff09;是用于衡量两个等长字符串在相同位置上不同字符的个数的度量。它通常用于比较两个二进制字符串或编码序列的差异。 定义 给定两个长度相同的字符串 A A A 和 B B B&#xff0c;它们的汉明距离 D ( A , B ) D(A,B) D(A,B)…...

了解一下HTTP的短连接和长连接

在 HTTP 协议中&#xff0c;连接的方式主要分为长连接和短连接。这两种连接方式的主要区别在于连接的生命周期和数据传输的效率。理解它们的差异对于优化 Web 应用的性能和资源利用至关重要。以下是 HTTP 长连接和短连接的详细解释。 1. 短连接&#xff08;HTTP/1.0&#xff0…...

蓝桥杯刷题 Day1 高精度加法

蓝桥杯刷题 Day1 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 蓝桥杯刷题 Day1前言一、大数加法1. 解题思路2. 代码2.1主函数2.2 去除前导02.3 大数相加2.4 完整代码 二、KMP字符串匹配0. 知识点速记1. 解题思路…...

大语言模型的潜力是否被高估

关于大语言模型&#xff08;LLM&#xff09;的潜力是否被高估&#xff0c;目前学术界和产业界存在显著分歧。以下从技术能力、应用局限性和未来发展方向三个方面综合分析&#xff1a; 一、技术能力的争议&#xff1a;潜力与局限并存 对现实世界的理解与模拟 MIT的研究表明…...

Linux入门 全面整理终端 Bash、Vim 基础命令速记

Linux入门 2025 超详细全面整理 Bash、Vim 基础命令速记 刚面对高级感满满的 终端窗口是不是有点懵&#xff1f;于是乎&#xff0c;这份手册就是为你准备的高效学习指南&#xff01;我把那些让人头大的系统设置、记不住的命令都整理成了对你更友好的格式&#xff0c;让你快速学…...

AI智能代码疫苗技术,赋能数字化应用内生安全自免疫

“DevSecOps市占率持续领先&#xff0c;IAST探针覆盖率十倍增长&#xff0c;代码疫苗技术已成功帮助上千家行业用户成功抵御‘Log4j2.x’等重大未知漏洞的利用攻击。”子芽在腾讯专访中透露。 这是2021年悬镜安全交出的一张成绩单。悬镜安全是DevSecOps敏捷安全先行者&#xf…...

《SQL性能优化指南:新手如何写出高效的数据库查询

新手程序员如何用三个月成为SQL高手&#xff1f;万字自学指南带你弯道超车 在数据为王的时代&#xff0c;掌握SQL已成为职场新人的必修课。你可能不知道&#xff0c;仅用三个月系统学习&#xff0c;一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是…...

【PyMySQL】Python操作MySQL

1、安装pymysql pip install pymysql2、导包 import pymysql3、连接MySQL数据库 db pymysql.connect(hostlocalhost # 本地localhost&#xff0c;或服务器IP地址,userroot # 用户名,passwordpassword # 密码,databasemysql) #数据库名4、创建游标 cursor db.cursor()5、增…...

使用RabbitMQ实现流量削峰填谷

原理 流量削峰填谷是指在面对突发的高流量时&#xff0c;通过消息队列将瞬时大量请求暂时存储起来&#xff0c;并逐步处理这些请求&#xff0c;从而避免系统过载。RabbitMQ 作为消息中间件可以很好地支持这一需求&#xff0c;特别是结合其延时消息插件&#xff08;rabbitmq_de…...

【TES817】基于XCZU19EG FPGA的高性能实时信号处理平台

板卡概述 TES817是一款基于ZU19EG FPGA的高性能实时信号处理平台&#xff0c;该平台采用1片高性能的FPGA&#xff1a;XCZU19EG-2FFVC1760I作为主处理器&#xff0c;FPGA的PL端外挂1组72位DDR4 SDRAM&#xff0c;用来实现超大容量数据缓存&#xff0c;FPGA的PS端外挂1组72位的D…...

Python 进程与线程-分布式进程

目录 分布式进程 小结 分布式进程 在Thread和Process中&#xff0c;应当优选Process&#xff0c;因为Process更稳定&#xff0c;而且&#xff0c;Process可以分布到多台机器上&#xff0c;而Thread最多只能分布到同一台机器的多个CPU上。 Python的multiprocessing模块不但支…...

OpenCV实现视频背景提取

在计算机视觉领域&#xff0c;背景减除&#xff08;Background Subtraction&#xff09;是一种常用的技术&#xff0c;用于从视频序列中提取前景对象。 背景减除的核心思想是通过建模背景&#xff0c;然后将当前帧与背景模型进行比较&#xff0c;从而分离出前景对象。 OpenCV…...

初阶数据结构(C语言实现)——5.2 二叉树的顺序结构及堆的实现

1.二叉树的顺序结构及实现 1.1 二叉树的顺序结构 普通的二叉树是不适合用数组来存储的&#xff0c;因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储&#xff0c;需要注意的是这里的堆和操作系统…...

深度学习篇---Opencv中Haar级联分类器的自定义

文章目录 1. 准备工作1.1安装 OpenCV1.2准备数据集1.2.1正样本1.2.2负样本 2. 数据准备2.1 正样本的准备2.1.1步骤2.1.2生成正样本描述文件2.1.3示例命令2.1.4正样本描述文件格式 2.2 负样本的准备2.2.1步骤2.2.2负样本描述文件格式 3. 训练分类器3.1命令格式3.2参数说明 4. 训…...

ArcGIS Pro 车牌分区数据处理与地图制作全攻略

在大数据时代&#xff0c;地理信息系统&#xff08;GIS&#xff09;技术在各个领域都有着广泛的应用&#xff0c;而 ArcGIS Pro 作为一款功能强大的 GIS 软件&#xff0c;为数据处理和地图制作提供了丰富的工具和便捷的操作流程。 车牌数据作为一种重要的地理空间数据&#xf…...

文件解析漏洞靶场通关合集

一、IIS解析漏洞 &#xff08;一&#xff09;iis6的目录解析漏洞(.asp目录中的所有文件都会被当做asp文件执行) 第一步&#xff1a;在网站根目录下创建了一个x.asp文件夹&#xff0c;并在文件夹中创建一个名为1.txt的文本文档 第二步&#xff1a;文本文档中输入<% now()%&…...

塔能IVO-SCY智能机箱:点亮智慧城市的电力“智慧核芯”

在智慧城市建设的宏大征程中&#xff0c;稳定且智能的电力供应犹如坚固基石&#xff0c;支撑着各类设备高效、稳定地运行。塔能科技的IVO-SCY智能机箱&#xff0c;凭借其卓越的电源管理系统&#xff0c;当之无愧地成为了整个智慧城市电力保障体系中的“智慧心脏”&#xff0c;源…...

【Oracle】19c数据库控制文件多路径配置

一、关闭数据库&#xff08;2个节点实例都要关闭&#xff09; srvctl stop database -d ora19c 二、多路径控制文件 打开其中一个节点到nomount状态 sqlplus / as sysdba startup nomount; [oracleora19c1:/home/oracle]$ rman target / RMAN> restore controlfile to…...

深度解析前端页面性能优化

1. 优化页面加载性能 1.1 减少 HTTP 请求 问题&#xff1a;过多的 HTTP 请求会增加页面加载时间。解决方案&#xff1a; 合并 CSS 和 JavaScript 文件。使用 CSS Sprites 合并小图标。使用字体图标&#xff08;如 Font Awesome&#xff09;代替图片图标。 代码示例&#xf…...

C#中类‌的核心定义

‌C# 类‌是面向对象编程&#xff08;OOP&#xff09;中的核心概念之一&#xff0c;用于定义对象的模板或蓝图&#xff0c;包含数据成员&#xff08;字段、属性&#xff09;和函数成员&#xff08;方法、事件等&#xff09;。类提供了封装机制&#xff0c;将数据和操作数据的方…...

Android Media3 ExoPlayer 开发全攻略:从基础集成到高级功能实战

目录 1. 引言 2. 添加依赖 3. 初始化ExoPlayer并播放视频 3.1 XML 布局 3.2 初始化ExoPlayer 4. 控制播放 5. 监听播放状态 6. 播放网络流&#xff08;HLS / DASH / RTSP&#xff09; 7. ExoPlayer 进阶 7.1 手动切换功能 7.2 DRM 保护 8. 释放播放器资源 9. 从旧…...

Trae与Builder模式初体验

说明 下载的国际版&#xff1a;https://www.trae.ai/ 建议 要选新模型 效果 还是挺不错的&#xff0c;遇到问题反馈一下&#xff0c;AI就帮忙解决了&#xff0c;真是动动嘴&#xff08;打打字就行了&#xff09;&#xff0c;做些小的原型效果或演示Demo很方便呀&#xff…...

鸿蒙编译框架插件HvigorPlugin接口的用法介绍

鸿蒙系统中HvigorPlugin接口实现自定义编译插件&#xff0c;实现编译前后自定义功能。 在鸿蒙&#xff08;HarmonyOS&#xff09;开发中&#xff0c;HvigorPlugin 是用于扩展 Hvigor 构建工具功能的接口。通过实现此接口&#xff0c;开发者可以自定义构建任务、修改构建流程或…...