当前位置：首页 > news >正文

【DeepSeek-R1训练笔记】随手记录一些训练log

news 2026/2/8 17:41:04

背景说明

DeepSeek系列解读请移步我的上一篇blog：【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）
代码仓库【科大的大四老哥太太太太太值得倾佩了】：https://github.com/Unakar/Logic-RL
DeepSeek-R1-Zero复现文档：https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab
趁着DeepSeek火起来的这个风口，自己抓紧学习一下大模型的基础知识，慢慢把之前积累的一些东西串起来
非常佩服科大的老哥，前途无量，正好我来学习一下大模型训练过程，看下有哪些训练坑和经验值得总结

基本设置

训练算法：DeepSeek-R1-Zero纯RL训练（无long CoT、SFT和蒸馏过程）
Base model：Qwen/Qwen2.5-7B-Instruct-1M（huggingface传送门）
训练脚本执行：
```
bash main_grpo.sh
```

RL训练过程

第一阶段：正确的格式学习（3PPL数据集）

训练400个step
wandb file：run-20250207_161945-1oftdu9q

main_grpo.sh脚本配置如下：

set -x
MODEL_PATH='Qwen2.5-7B-Instruct-1M'
export VLLM_ATTENTION_BACKEND=XFORMERS
python3 -m verl.trainer.main_ppo \algorithm.adv_estimator=grpo \data.train_files=data/kk/instruct/3ppl/train.parquet \data.val_files=data/kk/instruct/3ppl/test.parquet \data.train_batch_size=2 \data.val_batch_size=4 \data.max_prompt_length=400 \data.max_response_length=2048 \actor_rollout_ref.model.path=$MODEL_PATH \actor_rollout_ref.actor.optim.lr=3e-7 \actor_rollout_ref.model.use_remove_padding=True \actor_rollout_ref.actor.ppo_mini_batch_size=256 \actor_rollout_ref.actor.ppo_micro_batch_size=64 \actor_rollout_ref.actor.use_kl_loss=True \actor_rollout_ref.actor.kl_loss_coef=0.001 \actor_rollout_ref.actor.kl_loss_type=low_var_kl \actor_rollout_ref.model.enable_gradient_checkpointing=True \actor_rollout_ref.actor.fsdp_config.param_offload=True \actor_rollout_ref.actor.fsdp_config.grad_offload=True \actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \actor_rollout_ref.rollout.log_prob_micro_batch_size=160 \actor_rollout_ref.rollout.tensor_model_parallel_size=1 \actor_rollout_ref.rollout.name=vllm \actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \actor_rollout_ref.rollout.n=16 \actor_rollout_ref.ref.log_prob_micro_batch_size=160 \actor_rollout_ref.ref.fsdp_config.param_offload=True \algorithm.kl_ctrl.kl_coef=0.001 \trainer.critic_warmup=0 \trainer.logger=['wandb'] \trainer.project_name='GRPO_logic_KK' \trainer.experiment_name='Qwen-7B' \trainer.n_gpus_per_node=2 \trainer.nnodes=1 \trainer.default_local_dir=local_dir \trainer.default_hdfs_dir=null \trainer.save_freq=10 \trainer.test_freq=10 \trainer.total_epochs=1 $@ 2>&1 | tee grpo.log

验证集：效果逐渐变好

在这里插入图片描述

平均reward、答案错误的比例、全对的比例、格式错误比例：前三者趋势正确，但是变化不大，格式错误大幅降低！因为这一步主要是在简单的3PPL数据上学格式，大约10个step可以将格式错误降到0.1以下

在这里插入图片描述

平均生成长度：有少量增长，但并不明显，应该是还在第一阶段的问题

在这里插入图片描述
再看一下生成答案过程中的一些特点：

在这里插入图片描述

再看一下出现的格式错误具体原因：

在这里插入图片描述

还出现了不同程度的语言混杂问题：

在这里插入图片描述

【DeepSeek-R1训练笔记】随手记录一些训练log

背景说明 DeepSeek系列解读请移步我的上一篇blog：【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）代码仓库【科大的大四老哥太太太太太值得倾佩了】：https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档&#…...

编程日记 2025/2/8 8:46:10

【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具04

SQLSERVER的ImpDp和ExpDp工具演示 1、指定某些表作为导出对象外 (-exclude_table) 验证用：导出的表，导入到新的数据库 2、指定某些表作为导出对象外 (-exclude_table) 支持模糊检索，可以使用星号以s开头的表作为导出对象外，…...

编程日记 2025/2/8 8:40:04

「全网最细 + 实战源码案例」设计模式——策略模式

核心思想策略模式（Strategy Pattern）是一种行为型设计模式，用于定义一系列算法或策略，将它们封装成独立的类，并使它们可以相互替换，而不影响客户端的代码，提高代码的可维护性和扩展性。结构 …...

编程日记 2025/2/8 8:38:02

题目 <html> <title>Heres a secret. Can you find it?</title> <?phpif(isset($_GET[file])){$file $_GET[file];include($file); }else{highlight_file(__FILE__); } ?> </html> 读取flag /?filephp://filter/readconvert.base64-encode…...

编程日记 2025/2/8 8:37:01

【AI日记】25.02.07 探索开辟第二战场

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】【AI应用】探索探索如何做视频博主一边坚持主攻方向（ 找工作，包括 AI 学习和 kaggle比赛），一边尝试开辟第二战场（比如：视…...

编程日记 2025/2/8 8:33:58

path 路径模块

在开发基于 Node.js 的应用程序时，处理文件路径是一个常见的需求。为了简化这一过程并避免跨平台兼容性问题，Node.js 提供了 path 模块。该模块提供了一系列实用的方法来解析、格式化和操作文件路径。本文将详细介绍 path 模块的功能及其使用方法&#x…...

编程日记 2025/2/8 8:32:57

SpringBoot中的多环境配置管理

SpringBoot中的多环境配置管理文章目录 SpringBoot中的多环境配置管理SpringBoot中的多环境配置管理多环境配置的概述1. 为什么需要多环境配置？2. Spring Boot 中如何实现多环境配置？3. 多环境配置的应用场景4. 如何实现配置隔离？ Spring B…...

编程日记 2025/2/8 8:14:39

mac下生成.icns图标

笔记原因： 今日需要在mac下开发涉及图标文件的使用及icons文件的生成，所以记录一下。网络上都是一堆命令行需要打印太麻烦了，写一个一键脚本。步骤一将需要生成的png格式文件重命名为“pic.png” mv xxxx.png pic.png 步骤二下载我…...

编程日记 2025/2/8 8:09:33

关于JS继承的七种方式和理解

1.原型链继承 function Fun1() {this.name parentthis.play [1, 2, 3] } function Fun2() {this.type child }Fun2.prototype new Fun1()let s1 new Fun2() let s2 new Fun2() s1.play.push(4) console.log(s1.play, s2.play) // [1, 2, 3, 4] [1, 2, 3, 4]可以看到两个…...

编程日记 2025/2/8 8:08:32

储能系统-系统架构

已更新系列文章包括104、61850、modbus 、单片机等，欢迎关注 IEC61850实现方案和测试-1-CSDN博客快速了解104协议-CSDN博客 104调试工具2_104协议调试工具-CSDN博客 1 电池储能系统（BESS） 架构电池储能系统主要包括、电池、pcs、本地控制…...

编程日记 2025/2/8 8:07:31

AI智算-k8s部署DeepSeek Janus-Pro-7B 多模态大模型

文章目录简介环境依赖模型下载下载Janus库GPU环境镜像模型manifest调用Janus多模态文生图简介 DeepSeek Janus Pro 作为一款强大的多模态理解与生成框架，正在成为研究人员和开发者的热门选择。本文将详细介绍如何在云原生k8s环境中部署配置和使用 DeepSeek Janus…...

编程日记 2025/2/8 8:05:28

【截图】selenium自动通过浏览器截取指定元素div的图片

【截图】selenium自动通过浏览器截取指定元素div的图片思路截取完整网页截图通过元素的坐标截图到指定位置的图片前提是已经获取到 driver 了 # 定位目标divtarget_div driver.find_element(By.CLASS_NAME, headlines-right)# 获取div的位置和大小location target_div…...

编程日记 2025/2/8 8:02:25

如何导入第三方sdk | 引入第三方jar 包

0. 背景1. 上传私有仓库2. 使用本地文件系统 0. 背景对接一些第三方功能，会拿到第三方的sdk，也就是jar包，如何导入呢 1. 上传私有仓库最好的方式就是将第三方jar包，上传到私有的仓库，这样直接正常在pom引用即可如果只…...

编程日记 2025/2/8 8:01:24

HarmonyOS 5.0应用开发——ContentSlot的使用

【高心星出品】文章目录 ContentSlot的使用使用方法案例运行结果完整代码 ContentSlot的使用用于渲染并管理Native层使用C-API创建的组件同时也支持ArkTS创建的NodeContent对象。支持混合模式开发，当容器是ArkTS组件，子组件在Native侧创建时&#…...

编程日记 2025/2/8 7:55:18

C#常用集合优缺点对比

先上结论： 在C#中，链表、一维数组、字典、List<T>和ArrayList是常见的数据集合类型，它们各有优缺点，适用于不同的场景。以下是它们的比较： 1. 一维数组 (T[]) 优点： 性能高：数组在内存中…...

编程日记 2025/2/8 7:54:17

基于CLIP视觉语言大模型的行人重识别方法的简单框架设计

以下是一个基于CLIP视觉语言大模型的行人重识别方法的简单框架设计，用于数据集测试。我们将使用torch和clip库，假设数据集是一个包含行人图像的文件夹结构，每个子文件夹代表一个行人身份。步骤概述安装必要的库加载CLIP模型定义数据集类提…...

编程日记 2025/2/8 7:47:10

RabbitMQ 从入门到精通：从工作模式到集群部署实战（三）

文章目录使用CLI管理RabbitMQrabbitmqctlrabbitmq-queuesrabbitmq-diagnosticsrabbitmq-pluginsrabbitmq-streamsrabbitmq-upgraderabbitmqadmin 使用CLI管理RabbitMQ RabbitMQ CLI 工具需要安装兼容的 Erlang/OTP版本。这些工具假定系统区域设置为 UTF-8（例如en…...

编程日记 2025/2/8 7:46:09

BurpSuite抓包与HTTP基础

文章目录前言一、BurpSuite1.BurpSuite简介2.BurpSuite安装教程(1)BurpSuite安装与激活(2)安装 https 证书 3.BurpSuite使用4.BurpSuite资料二、图解HTTP1.HTTP基础知识2.HTTP客户端请求消息3.HTTP服务端响应消息4.HTTP部分请求方法理解5.HTTPS与HTTP 总结前言在网络安全和…...

编程日记 2025/2/8 7:45:09

SQL Server 数据库迁移到 MySQL 的完整指南

文章目录引言一、迁移前的准备工作1.1 确定迁移范围1.2 评估兼容性1.3 备份数据二、迁移工具的选择2.1 使用 MySQL Workbench2.2 使用第三方工具2.3 手动迁移三、迁移步骤3.1 导出 SQL Server 数据库结构3.2 转换数据类型和语法3.3 导入 MySQL 数据库3.4 迁移数据3.5 迁移存…...

编程日记 2025/2/8 7:39:58

【大模型】DeepSeek与chatGPT的区别以及自身的优势

目录一、前言二、核心技术对比2.1 模型架构设计2.1.1 ChatGPT的Transformer架构2.1.2 DeepSeek的混合架构 2.2 训练数据体系2.2.1 ChatGPT的数据特征2.2.2 DeepSeek的数据策略三、应用场景对比3.1 通用场景表现3.1.1 ChatGPT的强项领域3.2.2 DeepSeek的专项突破 3.3 响应效率…...

编程日记 2025/2/8 7:36:54

《通信之道——从微积分到 5G》读书总结

第1章绪论 1.1 这是一本什么样的书通信技术，说到底就是数学。那些最基础、最本质的部分。 1.2 什么是通信通信发送方接收方承载信息的信号解调出其中承载的信息信息在发送方那里被加工成信号（调制） 把信息从信号中抽取出来&am…...

编程新知 2026/2/7 11:01:56

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

dify打造数据可视化图表

一、概述在日常工作和学习中，我们经常需要和数据打交道。无论是分析报告、项目展示，还是简单的数据洞察，一个清晰直观的图表，往往能胜过千言万语。一款能让数据可视化变得超级简单的 MCP Server，由蚂蚁集团 AntV 团队…...

编程新知 2026/1/20 20:10:03

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/12/3 10:52:37

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ；并安装。基础操作不再赘述。打开 macOS 终端，开始 docker 安装mysql之旅第一步 docker search mysql 》〉docker search mysql NAME DE…...

编程新知 2026/2/6 21:43:26

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明：这是一个机器学习实战项目（附带数据代码文档），如需数据代码文档可以直接到文章最后关注获取。 1.项目背景在金融市场日益复杂和波动加剧的背景下，风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

编程新知 2026/1/25 4:19:49

MySQL JOIN 表过多的优化思路

当 MySQL 查询涉及大量表 JOIN 时，性能会显著下降。以下是优化思路和简易实现方法： 一、核心优化思路减少 JOIN 数量数据冗余：添加必要的冗余字段（如订单表直接存储用户名）合并表：将频繁关联的小表合并成…...

编程新知 2026/1/11 6:22:16

【DeepSeek-R1训练笔记】随手记录一些训练log

背景说明

基本设置

RL训练过程

第一阶段：正确的格式学习（3PPL数据集）

相关文章：

【DeepSeek-R1训练笔记】随手记录一些训练log

【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具04

「全网最细 + 实战源码案例」设计模式——策略模式

[MoeCTF 2022]baby_file

【AI日记】25.02.07 探索开辟第二战场

path 路径模块

SpringBoot中的多环境配置管理

mac下生成.icns图标

关于JS继承的七种方式和理解

储能系统-系统架构

AI智算-k8s部署DeepSeek Janus-Pro-7B 多模态大模型

【截图】selenium自动通过浏览器截取指定元素div的图片

如何导入第三方sdk | 引入第三方jar 包

HarmonyOS 5.0应用开发——ContentSlot的使用

C#常用集合优缺点对比

基于CLIP视觉语言大模型的行人重识别方法的简单框架设计

RabbitMQ 从入门到精通：从工作模式到集群部署实战（三）

BurpSuite抓包与HTTP基础

SQL Server 数据库迁移到 MySQL 的完整指南

【大模型】DeepSeek与chatGPT的区别以及自身的优势

《通信之道——从微积分到 5G》读书总结

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

大模型多显卡多服务器并行计算方法与实践指南

dify打造数据可视化图表

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

HashMap中的put方法执行流程（流程图）

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

Docker 本地安装 mysql 数据库

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

MySQL JOIN 表过多的优化思路