当前位置：首页 > news >正文

从TinyZero的数据与源码来理解DeepSeek-R1-Zero的强化学习训练过程

news 2025/11/7 13:41:05

1. 引入

TinyZero（参考1）是伯克利的博士生复现DeepSeek-R1-Zero的代码参仓库，他使用veRL来运行RL强化学习方法，对qwen2.5的0.5B、1.5B、3B等模型进行训练，在一个数字游戏数据集上，达到了较好的推理效果。

下面解读源码中的关键训练逻辑细节。

2. 训练过程

原始数据

原始数据来自参考2，一共490k条数据，数据中只有两个字段，格式如下：

{"nums": [ 95, 11, 56 ],"target":28
}

这是一个数字游戏，要求对nums中的数据，进行基础数学运算(+, -, *, /)，每个数字只能用一次，最终结果等于target的值。比如上例子，95-11-56=28。

数据处理

具体源码见参考3，下文仅仅解析关键步骤：

（1）训练集和测试集大小

默认值如下：

parser.add_argument('--train_size', type=int, default=327680)
parser.add_argument('--test_size', type=int, default=1024)

（2）对原始数据添加提示词

下面的dp就是一条原始数据（参考2.1例子）：

def make_prefix(dp, template_type):target = dp['target']# 取出目标numbers = dp['nums']# 取出数字# 对于默认模型加的提示词如下if template_type == 'base':"""This works for any base model"""prefix = f"""A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer.
User: Using the numbers {numbers}, create an equation that equals {target}. You can use basic arithmetic operations (+, -, *, /) and each number can only be used once. Show your work in <think> </think> tags. And return the final answer in <answer> </answer> tags, for example <answer> (1 + 2) / 3 </answer>.
Assistant: Let me solve this step by step.
<think>"""# 对于qwen-instruct模型加的提示词如下elif template_type == 'qwen-instruct':"""This works for Qwen Instruct Models"""prefix = f"""<|im_start|>system\nYou are a helpful assistant. You first thinks about the reasoning process in the mind and then provides the user with the answer.<|im_end|>\n<|im_start|>user\n Using the numbers {numbers}, create an equation that equals {target}. You can use basic arithmetic operations (+, -, *, /) and each number can only be used once. Show your work in <think> </think> tags. And return the final answer in <answer> </answer> tags, for example <answer> (1 + 2) / 3 </answer>.<|im_end|>\n<|im_start|>assistant\nLet me solve this step by step.\n<think>"""return prefix

（3）对数据进行完整的处理，增加提示词与reward等数据

如下函数中的example就是一条原始数据（参考2.1例子）。

        def process_fn(example, idx):question = make_prefix(example, template_type=args.template_type) # 增加提示词，见2.2.2solution = {"target": example['target'],"numbers": example['nums']}data = {"data_source": data_source, # 任务名称，默认为'countdown'"prompt": [{"role": "user","content": question, # 带有提示词的问题}],"ability": "math","reward_model": {"style": "rule","ground_truth": solution # 含有nums和target},"extra_info": {'split': split,'index': idx,}}return data

最终数据为含有prompt和reward_model等字段的json结构。

训练

从参考4的训练代码中，摘取部分配置如下：

python3 -m verl.trainer.main_ppo \
data.train_files=$DATA_DIR/train.parquet \
data.val_files=$DATA_DIR/test.parquet \
data.train_batch_size=256 \
data.val_batch_size=1312 \
data.max_prompt_length=256 \
data.max_response_length=1024 \
actor_rollout_ref.model.path=$BASE_MODEL \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.actor.ppo_mini_batch_size=128 \
actor_rollout_ref.actor.ppo_micro_batch_size=8 \
actor_rollout_ref.rollout.log_prob_micro_batch_size=8 \
actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP_SIZE \
actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
actor_rollout_ref.ref.log_prob_micro_batch_size=4 \
critic.optim.lr=1e-5 \
critic.model.path=$BASE_MODEL \
critic.ppo_micro_batch_size=8 \
algorithm.kl_ctrl.kl_coef=0.001 \
trainer.logger=['wandb'] \
+trainer.val_before_train=False \
trainer.default_hdfs_dir=null \
trainer.n_gpus_per_node=$N_GPUS \
trainer.nnodes=1 \
trainer.save_freq=100 \
trainer.test_freq=100 \
trainer.project_name=TinyZero \
trainer.experiment_name=$EXPERIMENT_NAME \
trainer.total_epochs=15 2>&1 | tee verl_demo.log

这条命令是一个典型的 Python 脚本调用，用于训练一个基于 PPO（Proximal Policy Optimization）算法的模型。

用veRL进行训练（参考5），需要指定数据、模型、超参数：

（1）数据相关配置

data.train_files=$DATA_DIR/train.parquet：指定训练数据文件路径（Parquet 格式）。data.val_files=$DATA_DIR/test.parquet：指定验证数据文件路径。data.train_batch_size=256：训练时的批量大小（batch size）。data.val_batch_size=1312：验证时的批量大小。data.max_prompt_length=256：输入提示（prompt）的最大长度。data.max_response_length=1024：生成响应（response）的最大长度。

（2）Actor 模型配置

actor_rollout_ref.model.path=$BASE_MODEL：指定 Actor 模型的预训练权重路径。actor_rollout_ref.actor.optim.lr=1e-6：Actor 模型的学习率。actor_rollout_ref.actor.ppo_mini_batch_size=128：PPO 算法中 Actor 的 mini-batch 大小。actor_rollout_ref.actor.ppo_micro_batch_size=8：PPO 算法中 Actor 的 micro-batch 大小。actor_rollout_ref.rollout.log_prob_micro_batch_size=8：Rollout 阶段计算 log probability 的 micro-batch 大小。actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP_SIZE：Rollout 阶段的张量并行大小（用于分布式训练）。actor_rollout_ref.rollout.gpu_memory_utilization=0.4：Rollout 阶段的 GPU 内存利用率。actor_rollout_ref.ref.log_prob_micro_batch_size=4：参考模型（ref model）计算 log probability 的 micro-batch 大小。

（3）Critic 模型配置

critic.optim.lr=1e-5：Critic 模型的学习率。critic.model.path=$BASE_MODEL：指定 Critic 模型的预训练权重路径。critic.ppo_micro_batch_size=8：PPO 算法中 Critic 的 micro-batch 大小。

（4）算法配置

algorithm.kl_ctrl.kl_coef=0.001：KL 散度（Kullback-Leibler divergence）的系数，用于控制策略更新的稳定性。

（5）训练器配置

trainer.logger=['wandb']：使用 Weights & Biases（WandB）作为日志记录工具。+trainer.val_before_train=False：在训练开始前不进行验证。trainer.default_hdfs_dir=null：HDFS 目录未设置（HDFS 是分布式文件系统）。trainer.n_gpus_per_node=$N_GPUS：每个节点使用的 GPU 数量。trainer.nnodes=1：使用的节点数量（单节点训练）。trainer.save_freq=100：每 100 步保存一次模型。trainer.test_freq=100：每 100 步进行一次测试。trainer.project_name=TinyZero：WandB 项目名称。trainer.experiment_name=$EXPERIMENT_NAME：实验名称。trainer.total_epochs=15：总训练轮数（epochs）。

训练效果

用强化学习的方法训练后，能如下所示，输出字段（推理过程），并给出最终结果字段。
在这里插入图片描述

3. 总结

通过具体的数据与处理训练过程，来更好的理解DeepSeek-R1-Zero的强化学习训练方法。

4. 参考

项目：https://github.com/Jiayi-Pan/TinyZero
数据：https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4
数据处理源码：https://github.com/Jiayi-Pan/TinyZero/blob/main/examples/data_preprocess/countdown.py
训练源码：https://github.com/Jiayi-Pan/TinyZero/blob/main/scripts/train_tiny_zero.sh
veRL：https://verl.readthedocs.io/en/latest/start/quickstart.html

从TinyZero的数据与源码来理解DeepSeek-R1-Zero的强化学习训练过程

1. 引入 TinyZero（参考1）是伯克利的博士生复现DeepSeek-R1-Zero的代码参仓库，他使用veRL来运行RL强化学习方法，对qwen2.5的0.5B、1.5B、3B等模型进行训练，在一个数字游戏数据集上，达到了较好的推理效果。 …...

编程日记 2025/2/3 8:46:37

爬虫基础（四）线程和进程及相关知识点

目录一、线程和进程 （1）进程 （2）线程 （3）区别二、串行、并发、并行 （1）串行 （2）并行 （3）并发三、爬虫中的线程和进程 &am…...

编程日记 2025/2/3 8:45:34

【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具01

1、开发背景大家都很熟悉，Oracle提供了Impdp和ExpDp工具，功能很强大，可以进行db的导入导出的处理。但是对于Sqlserver数据库只是提供了简单的图形化的导出导入工具，在实际的开发和生产环境不太可能让用户在图形化的界面选择移行…...

编程日记 2025/2/3 8:40:27

队列—学习

1. 手写队列的实现使用数组实现队列是一种常见的方法。队列的基本操作包括入队（enqueue）和出队（dequeue）。队列的头部和尾部分别用 head 和 tail 指针表示。代码实现 const int N 10000; // 定义队列容量，确保够…...

编程日记 2025/2/3 8:39:25

SpringBoot的配置(配置文件、加载顺序、配置原理)

文章目录 SpringBoot的配置(配置文件、加载顺序、配置原理)一、引言二、配置文件1、配置文件的类型1.1、配置文件的使用 2、多环境配置三、加载顺序四、配置原理五、使用示例1、配置文件2、配置类3、控制器六、总结 SpringBoot的配置(配置文件、加载顺序、配置原理) 一、引言…...

编程日记 2025/2/3 8:32:19

如何本地部署DeepSeek？DeepThink R1 本地部署全攻略：零基础小白指南。

🚀 离线运行 AI，免费使用 OpenAI 级别推理模型本教程将手把手教你如何在本地部署 DeepThink R1 AI 模型，让你无需联网就能运行强大的 AI 推理任务。无论你是AI 新手还是资深开发者，都可以轻松上手！ 📌 目录…...

编程日记 2025/2/3 8:31:15

陆游的《诗人苦学说》：从藻绘到“功夫在诗外”（中英双语）mastery lies beyond poetry

陆游的《诗人苦学说》：从藻绘到“功夫在诗外” 今天看万维钢的《万万没想到》一书，看到陆游的功夫在诗外的句子，特意去查找这首诗的原文。故而有此文。我国学人还往往过分强调“功夫在诗外”这句陆游的名言，认为提升综合素质是一…...

编程日记 2025/2/3 8:29:11

Golang —协程池（panjf2000/ants/v2）

Golang —协程池（panjf2000/ants/v2） 1 ants1.1 基本信息1.2 ants 是如何运行的（流程图） 1 ants 1.1 基本信息代码地址：github.com/panjf2000/ants/v2 介绍：ants是一个高性能的 goroutine 池&#xff0c…...

编程日记 2025/2/3 8:27:07

在 crag 中用 LangGraph 进行评分知识精炼-下

在上一次给大家展示了基本的 Rag 检索过程，着重描述了增强检索中的知识精炼和补充检索，这些都是 crag 的一部分，这篇内容结合 langgraph 给大家展示通过检索增强生成（Retrieval-Augmented Generation, RAG）的工作流&am…...

编程日记 2025/2/3 8:26:04

基于springboot+vue的哈利波特书影音互动科普网站

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…...

编程日记 2025/2/3 8:25:03

Cypher入门

文章目录 Cypher入门创建数据查询数据matchoptional matchwhere分页with 更新数据删除数据实例：好友推荐 Cypher入门 Cypher是Neo4j的查询语言。创建数据在Neo4j中使用create命令创建节点、关系、属性数据。 create (n {name:$value}) return n //创建节点&am…...

编程日记 2025/2/3 8:19:58

使用Z-score进行数据特征标准化

数据标准化是数据处理过程中非常重要的一步，尤其在构建机器学习模型时尤为关键。标准化的目的是将不同量纲的变量转换到相同的尺度，以避免由于量纲差异导致的模型偏差。Z-score标准化是一种常见且简单的标准化方法，它通过计算数据点与平均值的差异，并将其按标准差进行缩放，…...

编程日记 2025/2/3 8:16:54

初级数据结构:栈和队列

一、栈 (一)、栈的定义栈是一种遵循后进先出（LIFO，Last In First Out）原则的数据结构。栈的主要操作包括入栈（Push）和出栈（Pop）。入栈操作是将元素添加到栈顶，这一过程中&#xf…...

编程日记 2025/2/3 8:13:50

【思维导图】java

学习计划：将目前已经学的知识点串成一个思维导图。在往后的学习过程中，不断往思维导图里补充，形成自己整个知识体系。对于思维导图里的每个技术知识，自己用简洁的话概括出来， 训练自己的表达能力。面向对象三大特性 …...

编程日记 2025/2/3 8:09:46

Redis脑裂问题详解及解决方案

Redis是一种高性能的内存数据库，广泛应用于缓存、消息队列等场景。然而，在分布式Redis集群中，脑裂问题（Split-Brain）是一个需要特别关注的复杂问题。本文将详细介绍Redis脑裂问题的成因、影响及解决方案。一、什么是…...

编程日记 2025/2/3 8:06:43

玩转大语言模型——配置图数据库Neo4j（含apoc插件）并导入GraphRAG生成的知识图谱

系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型玩转大语言模型——使用GraphRAGOllama构建知识图谱玩转大语言模型——完美解决Gra…...

编程日记 2025/2/3 8:05:41

【Windows Server实战】生产环境云和NPS快速搭建

前置条件本文假定你已达成以下前提条件： 有域控DC。有证书服务器（AD CS）。已使用Microsoft Intune或者GPO为客户机申请证书。服务器上至少有两张网卡（如果用虚拟机做的测试环境，可以用一张HostOnly网卡做测试&#…...

编程日记 2025/2/3 7:55:24

[ESP32:Vscode+PlatformIO]新建工程常用配置与设置

2025-1-29 一、新建工程选择一个要创建工程文件夹的地方，在空白处鼠标右键选择通过Code打开打开Vscode，点击platformIO图标，选择PIO Home下的open，最后点击new project 按照下图进行设置第一个是工程文件夹的名称第二个是…...

编程日记 2025/2/3 7:54:18

【NLP251】Transformer精讲残差链接与层归一化

精讲部分，主要是对Transformer的深度理解方便日后从底层逻辑进行创新，对于仅应用需求的小伙伴可以跳过这一部分，不影响正常学习。 1. 残差模块何凯明在2015年提出的残差网络（ResNet），Transformer在2016年…...

编程日记 2025/2/3 7:52:11

康德哲学与自组织思想的渊源：从《判断力批判》到系统论的桥梁

康德哲学与自组织思想的渊源：从《判断力批判》到系统论的桥梁第一节：康德哲学中的自然目的论与自组织思想核心内容： 康德哲学中的自然目的论和反思判断力概念，为现代系统论中的自组织思想提供了哲学基础，预见了复…...

编程日记 2025/2/3 7:47:00

后进先出（LIFO）详解

LIFO 是 Last In, First Out 的缩写，中文译为后进先出。这是一种数据结构的工作原则，类似于一摞盘子或一叠书本： 最后放进去的元素最先出来 -想象往筒状容器里放盘子： （1）你放进的最后一个盘子&#xff08…...

编程新知 2025/11/6 17:21:15

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2025/11/3 10:32:07

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2025/11/4 18:34:34

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

目录一、👨‍🎓网站题目二、✍️网站描述三、📚网站介绍四、🌐网站效果五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目七、🎁更多干货一、👨‍&#x1f…...

编程新知 2025/11/5 16:59:33

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket（服务端和客户端都要）2. 绑定本地地址和端口&#x…...

编程新知 2025/10/31 21:54:15

IP如何挑？2025年海外专线IP如何购买？

你花了时间和预算买了IP，结果IP质量不佳，项目效率低下不说，还可能带来莫名的网络问题，是不是太闹心了？尤其是在面对海外专线IP时，到底怎么才能买到适合自己的呢？所以，挑IP绝对是个技…...

编程新知 2025/10/19 9:49:56

【从零学习JVM|第三篇】类的生命周期(高频面试题)

前言： 在Java编程中，类的生命周期是指类从被加载到内存中开始，到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期，让读者对此有深刻印象。目录 …...

编程新知 2025/10/27 14:36:50

MySQL JOIN 表过多的优化思路

当 MySQL 查询涉及大量表 JOIN 时，性能会显著下降。以下是优化思路和简易实现方法： 一、核心优化思路减少 JOIN 数量数据冗余：添加必要的冗余字段（如订单表直接存储用户名）合并表：将频繁关联的小表合并成…...

编程新知 2025/10/17 22:08:13

LabVIEW双光子成像系统技术

双光子成像技术的核心特性双光子成像通过双低能量光子协同激发机制，展现出显著的技术优势： 深层组织穿透能力：适用于活体组织深度成像高分辨率观测性能：满足微观结构的精细研究需求低光毒性特点：减少对样本的损伤…...

编程新知 2025/10/31 7:36:46

在 Spring Boot 中使用 JSP

jsp？ 好多年没用了。重新整一下还费了点时间，记录一下。项目结构： pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

编程新知 2025/10/29 11:20:47

1. 引入

2. 训练过程

3. 总结

4. 参考

相关文章：