当前位置：首页 > article >正文

基于Contiue来阅读open-r1中的GRPO训练代码

article 2026/2/7 4:00:32

原创快乐王子HP 快乐王子AI说 2025年04月03日 23:54 广东

前面安装了vscode[1]同时也安装了Coninue的相关插件[2]，现在想用它们来阅读一下open-r1项目的代码[3]。

首先，从启动训练开始(以GRPO为例子）

第一步，使用TRL的vLLM后端

CUDA_VISIBLE_DEVICES=0 trl vllm-serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

第二步，启动GRPO

CUDA_VISIBLE_DEVICES=1,2,3,4,5,6,7 ACCELERATE_LOG_LEVEL=info \     accelerate launch --config_file recipes/accelerate_configs/zero2.yaml --num_processes 7 \     src/open_r1/grpo.py --config recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml

查看vllm的服务启动帮助文档

usage: trl vllm-serve [-h] --model MODEL [--revision REVISION] [--tensor_parallel_size TENSOR_PARALLEL_SIZE] [--host HOST] [--port PORT] [--gpu_memory_utilization GPU_MEMORY_UTILIZATION] [--dtype DTYPE]                       [--max_model_len MAX_MODEL_LEN] [--enable_prefix_caching ENABLE_PREFIX_CACHING]

关于zero2.yaml文件

（https://github.com/huggingface/open-r1/blob/main/recipes/accelerate_configs/zero2.yaml）

1.核心配置:    - 使用 DeepSpeed 的 Zero Stage 2 优化 (zero_stage: 2)    - 混合精度训练采用 bf16 (mixed_precision: bf16)    - 单机 8 GPU 训练 (num_machines: 1, num_processes: 8)2.Zero Stage 2 特点:    - 优化器状态分区，减少内存占用    - 没有启用参数或优化器卸载 (offload_optimizer_device: none, offload_param_device: none)    - 比 Stage 3 内存效率稍低，但通信开销更小3.硬件配置:    - 纯 GPU 训练 (use_cpu: false)    - 不涉及 TPU (tpu_* 相关配置均为 false)    - 适合具有 8 个 GPU 的单个节点4.使用场景:    - 中等规模模型训练    - 当 GPU 内存足够容纳模型参数和激活值时    - 需要比 Zero Stage 1 更高的内存效率，但不想承受 Stage 3 的通信开销5.性能考虑:    - bf16 混合精度可以在支持它的硬件上提供良好的训练速度和内存效率    - 8 个 GPU 的配置适合大多数单节点服务器这个配置文件适合在单个多 GPU 节点上训练中等规模模型，在内存效率和通信开销之间取得平衡。

recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml文件分析

（https://github.com/huggingface/open-r1/blob/main/recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml）

1.模型架构:  - 基于1.5B参数的蒸馏版Qwen模型  - 使用Flash Attention 2优化注意力计算  - bfloat16混合精度训练2.训练策略:  - 采用GRPO(可能是一种强化学习优化算法)训练方法  - 结合三种奖励函数:准确性、格式正确性和标签计数  - 使用vLLM加速推理过程3.数据处理:  - 专门设计的复杂对话模板  - 数学领域专用数据集(OpenR1-Math-220k)  - 要求模型以和标签分步输出4.资源利用:  - 梯度检查点和梯度累积优化显存使用  - 适中的batch size(16)和上下文长度(512/2048)5.监控与部署:  - 完整的训练日志记录(W&B)  - 模型自动推送至HuggingFace Hub  - 严格的模型保存策略

grpo.py文件

（https://github.com/huggingface/open-r1/blob/main/src/open_r1/grpo.py）

```mermaidgraph TD    A[开始] --> B[设置随机种子]    B --> C[配置日志系统]    C --> D[检查检查点]    D --> E[初始化WandB]    E --> F[加载数据集]    F --> G[加载tokenizer]    G --> H[获取奖励函数]    H --> I[格式化对话数据]    I --> J[初始化模型参数]    J --> K[创建GRPOTrainer]    K --> L{是否有检查点?}    L -- 是 --> M[从检查点恢复训练]    L -- 否 --> N[开始新训练]    M --> O[训练模型]    N --> O    O --> P[保存模型和指标]    P --> Q{是否评估?}    Q -- 是 --> R[执行评估]    Q -- 否 --> S    R --> S[保存评估结果]    S --> T{是否推送至Hub?}    T -- 是 --> U[推送模型]    T -- 否 --> V[结束]    U --> V```

rewards.py

（https://github.com/huggingface/open-r1/blob/main/src/open_r1/rewards.py）

结合医学场景来探索

def medical_accuracy_reward(response: str, golden_answer: str) -> float:    """评估医学准确性，需要与标准医学答案对比"""    # 这里可以集成医学知识库或NLP模型进行专业评估    medical_terms_score = calculate_medical_terms_match(response, golden_answer)    treatment_score = evaluate_treatment_correctness(response, golden_answer)    return 0.6 * medical_terms_score + 0.4 * treatment_scoredef safety_reward(response: str) -> float:    """安全性评估：检查是否有危险建议"""    dangerous_keywords = ["自行停药", "未经医生", "高剂量", "随意服用"]    for keyword in dangerous_keywords:        if keyword in response:            return 0.0  # 发现危险建议直接0分    return 1.0def citation_reward(response: str) -> float:    """参考文献引用评估"""    citation_formats = ["[1]", "(Smith et al., 2020)", "根据最新指南"]    return 1.0 if any(fmt in response for fmt in citation_formats) else 0.5def patient_language_reward(response: str) -> float:    """患者友好语言评估"""    complex_terms = ["病理学", "分子机制", "流行病学"]    simplified_explanations = ["简单说", "通俗理解", "换句话说"]        complex_count = sum(term in response for term in complex_terms)    simple_count = sum(term in response for term in simplified_explanations)        if complex_count == 0:         return 1.0    return simple_count / (complex_count + 1)  # 确保至少解释了部分复杂术语def empathy_reward(response: str) -> float:    """同理心评估"""    empathy_keywords = ["理解您", "不用担心", "建议咨询", "我们会帮助"]    return min(1.0, 0.2 * sum(kw in response for kw in empathy_keywords))

参考：

[1]vscode安装：https://mp.weixin.qq.com/s/FvqSUrJFFXSVxFpZ6Q2-jg

[2]vscode上安装Coninue的相关插件：

https://mp.weixin.qq.com/s/cD-BHkCWQxfeedL3eboaBA

[3]open-r1项目：https://mp.weixin.qq.com/s/BDDUe1RyIVutucUVA9Yuzg，https://github.com/huggingface/open-r1]

基于Contiue来阅读open-r1中的GRPO训练代码

原创快乐王子HP 快乐王子AI说 2025年04月03日 23:54 广东前面安装了vscode[1]同时也安装了Coninue的相关插件[2]，现在想用它们来阅读一下open-r1项目的代码[3]。首先，从启动训练开始(以GRPO为例子） 第一步，使用TRL的vLLM后端…...

编程日记 2026/2/5 17:19:15

51c嵌入式~单片机~合集7~※

我自己的原文哦~ https://blog.51cto.com/whaosoft/13692314 一、芯片工作的心脏--晶振在振荡器中采用一个特殊的元件——石英晶体，它可以产生频率高度稳定的交流信号，这种采用石英晶体的振荡器称为晶体振荡器，简称晶振。制作方法 …...

编程日记 2026/1/30 20:02:23

GRPO训练下的参考模型选择

一、普通全量微调模型核心机制：模型克隆深拷贝创建通过create_reference_model(model)对当前模型进行完全复制（包括所有层和参数）。示例代码：import copy def create_reference_model(model):ref_model copy.deepcopy(model)…...

编程日记 2026/1/21 14:37:55

英菲克（INPHIC）A9无线蓝牙鼠标链接电脑的方式

英菲克（INPHIC）A9鼠标链接至电脑时，要长按住“模式切换MODE”按钮5秒左右的时间，此时模式指示灯变成蓝色，并且闪烁。这时使用电脑的蓝牙设置中，“添加设备”，会出现BT4.0 Mouse提示&#xff0…...

编程日记 2026/2/7 3:40:43

--print("local ssxc{\n"..string.gsub(str,":","").."\n}") Utils {} ---------------------------------------------------------------------------------- -- Lua-Table 与 string 转换 local function value2string(value, isA…...

编程日记 2026/2/2 22:01:05

linux命令-find指令

1.文件名和路径参数说明示例 -name pattern 按文件名匹配（区分大小写） -iname pattern 按文件名匹配（忽略大小写） -path pattern 按路径匹配 -ipath pattern 按路径匹配（忽略大小写） find . -name &…...

编程日记 2025/12/18 22:29:06

【每日一个知识点】分布式数据湖与实时计算

在现代数据架构中，分布式数据湖（Distributed Data Lake） 结合实时计算（Real-time Computing） 已成为大数据处理的核心模式。数据湖用于存储海量的结构化和非结构化数据，而实时计算则确保数据能够被迅速处理…...

编程日记 2026/2/5 0:33:21

【3.软件工程】3.5 V开发模型

V模型深度解析：测试驱动的软件开发框架 ⚙️ 一、V模型全景流程图 #mermaid-svg-IoovYFLLXyzJAePg {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-IoovYFLLXyzJAePg .error-icon{fill:#552222;}#mermai…...

编程日记 2025/12/9 1:48:48

生成对抗网络（GAN）详解（代码实现）

GANs 的基本概念 This framework can yield specific training algorithms for many kinds of model and optimization algorithm. In this article, we explore the special case when the generative model generates samples by passing random noise through a multilayer …...

编程日记 2025/11/25 2:03:27

leecode第18天

3274.检查棋盘方格颜色是否相同 # 给你两个字符串 coordinate1 和 coordinate2，代表 8 x 8 国际象棋棋盘上的两个方格的坐标。# 以下是棋盘的参考图。 class Solution:"""该类用于检查两个棋盘格子的颜色是否相同"""def checkTwoChe…...

编程日记 2026/1/7 12:48:00

c语言数据结构--------拓扑排序和逆拓扑排序(Kahn算法和DFS算法实现)

#include <stdio.h> #include <string.h> #include <stdbool.h> #include <stdlib.h>//使用卡恩算法(Kahn)和深度优先算法(DFS)实现//拓扑排序和逆拓扑排序//拓扑排序和逆拓扑排序顶点顺序相反//图，邻接矩阵存储 #define MaxVertexNum 100 …...

编程日记 2026/2/5 17:41:03

谷粒微服务高级篇学习笔记整理---nginx搭建正反向代理

正向与反向代理 **正向代理：**客户端向代理服务器发请求并指定目标服务器，代理向目标转交请求并将获得的内容转给客户端。反向代理：用户直接访问反向代理服务器就可以获得目标服务器的资源。反向代理服务器统一了访问入口。给首页配置反向代理修改windows的hosts文件配…...

编程日记 2026/2/5 18:43:18

2.pycharm保姆级安装教程

一、pycharm安装 1.官网上下载好好软，双击打开 2.下一步 3.修改路径地址 (默认也可以) 4.打勾 5.安装不用重启电脑二、添加解释器 1.双击软件，打开 2.projects – new project 3.指定项目名字，项目保存地址，解释器 4.右击 – …...

编程日记 2026/2/3 0:09:26

基于方法分类的无监督图像去雾论文

在之前的博客中，我从研究动机的角度对无监督图像去雾论文进行了分类，而现在我打算根据论文中提出的方法进行新的分类。 1. 基于对比学习的方法 2022年论文《UCL-Dehaze: Towards Real-world Image Dehazing via Unsupervised Contrastive Learning》&a…...

编程日记 2026/1/8 10:24:28

【SQL】取消sql某一列的唯一值key值的方法

在插入数据到sql时，遇到了这个问题： Duplicate entry ‘XXX’ for key 起因是： 我之前设计表的时候，手动给product_title 这个列加了一个key， key 是这个字段的唯一键约束，就不能重复在这一列存入重复的数…...

编程日记 2026/1/30 17:38:58

数据库--SQL

SQL：Structured Query Language，结构化查询语言 SQL是用于管理关系型数据库并对其中的数据进行一系列操作（包括数据插入、查询、修改删除）的一种语言分类：数据定义语言DDL、数据操纵语言DML、数据控制语言DCL、事务处…...

编程日记 2026/2/5 19:44:54

SQL语句（一）—— DDL

目录一、SQL 基础知识 （一）SQL 通用语法 （二）SQL 分类二、DDL —— 数据库操作 1、查询所有数据库 2、查询当前数据库 3、创建数据库 4、删除数据库 5、切换数据库三、DDL —— 表操作 （一）查…...

编程日记 2026/2/7 2:02:49

硬件负载均衡：让服务像“牛顿钟”一样稳！

硬件负载均衡：让服务像“牛顿钟”一样稳！大家好，我是 Echo_Wish，今天要聊聊提高服务可用性的一大利器——硬件负载均衡。如果你是运维领域的一员，肯定对“负载均衡”这个词耳熟能详。然而，很多朋友一提到硬件负载均衡，脑袋可能就卡住了：这是啥？跟软件负载均衡有啥区…...

编程日记 2026/1/26 3:14:24

Husky目标跟踪

1.0设备清单幻影峡谷、适配器摄像头及数据线、显卡欺骗器外接屏幕、键盘鼠标 Husky底盘、便携显示屏、键盘鼠标移动电源 1.1连线插排——移动电源幻影峡谷——适配器——插排摄像头——幻影峡谷（摄像头固定在机械臂前方的底盘上）键盘鼠标显示器…...

编程日记 2026/2/2 22:17:15

高通camx IOVA内存不足，导致10-15x持续拍照后，点击拍照键定屏无反应，过一会相机闪退

定屏闪退问题分析思路： 定屏问题如果是相机问题，一般会出现返帧，导致预览卡死。当然还有其他情况，我们先看返帧情况，发现request和result开始都正常，到12:53:05.443038就没有返帧了，定屏了。往…...

编程日记 2026/1/26 17:19:07

Python----机器学习（线性回归：自求导的方法实现）

一、线性回归方程目标： 线性回归的目标是找到最佳的系数来使模型与观察到的数据尽可能拟合。应用： 预测：给定自变量的值，预测因变量的值。回归分析：确定自变量对因变量的影响程度线性回归是统计学和机器学习中最简…...

编程日记 2026/2/5 9:49:38

Parasoft C++Test软件单元测试_操作指南

系列文章目录 Parasoft C++Test软件静态分析：操作指南（编码规范、质量度量）、常见问题及处理 Parasoft C++Test软件单元测试：操作指南、实例讲解、常见问题及处理 Parasoft C++Test软件集成测试：操作指南、实例讲解、常见问题及处理进阶扩展：自动生成静态分析文档、自动…...

编程日记 2026/1/23 19:12:08

QT之QML（简单示例）

需求一：点击按钮弹出菜单，并且自定义菜单弹出位置。 mouse.x 和 mouse.y 获取的是相对于 MouseArea（在这个例子中是 Button）左上角的局部坐标。如果你想要在鼠标点击位置显示 Menu，你需要将这个局部坐标转换为相对于应…...

编程日记 2026/1/27 1:06:22

【自动化运维】Python 的安装和使用

Python 的安装和使用文章目录 Python 的安装和使用一、Linux环境安装Python1.1、设置Yum仓库1.2、安装依赖包1.3、编译Python1.3.1、解压Python压缩包1.3.2、配置Python1.3.3、编译及安装1.3.4、链接软连接 1.4、测试Python3运行1.5、设置国内pip更新源1.6、更新pip版本&#…...

编程日记 2026/1/24 9:38:54

Springcache+xxljob实现定时刷新缓存

目录 SpringCache详解 SpringCache概述核心原理接口抽象与多态 AOP动态代理核心注解以及使用公共属性 cacheNames KeyGenerator：key生成器 key condition：缓存的条件，对入参进行判断注解 xxl-job详解 SpringcacheRedis实现…...

编程日记 2026/2/3 1:29:36

线性规划建模工具 PuLP 学习指南

PuLP 是一个用 Python 编写的线性规划建模工具，它提供了直观的 API 来定义和求解各种优化问题。以下是学习 PuLP 的全面指南： 1. 安装 PuLP pip install pulp2. 基本概念问题类型 LpProblem: 表示优化问题LpVariable: 表示决策变量LpConstraint: 表…...

编程日记 2026/2/2 6:49:26

vue2拖拉拽做个模拟公式工具

1. 成图 2. 介绍就是简单拖拉拽来做个规则运算器，具体运算规则、校验规则自己加。 3. 代码 HTML代码 <template><div class"red-cont"><div class"red-top"><divclass"red-top-left"><div class&quo…...

编程日记 2026/2/2 19:52:40

两点与圆（异或神通）

给出 n 个圆，保证任意两个圆都不相交且不相切。然后给出两个点 (x1,y1),(x2,y2)，保证均不在某个圆上。现在要从 (x1,y1)→(x2,y2) 画条曲线，问这条曲线最少穿过多少次圆的边界？ 输入格式第一行为一个整数 n&…...

编程日记 2026/1/8 22:27:13

Windows查重工具，强烈推荐大家收藏！

我大家在用电脑的时候，是不是发现用得越久，电脑里的软件和文件就越多？ 今天我给大家带来的这两款重复文件查找神器，简直就是电脑里的“清洁小能手”，能帮你把那些重复的文件和文件夹找出来。 Easy DupLicate Finder 重…...

编程日记 2026/2/5 11:18:20

使用Python快速接入DeepSeek API的步骤指南

使用Python快速接入DeepSeek API的步骤指南 1. 前期准备注册DeepSeek账号访问DeepSeek官网注册账号完成邮箱验证等认证流程获取API密钥登录后进入控制台 → API管理创建新的API Key并妥善保存安装必要库 pip install requests # 可选：处理复杂场景 pip…...

编程日记 2026/2/6 12:54:20

基于Contiue来阅读open-r1中的GRPO训练代码

首先，从启动训练开始(以GRPO为例子）

关于zero2.yaml文件

recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml文件分析

grpo.py文件

rewards.py

结合医学场景来探索

相关文章：

基于Contiue来阅读open-r1中的GRPO训练代码

51c嵌入式~单片机~合集7~※

GRPO训练下的参考模型选择

英菲克（INPHIC）A9无线蓝牙鼠标链接电脑的方式

lua表table和JSON字符串互转

linux命令-find指令

【每日一个知识点】分布式数据湖与实时计算

【3.软件工程】3.5 V开发模型

生成对抗网络（GAN）详解（代码实现）

leecode第18天

c语言数据结构--------拓扑排序和逆拓扑排序(Kahn算法和DFS算法实现)

谷粒微服务高级篇学习笔记整理---nginx搭建正反向代理

2.pycharm保姆级安装教程

基于方法分类的无监督图像去雾论文

【SQL】取消sql某一列的唯一值key值的方法

数据库--SQL

SQL语句（一）—— DDL

硬件负载均衡：让服务像“牛顿钟”一样稳！

Husky目标跟踪

高通camx IOVA内存不足，导致10-15x持续拍照后，点击拍照键定屏无反应，过一会相机闪退

Python----机器学习（线性回归：自求导的方法实现）

Parasoft C++Test软件单元测试_操作指南

QT之QML（简单示例）

【自动化运维】Python 的安装和使用

Springcache+xxljob实现定时刷新缓存

线性规划建模工具 PuLP 学习指南

vue2拖拉拽做个模拟公式工具

两点与圆（异或神通）

Windows查重工具，强烈推荐大家收藏！

使用Python快速接入DeepSeek API的步骤指南