当前位置：首页 > article >正文

LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码教程(2)

article 2026/4/22 16:43:22

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145640762

GPRO，即 Group Relative Policy Optimization，分组相对的策略优化，是 PPO(Proximal Policy Optimization, 近端策略优化) 的优化版本，省略优化评论家模型(Critic Model)，用于估计价值(Value Function Model)，降低模型训练的资源消耗。

GRPO 目标的工作原理如下：

为查询生成一组响应。
根据预定义的标准(例如准确性、格式)，计算每个响应的奖励。
比较组内的反应以计算他们的相对优势。
更新策略以支持具有更高优势的响应，剪裁(clip)确保的稳定性。
规范更新以防止模型偏离基线太远。

GRPO 有效的原因：

无需评论：GRPO 依靠群体比较，避免对于单独评估者的需求，从而降低了计算成本。
稳定学习：剪裁(clip) 和 KL 正则化确保模型稳步改进，不会出现剧烈波动。
高效训练：通过关注相对性能，GRPO 非常适合推理等绝对评分困难的任务。

在 DeepSeekMath (2024.4) 中，使用 GPRO 代替 PPO。

GRPO

回顾一下 PPO 模型的公式与框架，PPO 是先训练奖励模型(RM)，通过强化学习策略，将奖励模型的能力，学习到大语言模型中，同时，注意模型的输出符合之前的预期，不要偏离过远(KL Divergence)。即：

RM(Reward Model, 奖励模型)： $\underset{r_{\phi}}{max} \{ {E_{(x,y_{win},y_{loss}) \sim D}}[log \ \sigma(r_{\phi}(x,y_{win}) - r_{\phi}(x,y_{loss}))] \}$
PPO(Proximal Policy Optimization, 近端策略优化)： $\underset{\pi_{\theta}}{max} \{ E_{x \sim D,y \sim \pi_{\theta}(y|x)}[r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x) || \pi_{ref}(y|x)] \}$
KL 散度(KL Divergence)：

$\begin{align} D_{KL}[\pi_{\theta}(y|x) || \pi_{ref}(y|x)] &= \pi_{ref}(y|x) \ log{\frac{\pi_{ref}(y|x)}{\pi_{\theta}(y|x)}} \\ &= \pi_{ref}(y|x) (log \pi_{ref}(y|x) - log\pi_{\theta}(y|x)) \end{align}$

其中，Actor 和 Critic 损失函数如下：
$\begin{align} a[i,j] &= returns[i,j] - values[i,j] \\ Loss_{actor} &= -\frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} a[i,j] \times exp(log\_prob[i,j]-old\_log\_prob[i,j]) \\ Loss_{critic} &= \frac{1}{2MN} \sum_{i=1}^{M} \sum_{j=1}^{N} (values[i,j] - returns[i,j])^{2} \\ Loss & = Loss_{actor} + 0.1*Loss_{critic} \end{align}$
PPO 的奖励(Reward 计算)，一般而言，超参数 $\beta=0.1$ ：
$r_{t} = r_{\psi}(q,o_{\leq t}) - \beta log(\frac{\pi_{\theta}(o_{t}|q,o_{<t})}{\pi_{ref}(o_{t}|q,o_{<t})})$
在 PPO 中使用的价值函数(Critic Model)，通常与策略模型(Policy Model)大小相当，带来内存和计算负担。在强化学习训练中，价值函数作为基线，以减少优势函数计算中的方差。然而，在大语言模型(LLM) 的场景中，只有最后一个 Token 被奖励模型赋予奖励分数，使训练一个在每个标记处都准确的价值函数,变得复杂。GRPO 无需像 PPO 那样，使用额外的近似价值函数，而是使用同一问题产生的多个采样输出的平均奖励，作为基线。

GRPO 使用基于组相对(Group Relative) 的优势计算方式，与奖励模型比较特性一致，因为奖励模型通常是在同一问题上不同输出之间的比较数据集上进行训练的。同时，GRPO 没有在奖励(Reward) 中加入 KL 惩罚，而是直接将训练策略与参考策略之间的KL散度添加到损失函数中，从而避免了在计算优势时增加复杂性。

GPRO 的公式， $Q$ 表示 Query，即输入的问题，采样出问题 $q$ ，推理大模型，输出 $G$ 个输出 $o_{i}$ ：
$\begin{align} J_{GRPO}(\theta) &= \mathbb{E}[q \sim P(Q), \{{o_{i}}\}_{i=1}^{G} \sim \pi_{\theta_{old}}(O|q)] \\ Loss &= \frac{1}{G}\sum_{i=1}^{G}(min((\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)})A_{i}, clip(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)},1-\epsilon,1+\epsilon)A_{i}-\beta \mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref})) \\ \mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref}) &= \frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - 1 \\ A_{i} &= \frac{r_{i}-mean(\{r_{1},r_{2},\ldots,r_{G}\})}{std(\{r_{1},r_{2},\ldots,r_{G}\})} \end{align}$
GRPO 的 KL 散度，使用蒙特卡洛(Monte-Carlo) 近似计算 KL散度(Kullback-Leibler Divergence)，结果始终为正数。

参考源码，TRL - GRPO：

# Advantages
mean_grouped_rewards = mean_grouped_rewards.repeat_interleave(self.num_generations, dim=0)
std_grouped_rewards = std_grouped_rewards.repeat_interleave(self.num_generations, dim=0)
advantages = (rewards - mean_grouped_rewards) / (std_grouped_rewards + 1e-4)
# KL 散度
per_token_kl = torch.exp(ref_per_token_logps - per_token_logps) - (ref_per_token_logps - per_token_logps) - 1
# 期望
per_token_loss = torch.exp(per_token_logps - per_token_logps.detach()) * advantages.unsqueeze(1)
# 联合 loss
per_token_loss = -(per_token_loss - self.beta * per_token_kl)
# mask loss
loss = ((per_token_loss * completion_mask).sum(dim=1) / completion_mask.sum(dim=1)).mean()

GRPO 的训练源码：trl/trainer/grpo_trainer.py

GRPO

PPO 的伪码流程：

policy_model = load_model()
ref_model = policy_model.copy()  # 不更新
critic_model = load_reward_model(only_last=False)
reward_model = critic_mode.copy()    # 不更新for i in steps:# 1. 采样阶段prompts = sample_prompt()# old_log_probs[i][j](from policy_model), old_values[i][j](from critic_model)responses, old_log_probs, old_values = respond(policy_model, critic_model, prompts)# 2. 反馈阶段scores = reward_model(prompts, responses)# ref_log_probs[i][j](from ref_model)ref_log_probs = analyze_responses(ref_model, prompts, responses)  # ref logps# rewards[i][j] = scores[i] - (old_log_probs[i][j] - ref_log_prob[i][j])rewards = reward_func(scores, old_log_probs, ref_log_probs) # 奖励计算# advantages[i][j] = rewards[i][j] - old_values[i][j] advantages = advantage_func(rewards, old_values)  # 奖励(r)-价值(v)=优势(a)# 3. 学习阶段for j in ppo_epochs:  # 多次更新学习，逐渐靠近奖励log_probs = analyze_responses(policy_model, prompts, responses)values = analyze_responses(critic_model, prompts, responses)# 更新 actor(policy) 模型，学习更新的差异，advantages[i][j]越大，强化动作actor_loss = actor_loss_func(advantages, old_log_probs, log_probs)  critic_loss = critic_loss_func(rewards, values)  # 更新 critic 模型loss = actor_loss + 0.1 * critic_loss   # 更新train(loss, policy_model.parameters(), critic_model.parameters())   # 参数

参考知乎 - 图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

KL 散度的实现，如下：

import torch
import torch.nn.functional as F
# 假设我们有两个概率分布 P 和 Q
P = torch.tensor([0.1, 0.2, 0.7])   # 参考的、真实的
Q = torch.tensor([0.2, 0.3, 0.5])   # 模型生成的
# 计算 Q 的对数概率
log_Q = torch.log(Q)
# 使用 PyTorch 的 kl_div 函数计算 KL 散度
kl_divergence = F.kl_div(log_Q, P, reduction='sum')  # 注意先Q后P
print(f"KL Div (PyTorch): {kl_divergence}")
log_P = torch.log(P)
kl_elementwise = P * (log_P - log_Q)
# 对所有元素求和，得到 KL 散度
kl_divergence = torch.sum(kl_elementwise)

参考：

知乎 - GRPO: Group Relative Policy Optimization
GitHub - GRPO Trainer
Medium - The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO)

LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码教程(2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/145640762 GPRO，即 Group Relative Policy Optimization，分组相对的策略优化，是 PPO(Proximal Policy Optimiz…...

编程日记 2026/4/20 14:07:58

通过用户名和密码登录服务器有哪些方法

通过用户名和密码登录到服务器的方式取决于你使用的工具和协议。以下是几种常见的方法： 1. 使用 SSH 登录到 Linux 服务器你可以通过 SSH（Secure Shell）使用用户名和密码连接到远程服务器。通常，你会使用 ssh 命令来进行连接。…...

编程日记 2025/10/17 11:04:57

基于springboot 以及vue前后端分离架构的求职招聘系统设计与实现

基于springboot 以及vue前后端分离架构的求职招聘系统设计与实现随着互联网技术的飞速发展，求职招聘行业也在不断发生变革。传统的求职招聘方式往往存在着信息不对称、效率低下、交易成本高等问题，导致企业的招聘成本增加，求职者的体验下降…...

编程日记 2026/4/21 18:34:49

Spring Boot整合协同过滤算法，实现个性化推荐

1. 引言在这篇文章中，我们将展示如何使用 Spring Boot 框架与协同过滤算法相结合来构建一个简单的推荐系统。推荐系统广泛应用于电商、电影推荐、社交平台等领域。协同过滤算法通过分析用户行为，找出相似的用户或者物品，从而实现个性化推荐…...

编程日记 2026/4/20 19:14:16

自己部署 DeepSeek 助力 Vue 开发：打造丝滑的时间线（Timeline ）

前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 💕 目录自己…...

编程日记 2026/4/7 0:06:08

光谱相机在天文学领域的应用

天体成分分析恒星成分研究：恒星的光谱包含了其大气中各种元素的吸收和发射线特征。通过光谱相机精确测量这些谱线，天文学家能确定恒星大气中氢、氦、碳、氮、氧等元素的含量。如对太阳的光谱分析发现，太阳大气中氢元素占比约 71%&#xff0…...

编程日记 2026/4/13 6:23:18

深度卷积神经网络实战海洋动物图像识别

本文采用深度卷积神经网络作为核心算法框架，结合PyQt5构建用户界面，使用Python3进行开发。YOLOv11以其高效的特征提取能力，在多个图像分类任务中展现出卓越性能。本研究针对5种海洋动物数据集进行训练和优化，该数据集包含丰富的海…...

编程日记 2026/4/22 16:03:27

MySQL-mysql zip安装包配置教程

网上的教程有很多，基本上大同小异。但是安装软件有时就可能因为一个细节安装失败。我也是综合了很多个教程才安装好的，所以本教程可能也不是普遍适合的。安装环境：win11 1、下载zip安装包： MySQL8.0 For Windows zip包下载地址…...

编程日记 2026/4/20 14:07:38

Python爬虫实战：获取笔趣阁图书信息，并做数据分析

注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！ 1. 环境准备与反爬策略 python import requests from bs4 import BeautifulSoup import pandas as pd import re import time import random from fake_useragent …...

编程日记 2026/2/8 9:10:55

redis底层数据结构——整数集合

文章目录定义内部实现升级升级的好处提升灵活性节约内存降级总结定义整数集合（intset）是集合键的底层实现之一，当一个集合只包含整数值元素，并且这个集合的元素数量不多时，Redis就会使用整数集合作为集合键的底层…...

编程日记 2026/2/16 14:55:02

机器学习网络安全

实现机械学习网络安全的流程概述在实现“机器学习网络安全”这个任务中，我们需要经历一系列步骤，从数据准备、训练到模型评估。在这篇文章中，我将详细介绍每个步骤的具体操作，并附上相应的代码示例和解释。步骤下面是实现…...

编程日记 2026/4/14 15:29:49

ECP在Successfactors中paylisp越南语乱码问题

导读 pyalisp:ECP中显示工资单有两种方式，一种是PE51，一种是hrform，PE51就是划线的那种， 海外使用的比较多，国内基本没人使用，hrform就是pdf，可以编辑pdf，这个国内相对使用的人比…...

编程日记 2026/4/14 8:24:26

PDF另存为图片的一个方法

说明有时需要把PDF的每一页另存为图片。用Devexpress可以很方便的完成这个功能。窗体上放置一个PdfViewer。然后循环每一页 for (int i 1; i < pdfViewer1.PageCount; i) 调用 chg_pdf_to_bmp函数获得图片并保存 chg_pdf_to_bmp中调用了PdfViewer的CreateBitmap函数…...

编程日记 2026/4/20 14:07:54

【C/C++】联合体

零.导言在学习了结构体和位段后，聪明的你一定意识到了像这样的数据结构一定还有很多。没错，和结构体相似的数据结构还有联合体。一.什么是联合体？ 联合体，顾名思义，和其成员的储存性质相关。联合，是指联合…...

编程日记 2026/4/15 21:30:24

本地部署DeepSeek集成VSCode创建自己的AI助手

文章目录安装Ollama和CodeGPT安装Ollama安装CodeGPT 下载并配置DeepSeek模型下载聊天模型（deepseek-r1:1.5b）下载自动补全模型（deepseek-coder:1.3b） 使用DeepSeek进行编程辅助配置CodeGPT使用DeepSeek模型开始使用AI助手 ✍️相…...

编程日记 2026/4/13 23:02:26

无人机雨季应急救灾技术详解

无人机在雨季应急救灾中发挥着至关重要的作用，其凭借机动灵活、反应迅速、高效安全等特点，为救灾工作提供了强有力的技术支撑。以下是对无人机雨季应急救灾技术的详细解析： 一、无人机在雨季应急救灾中的应用场景 1. 灾情侦查与监测无人机…...

编程日记 2026/4/13 17:03:54

DeepSeek本地化部署【window下安装】【linux下安装】

一、window 本地安装指导 1.1、下载window安装包 https://ollama.com/download/OllamaSetup.exe 1.2、点击下载好的安装包进行安装检测安装是否成功： C:\Users\admin>ollama -v ollama version is 0.5.7有上面的输出，则证明已经安装成功。配置…...

编程日记 2026/4/20 9:26:48

Ae：常见的光照控件和材质控件

在 After Effects中，几种模拟效果都有类似的光照控件和材质控件，比如，焦散、卡片动画、碎片等。光照控件和材质控件允许用户模拟不同光源、阴影和高光效果，控制表面反射特性，从而实现真实的光照和反射模拟。适用于材质…...

编程日记 2026/4/22 16:17:13

【鸿蒙开发】第三十章应用稳定性-检测、分析、优化、运维汇总

目录 1 概述 2 使用Asan检测内存错误 2.1 背景 2.2 原理概述 2.3 使用约束 2.4 配置参数 2.4.1 在app.json5中配置环境变量 2.4.2 在Run/Debug Configurations中配置环境变量 2.5 Asan使能方式一方式二运行ASan 2.6 ASan异常检测类型 heap-buf…...

编程日记 2026/4/22 10:51:14

紫光展锐蜂窝物联网芯片V8850荣获国密一级安全认证

近日，紫光展锐蜂窝物联网芯片V8850荣获国密一级认证，标志着展锐V8850在安全能力方面获得权威认可，位居行业领先水平。这是紫光展锐继短距物联网芯片V5663在2020获得ARM PSA Level 2认证，蜂窝物联网芯片V8811在2021年获得ARM PSA L…...

编程日记 2025/10/15 21:42:42

在freertos中，中断优先级和任务优先级之间的关系和使用方法

中断优先级和任务优先级如何匹配？任务优先级不同任务之间该用多高的优先级？中断优先级不同中断中该用多高的优先级？中断优先级和任务优先级设置时，怎样设置可以让任务在调度时屏蔽中断？怎样设置可以让任务在调度时&…...

编程日记 2025/9/2 7:10:15

Linux软件编程：IO编程

IO（linux输入输出） 1. IO概念： I：输入 O：输出 Linux 一切皆是文件屏幕 -> /dev/tty 磁盘 -> /dev/sda 网卡键盘 -> /dev/event 鼠标-> /dev/mice 都是一个文件 2. IO操作的对象： 文件 3. 文…...

编程日记 2026/4/21 15:49:21

2025-2-14算法打卡

一，右旋字符串 1.题目描述： 字符串的右旋转操作是把字符串尾部的若干个字符转移到字符串的前面。给定一个字符串 s 和一个正整数 k，请编写一个函数，将字符串中的后面 k 个字符移到字符串的前面，实现字符串的右旋转操…...

编程日记 2026/1/1 16:47:09

在 debian 12 上安装 mysqlclient 报错

报错如下 Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple Collecting mysqlclientUsing cached https://pypi.tuna.tsinghua.edu.cn/packages/61/68/810093cb579daae426794bbd9d88aa830fae296e85172d18cb0f0e5dd4bc/mysqlclient-2.2.7.tar.gz (91 kB)Installi…...

编程日记 2025/11/28 17:31:12

LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码教程(2)

相关文章：

LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码教程(2)

通过用户名和密码登录服务器有哪些方法

基于springboot 以及vue前后端分离架构的求职招聘系统设计与实现

Spring Boot整合协同过滤算法，实现个性化推荐

自己部署 DeepSeek 助力 Vue 开发：打造丝滑的时间线（Timeline ）

光谱相机在天文学领域的应用

深度卷积神经网络实战海洋动物图像识别

MySQL-mysql zip安装包配置教程

Python爬虫实战：获取笔趣阁图书信息，并做数据分析

redis底层数据结构——整数集合

机器学习网络安全

ECP在Successfactors中paylisp越南语乱码问题

PDF另存为图片的一个方法

【C/C++】联合体

本地部署DeepSeek集成VSCode创建自己的AI助手

无人机雨季应急救灾技术详解

DeepSeek本地化部署【window下安装】【linux下安装】

Ae：常见的光照控件和材质控件

【鸿蒙开发】第三十章应用稳定性-检测、分析、优化、运维汇总

紫光展锐蜂窝物联网芯片V8850荣获国密一级安全认证

在freertos中，中断优先级和任务优先级之间的关系和使用方法

Linux软件编程：IO编程

2025-2-14算法打卡

在 debian 12 上安装 mysqlclient 报错

javaEE2

2025最新深度学习pytorch完整配置：conda/jupyter/vscode

华为小艺助手接入DeepSeek，升级鸿蒙HarmonyOS NEXT即可体验

C++ 标准库常见容器

Ubuntu 上安装 MySQL 8.0.22

C++ 中的继承与派生