当前位置：首页 > article >正文

浅入浅出 GRPO in DeepSeekMath

article 2026/2/8 4:27:22

GRPO in DeepSeekMath

GRPO 通过在生成组内进行比较来直接评估模型生成的响应，以优化策略模型，而不是训练单独的价值模型，这种方法显著降低了计算成本。GRPO 可以应用于任何可以确定响应正确性的可验证任务。例如，在数学推理中，可以通过将响应与基本事实进行比较来轻松验证响应的正确性。

The GRPO Algorithm

Step 1: Group Sampling

第一步是为每个问题生成多个可能的答案。这会产生一组可以相互比较的多样化输出。

$q$ : question
$G$ : group size
$\pi_{\theta_{old}}$ : trained model(policy)
$\{o_1, o_2, o_3, ... , o_G;\pi_{\theta_{old}}\}$ : group outputs

Step 2: Advantage Calculation

一旦我们有多个响应(output)，我们就需要一种方法来确定哪些响应比其他响应更好，这就是优势计算。

首先为每个响应输出分配一个奖励分数，可以使用奖励模型也可以使用奖励函数。例如：为每一个正确的输出分配一个奖励分数 1，错误的输出分配一个奖励 0。
优势计算：

$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, ..., r_G\})}{\text{std}(\{r_1, r_2, ..., r_G\})}$

Step 3: Policy Update

$J_{GRPO}(\theta) = \Big[\frac{1}{G}\sum_{i=1}^G \text{min}\Big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i,\text{clip}\big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\big)A_i\Big)\Big] - \beta D_{KL}(\pi_{\theta},\pi_{ref})$

$\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}$ : Probability Ratio，比较了新模型的响应概率与旧模型的响应概率的差异程度，同时纳入了对改善预期结果的响应的偏好，这个比率使我们能够控制模型在每个步骤中的变化量。
$\text{clip}\big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\big)$ : Clip Function，将上述比率限制为[1−ε,1+ε][1−ε.1+ε]以避免剧烈的变化/更新，以及远离旧的模型。换句话说，它限制了概率比可以增加的程度，通过避免将新模型推得太远的更新来帮助保持稳定性。
$\beta D_{KL}(\pi_{\theta},\pi_{ref}) = \sum_{x\in X} P(x)\text{log}\frac{P(x)}{Q(x)}$ : KL Divergence，KL 散度被最小化，以防止模型在优化过程中偏离其原始行为太远。这有助于在根据奖励信号提高性能和保持连贯性之间取得平衡。在这种情况下，最小化 KL 散度可以降低模型生成无意义文本的风险，或者在数学推理的情况下，产生极其错误答案的风险。
$\beta$ : 控制 KL 散度约束的强度：
- higher $\beta$ : 模型更新限制更多，模型的输出仍然接近参考模型分布，难以探索更好的响应。
- lower $\beta$ : 更自由的更新，存在不稳定风险，生成无意义的输出，可能会出现reward-hacking行为。
- Original $\beta$ : 0.04(DeepSeekMath)

GRPO Example

问题： $\text{Calculate} 2 + 2 \times 6$ ， $A = 14$

Step 1: Group Sampling

$G = 8$ , $O = \{o_1:14, o_2:13, o_3:11, o_4:14, o_5:14, o_6:15, o_7:14, o_8:10\}$

Step 2: Advantage Calculation

$R = \{r_1 = 1, r_2 = 0, r_3 = 0, r_4 = 1, r_5 = 1, r_6=0, r_7=1, r_8 =0 \}$

Statistic	Value
Group Average	$mean(r_i)=0.5$
Standard Deviation	$std(r_i)=0.53$
Advantage Value (Correct response)	$A_i=\frac{1−0.5}{0.53}=0.94$
Advantage Value (Wrong response)	$A_i=\frac{0−0.5}{0.53}=−0.94$

Step 3: Policy Update

假设： $\pi_{\theta_{old}} = 0.5$ ， $\pi_\theta = 0.7$ ， $\epsilon = 0.2$

$\text{Probability Ratio} = \frac{0.7}{0.5} = 1.4 \text{ after Clip } \to 1.2$

Summary

GRPO对于数学推理任务特别强大，因为在数学推理任务中，正确性可以得到客观验证。与需要单独奖励：模型的传统 RLHF 方法相比，GRPO 方法允许更高效的训练。

GRPO 比较一组内的多个输出，以确定哪些输出比其他输出更好，而无需单独的价值模型。
优势计算对奖励进行标准化，以确定哪些响应高于或低于平均水平。
策略更新使用带有 KL 发散惩罚的裁剪目标函数来确保稳定学习。

浅入浅出 GRPO in DeepSeekMath

GRPO in DeepSeekMath

The GRPO Algorithm

Step 1: Group Sampling

Step 2: Advantage Calculation

Step 3: Policy Update

GRPO Example

Summary

相关文章：

浅入浅出 GRPO in DeepSeekMath

计算机网络起源

HTML 嵌入标签对比：小众（＜embed＞、＜object＞）与＜iframe＞的优缺点及使用场景和方式

[python] 作用域

AICon 2024年全球人工智能与大模型开发与应用大会（脱敏）PPT汇总（36份）.zip

51电子表

9-函数的定义及用法

高清视频会议系统BeeWorks Meet，支持私有化部署

用HTML和CSS绘制佩奇：我不是佩奇

彩讯携Rich AICloud与一体机智算解决方案亮相中国移动云智算大会

BERT - 直接调用transformers.BertModel, BertTokenizerAPI不进行任何微调

安卓开发提示Android Gradle plugin错误

声学测温度原理解释

Cuto壁纸 2.6.9 | 解锁所有高清精选壁纸，无广告干扰

C语言 AI 通义灵码 VSCode插件安装与功能详解

二分查找5：852. 山脉数组的峰顶索引

1.2 测试设计阶段：打造高质量的测试用例

【模拟电路】稳压二极管/齐纳二极管

项目周期过长，如何拆分里程碑

Java基础 - 泛型（常见用法）

蓝桥杯刷题总结 + 应赛技巧

希哈表的学习

Qt之OpenGL使用Qt封装好的着色器和编译器

备赛蓝桥杯-Python-考前突击

零基础开始学习鸿蒙开发-智能家居APP离线版介绍

不再卡顿！如何根据使用需求挑选合适的电脑内存？

华为云云化数据中心 CloudDC | 架构分析与应用场景

【射频仿真学习笔记】变压器参数的Mathematica计算以及ADS仿真建模

Linux系统Docker部署开源在线协作笔记Trilium Notes与远程访问详细教程

C++基础精讲-01