当前位置：首页 > article >正文

LLMs之DeepSeek r1：Logic-RL的简介、安装和使用方法、案例应用之详细攻略

article 2026/4/29 8:26:15

Logic-RL的简介

1、Logic-RL的特点

2、性能

Logic-RL 的安装和使用方法

1、安装

2、使用方法

数据准备

基础模型

指令模型

训练执行

实现细节

Logic-RL的案例应用

Logic-RL的简介

Logic-RL 项目成功复现了 DeepSeek R1 Zero 在 2000 条逻辑谜题数据集上的结果。该项目的研究报告即将发布。项目使用 2000 条训练数据和 400 个训练步骤，取得了显著成果，并在持续更新中。项目地址提供了详细的 Wandb 项目链接和技术报告链接。

GitHub地址：GitHub - Unakar/Logic-RL: Reproduce R1 Zero on Logic Puzzle

1、Logic-RL的特点

Logic-RL 项目在基于规则的强化学习的基础上，增强了以下几个方面：
>> 不确定性标记 (Uncertainty Marking)：标记模棱两可的步骤，以便验证。
>> 渐进式总结 (Progressive Summarization)：维护中间结论。
>> 自我验证 (Self Verification)：先验证再作答。
>> 多语言切换 (Multilingual Switching)：支持中文推理过程和英文答案。

2、性能

项目模型仅使用了 2K 训练数据和 400 个训练步骤

Model	2ppl	3ppl	4ppl	5ppl	6ppl	7ppl	8ppl
o1-2024-12-17	0.83	0.51	0.38	0.38	0.35	0.30	0.20
GPT-4o	0.68	0.57	0.49	0.32	0.23	0.21	0.11
Deepseek-Math-7b	0.35	0.21	0.08	0.06	0.02	0.00	0.00
Qwen2.5-7B-Instruct-1M	0.49	0.40	0.25	0.11	0.02	0.06	0.01
Qwen2.5-7B-Logic-RL (ours)	0.68	0.59	0.44	0.34	0.22	0.16	0.15

Logic-RL 的安装和使用方法

1、安装

创建 conda 环境：conda create -n logic python=3.9安装 PyTorch：pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121 (注意：这需要 CUDA 12.1 支持)安装其他依赖：pip3 install vllm==0.6.3 ray flash-attn --no-build-isolation安装项目：pip install -e .(可选) Verl 集成：pip install wandb IPython matplotlib

2、使用方法

数据准备

可以直接使用项目提供的 /data 文件夹中的数据。如果需要生成自己的数据，可以使用以下命令：

基础模型

python ./examples/data_preprocess/kk.py --local_dir {processed_data_path} --data_path {raw_data_path}

指令模型

python ./examples/data_preprocess/kk.py --template_type=qwen-instruct --local_dir {processed_data_path} --data_path {raw_data_path} 其中 {processed_data_path} 和 {raw_data_path} 需要替换成你的数据路径。

训练执行

激活 conda 环境：conda activate logic

运行训练脚本：bash main_grpo.sh (需要 4 个 A100 80G 显卡)

实现细节

项目的关键组件及其位置：

奖励建模：verl/utils/reward_score/kk.py

数据预处理：examples/data_preprocess/kk.py

项目还使用了 Verl, TinyZero 和 Knights and Knaves (K&K) puzzles 数据集。

Logic-RL的案例应用

项目提供了不同模型在不同规模逻辑谜题上的测试结果 (人数从 2 到 8 人不等)。结果以表格形式呈现，比较了 Logic-RL 模型和其他模型 (例如 o1-2024-12-17, GPT-4o, Deepseek-Math-7b, Qwen2.5-7B-Instruct-1M) 的性能。 Logic-RL 模型在大多数情况下都表现出了更好的性能，尤其是在数据量较小的情况下。

持续更新中……

Logic-RL的简介

1、Logic-RL的特点

2、性能

Logic-RL 的安装和使用方法

1、安装

2、使用方法

数据准备

基础模型

指令模型

训练执行

实现细节

Logic-RL的案例应用

相关文章：