DeepSeek R1-Zero vs. R1:强化学习推理的技术突破与应用前景
📌 引言:AI 推理的新时代
近年来,大语言模型(LLM) 的规模化扩展成为 AI 研究的主流方向。然而,LLM 的扩展是否真的能推动 通用人工智能(AGI) 的实现?DeepSeek 推出的 R1-Zero 可能为 AI 推理能力提供了新的技术路径。
📍 关键问题:
-  
强化学习(RL) 是否能替代 人工监督学习(SFT),成为 AI 发展的核心?
 -  
R1-Zero 相较于 R1,带来了哪些技术突破?
 -  
推理计算的经济模式如何变化?如何影响 AI 产业?
 
本文将深入探讨 DeepSeek R1-Zero 和 R1 的架构、技术优势、市场趋势及未来发展方向。

🔹 1. DeepSeek R1-Zero vs. R1:架构与技术突破
1.1 R1-Zero 和 R1 的关键技术
DeepSeek 发布的 R1-Zero 和 R1,都属于 Chain-of-Thought(CoT) 推理系统,但它们在训练方式上存在显著区别:
-  
R1-Zero:完全基于 强化学习(RL),不依赖人工监督(SFT)。
 -  
R1:采用 人工监督学习(SFT) 来优化推理质量。
 
🔹 核心区别:
| 模型 | 训练方式 | 是否依赖 SFT | 推理能力 | 
|---|---|---|---|
| R1-Zero | 强化学习(RL) | ❌ 无 SFT | 仅依赖自我优化,推理能力接近 R1 | 
| R1 | 监督学习(SFT) | ✅ 依赖人工标注 | 通过 SFT 提高推理能力 | 
技术意义: ✅ R1-Zero 证明 AI 可以完全不依赖人工监督,而实现复杂推理任务,这对未来 AI 发展至关重要。
1.2 评测数据:R1-Zero vs. R1 vs. OpenAI o3
下表展示了 DeepSeek R1-Zero、R1 以及 OpenAI o3 在 ARC-AGI-1 评测上的对比:
| 模型 | ARC-AGI-1 得分 | 训练方式 | 推理 Token 数 | 推理成本 | 
|---|---|---|---|---|
| R1-Zero | 14% | 纯 RL(无 SFT) | 11K | $0.11 | 
| R1 | 15.8% | SFT / 无搜索 | 6K | $0.06 | 
| OpenAI o1(低计算) | 20.5% | SFT / 无搜索 | 7K | $0.43 | 
| OpenAI o3(低计算) | 75.7% | SFT + 搜索 & 采样 | 335K | $20 | 
| OpenAI o3(高计算) | 87.5% | SFT + 搜索 & 采样 | 57M | $3.4K | 
🔹 数据分析:
-  
R1-Zero 仅依靠强化学习,推理能力几乎接近 R1,而 R1 依赖人工标注(SFT)。
 -  
OpenAI o3(高计算模式)大幅领先,但计算成本极高,不适合大规模部署。
 -  
R1-Zero 显示了 RL 训练模型的潜力,降低 AI 训练对人工数据的依赖。
 
🔹 2. AI 训练的经济模式变革
2.1 AI 计算资源从训练阶段转向推理阶段
过去的 AI 训练模式: ✅ LLM 预训练(Pretraining) 需要海量计算资源,训练一次成本极高。
当前趋势: 🚀 推理计算的核心作用正在上升:
-  
用户对 AI 的需求从“更高准确率”转向 “更强的可靠性”。
 -  
计算资源正在从 训练阶段 转移到 推理阶段,推动 AI 硬件、云计算的需求增长。
 
2.2 AI 投资市场的变化
📊 2023-2024 年 AI 投资情况:
-  
LLM 预训练初创公司 获得 ~$20B 资金。
 -  
AGI 方向的 AI 研究 仅获得 ~$200M 资金。
 
📍 未来趋势预测:
-  
AI 推理市场 将成为投资热点,推理计算的效率和可靠性将主导 AI 产业的发展。
 -  
智能 AI 代理(Agent) 将逐步取代传统 LLM 预训练的应用。
 
🔹 3. R1-Zero 在 AI 推理系统中的优势
3.1 强化学习 vs. 监督学习
| AI 训练方式 | 特点 | 挑战 | 
|---|---|---|
| 人工监督(SFT) | 人类专家标注,提升推理质量 | 数据获取昂贵,扩展性受限 | 
| 强化学习(RL) | R1-Zero 方式,推理能力接近 SFT | 可能缺乏通用语言理解 | 
| 搜索 & 采样(o3) | 通过大规模计算优化推理 | 计算成本过高,不适合大规模部署 | 
📍 关键问题:
-  
如果 R1-Zero 的 RL 方法能进一步优化,未来是否可以训练出完全无需人工标注的 AGI?
 
🔹 4. 未来展望:推理 AI 如何影响 AI 产业?
4.1 AI 训练数据的转变
传统 AI 训练数据主要来源:
-  
人工标注数据
 -  
互联网爬取数据
 -  
合成数据(Synthetic Data)
 
🔹 R1-Zero 代表了一种新可能:
-  
AI 训练可以基于推理生成的数据,而非依赖人工数据,极大降低 AI 训练成本。
 -  
未来 AI 可能通过 强化学习优化自身推理能力,实现完全自主训练。
 
4.2 AI 经济模式的变化
-  
推理 AI(如 R1-Zero)将成为 AI 训练的新核心。
 -  
企业可能会为更可靠的 AI 代理支付费用,推动 AI 推理的经济增长。
 
🔹 5. 结论:R1-Zero 是否代表 AI 推理的未来?
5.1 关键发现
✅ R1-Zero 证明强化学习(RL)可以训练高质量的 AI 推理系统,无需人工监督(SFT)。
 ✅ AI 计算正在从训练转向推理,未来 AI 产业的发展方向将发生重大变化。
 ✅ AI 训练数据将从人工标注转向 AI 推理生成,进一步提升 AI 可靠性。
📍 关键问题:
-  
RL 是否能完全替代 SFT?
 -  
AI 推理计算的经济模式如何优化,以降低成本?
 -  
AI 推理是否将成为未来 AI 训练的主导方式?
 
无论如何,DeepSeek R1-Zero 的发布标志着 AI 推理进入了新的技术阶段,它可能成为 AI 训练方式变革的催化剂。🚀
🔹 6. 互动讨论
📢 你认为 R1-Zero 这样的 AI 训练方式能否成为行业标准?未来 AI 推理是否可以完全摆脱人工监督?欢迎在评论区交流你的看法! 😊
相关文章:
DeepSeek R1-Zero vs. R1:强化学习推理的技术突破与应用前景
📌 引言:AI 推理的新时代 近年来,大语言模型(LLM) 的规模化扩展成为 AI 研究的主流方向。然而,LLM 的扩展是否真的能推动 通用人工智能(AGI) 的实现?DeepSeek 推出的 R1…...
matlab提取滚动轴承故障特征
为了精准、稳定地提取滚动轴承故障特征,提出了基于变分模态分解和奇异值分解的特征提取方法,采用标准模糊C均值聚类(fuzzy C means clustering, FCM)进行故障识 别。对同一负荷下的已知故障信号进行变分模态分解,利用 奇异值分解技术进一步提…...
数据结构与算法学习笔记----容斥原理
数据结构与算法学习笔记----容斥原理 author: 明月清了个风 first publish time: 2025.1.30 ps⭐️介绍了容斥原理的相关内容以及一道对应的应用例题。 Acwing 890. 能被整除的数 [原题链接](890. 能被整除的数 - AcWing题库) 给定一个整数 n n n和 m m m个不同的质数 p 1 …...
Java 知识速记:全面解析 final 关键字
Java 知识速记:全面解析 final 关键字 什么是 final 关键字? final 关键字是 Java 中的一个修饰符。它可以用于类、方法和变量,其作用是限制对这些元素的修改。究竟如何限制?我们来逐个分析。 final 在变量中的用法 1. 声明常…...
(笔记+作业)书生大模型实战营春节卷王班---L0G2000 Python 基础知识
学员闯关手册:https://aicarrier.feishu.cn/wiki/QtJnweAW1iFl8LkoMKGcsUS9nld 课程视频:https://www.bilibili.com/video/BV13U1VYmEUr/ 课程文档:https://github.com/InternLM/Tutorial/tree/camp4/docs/L0/Python 关卡作业:htt…...
9、Docker环境安装Nginx
一、拉取镜像 docker pull nginx:1.24.0二、创建映射目录 作用:是将docker中nginx的相关配置信息映射到外面,方便修改配置文件 1、创建目录 # cd home/ # mkdir nginx/ # cd nginx/ # mkdir conf html log2、生成容器 docker run -p 80:80 -d --name…...
受击反馈HitReact、死亡效果Death Dissolve、Floating伤害值Text(末尾附 客户端RPC )
受击反馈HitReact 设置角色受击标签 (GameplayTag基本了解待补充) 角色监听标签并设置移动速度 创建一个受击技能,并应用GE 实现设置角色的受击蒙太奇动画 实现角色受击时播放蒙太奇动画,为了保证通用性,将其设置为一个函数,并…...
572. 另一棵树的子树
前导题:100. 相同的树 回顾一下 判断两棵二叉树相同,根结点相同 且 左子树相同 且 右子树相同。 于是判断如下: 根结点都为null,返回true根结点不都为null,返回false根结点都不为null,但是值不相同&#…...
MATLAB中textBoundary函数用法
目录 语法 说明 示例 匹配文本的边界 匹配文本的结尾边界 对文本的边界求反 textBoundary函数的功能是匹配文本的开头或结尾。 语法 pat textBoundary pat textBoundary(type) 说明 pat textBoundary 创建与文本开头或结尾匹配的模式。textBoundary 可以使用 ~ 运算…...
vue3的路由配置
先找到Layout布局文件,从中找到左侧边栏,找到下述代码 <SidebarItem v-for"route in noHiddenRoutes" :key"route.path" :item"route" :base-path"route.path" />/** *菜单项 <SidebarItem>: *使用…...
在彼此的根系里呼吸
爱如草木,需以晨露滋养,而非绳索捆缚。一段健康的亲密关系,恰似两株根系相连却各自向阳的树——风起时枝叶相触,晴空下共享光影,却始终保有向地心深处生长的自由。那些纠缠的根须是信任编织的网,容得下沉默…...
深入理解若依RuoYi-Vue数据字典设计与实现
深入理解若依数据字典设计与实现 一、Vue2版本主要文件目录 组件目录src/components:数据字典组件、字典标签组件 工具目录src/utils:字典工具类 store目录src/store:字典数据 main.js:字典数据初始化 页面使用字典例子…...
深入MapReduce——从MRv1到Yarn
引入 我们前面篇章有提到,和MapReduce的论文不太一样。在Hadoop1.0实现里,每一个MapReduce的任务并没有一个独立的master进程,而是直接让调度系统承担了所有的worker 的master 的角色,这就是Hadoop1.0里的 JobTracker。在Hadoop1…...
Flutter_学习记录_Tab的简单Demo~真的很简单
1. Tab的简单使用了解 要实现tab(选项卡或者标签视图)需要用到三个组件: TabBarTabBarViewTabController 这一块,我也不知道怎么整理了,直接提供代码吧: import package:flutter/material.dart;void main() {runApp(MyApp());…...
CSS核心
CSS的引入方式 内部样式表是在 html 页面内部写一个 style 标签,在标签内部编写 CSS 代码控制整个 HTML 页面的样式。<style> 标签理论上可以放在 HTML 文档的任何地方,但一般会放在文档的 <head> 标签中。 <style> div { color: r…...
Deepseek本地部署(ollama+open-webui)
ollama 首先是安装ollama,这个非常简单 https://ollama.com/ 下载安装即可 open-webui 这个是为了提供一个ui,毕竟我们也不想在cmd和模型交互,很不方便。 第一,需要安装python3.11,必须是3.11(其他版…...
PaddleSeg 从配置文件和模型 URL 自动化运行预测任务
git clone https://github.com/PaddlePaddle/PaddleSeg.git# 在ipynb里面运行 cd PaddleSegimport sys sys.path.append(/home/aistudio/work/PaddleSeg)import os# 配置文件夹路径 folder_path "/home/aistudio/work/PaddleSeg/configs"# 遍历文件夹,寻…...
数据结构 队列
目录 前言 一,队列的基本知识 二,用数组实现队列 三,用链表实现队列 总结 前言 接下来我们将学习队列的知识,这会让我们了解队列的基本概念和基本的功能 一,队列的基本知识 (Queue) 我们先来研究队列的ADT,…...
Cocoa和Cocoa Touch是什么语言写成的?什么是Cocoa?编程语言中什么是框架?为什么苹果公司Cocoa类库有不少NS前缀?Swift编程语言?
Cocoa和Cocoa Touch是什么语言写成的? 二者主要都是用Objective-C语言编写而成的。 什么是Cocoa? Cocoa是苹果操作系统macOS和iOS上的应用程序开发框架集合,核心语言是Objective-C编程语言,在移动平台被称为Cocoa Touch,Cocoa包含多个子框架…...
登录管理——认证方案(JWT、拦截器、ThreadLocal、短信验证)
两种常见的认证方案 基于Session认证 登录状态信息保存在服务器内存中,若访问量增加,单台节点压力会较大集群环境下需要解决集群中的各种服务器登录状态共享问题 解决方案:将登录状态保存的Redis中,从Redis中查找登录状态 基于…...
css实现圆环展示百分比,根据值动态展示所占比例
代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...
Oracle查询表空间大小
1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...
Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...
Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级
在互联网的快速发展中,高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司,近期做出了一个重大技术决策:弃用长期使用的 Nginx,转而采用其内部开发…...
数据库分批入库
今天在工作中,遇到一个问题,就是分批查询的时候,由于批次过大导致出现了一些问题,一下是问题描述和解决方案: 示例: // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...
IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...
重启Eureka集群中的节点,对已经注册的服务有什么影响
先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...
九天毕昇深度学习平台 | 如何安装库?
pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子: 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...
动态 Web 开发技术入门篇
一、HTTP 协议核心 1.1 HTTP 基础 协议全称 :HyperText Transfer Protocol(超文本传输协议) 默认端口 :HTTP 使用 80 端口,HTTPS 使用 443 端口。 请求方法 : GET :用于获取资源,…...
