当前位置: 首页 > news >正文

DeepSeek R1 AI 论文翻译

摘要

原文地址:

DeepSeek R1 AI 论文翻译

我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。

通过 RL,DeepSeek-R1-Zero 自然而然地展现了许多强大且引人注目的推理行为。

然而,它也遇到了一些挑战,如可读性差和语言混杂。为了应对这些问题并进一步增强推理性能,我们推出了 DeepSeek-R1,后者在 RL 之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。

为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个基于 Qwen 和 Llama 提炼的深度模型(1.5B、7B、8B、14B、32B、70B)。

1. 引言

近年来,大型语言模型(LLMs)经历了快速的迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小了与人工通用智能(AGI)的差距。

最近,后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相较于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型(OpenAI, 2024b)首次通过增加思维链推理过程的长度引入了推理时间缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时间缩放仍然是研究界的一个开放性问题。之前的一些研究探索了各种方法,包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的通用推理性能。

在本文中,我们迈出了使用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索LLMs在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出超强性能。例如,AIME 2024上的pass@1分数从15.6%提高到71.0%,通过多数投票,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相匹配。

然而,DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型。随后,我们进行类似DeepSeek-R1-Zero的面向推理的RL。在RL过程接近收敛时,我们通过对RL检查点的拒绝采样创建新的SFT数据,并结合来自DeepSeek-V3的写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤后,我们获得了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。

我们进一步探索了从DeepSeek-R1到更小密集模型的蒸馏。使用Qwen2.5-32B(Qwen, 2024b)作为基础模型,直接从DeepSeek-R1进行蒸馏优于在其上应用RL。这表明较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等,2024)系列。值得注意的是,我们蒸馏的14B模型大幅优于最先进的开源QwQ-32B-Preview(Qwen, 2024a),而蒸馏的32B和70B模型在密集模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练:在基础模型上进行大规模强化学习
  • 纯强化学习的突破:我们直接在基础模型上应用强化学习(RL),而无需依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力,标志着研究领域的一个重要里程碑。值得注意的是,这是首次通过纯RL验证LLMs推理能力的研究,无需SFT。这一突破为该领域的未来发展铺平了道路。

  • DeepSeek-R1的开发流程:我们引入了开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段,作为模型推理和非推理能力的基础。我们相信这一流程将通过创建更好的模型为行业带来益处。

蒸馏(Distillation):小模型也可以强大
  • 推理模式的蒸馏:我们证明了大模型的推理模式可以蒸馏到小模型中,从而在小模型上实现比通过RL发现的推理模式更好的性能。开源的DeepSeek-R1及其API将为研究社区提供支持,以便未来蒸馏出更好的小模型。

  • 蒸馏模型的优异表现:利用DeepSeek-R1生成的推理数据,我们对研究社区广泛使用的多个密集模型进行了微调。评估结果表明,蒸馏后的小型密集模型在基准测试中表现优异。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%,超越了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%,在MATH-500上得分为94.3%,在LiveCodeBench上得分为57.2%。这些结果显著优于之前的开源模型,并与o1-mini相当。我们开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点。

1.2 评估结果总结

推理任务
  • DeepSeek-R1的表现
    • 在AIME 2024上,DeepSeek-R1的Pass@1得分为79.8%,略高于OpenAI-o1-1217。
    • 在MATH-500上,DeepSeek-R1取得了97.3%的优异成绩,与OpenAI-o1-1217持平,并显著优于其他模型。
    • 在代码相关任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,其在Codeforces上的Elo评分为2,029,超过了96.3%的人类参赛者。
    • 在工程相关任务中,DeepSeek-R1的表现略优于DeepSeek-V3,这可能对开发者在实际任务中有所帮助。
知识任务
  • DeepSeek-R1的优异表现
    • 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了显著优于DeepSeek-V3的成绩,分别为90.8%、84.0%和71.5%。
    • 尽管在这些基准测试中略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争优势。
    • 在事实基准测试SimpleQA上,DeepSeek-R1优于DeepSeek-V3,展示了其处理基于事实查询的能力。OpenAI-o1在该基准测试中也表现出类似的趋势,超越了4o。
其他任务
  • 广泛的任务表现:DeepSeek-R1在创意写作、通用问答、编辑、摘要等广泛任务中表现出色。
    • 在AlpacaEval 2.0上,其长度控制胜率为87.6%。
    • 在Arena-Hard上,胜率为92.3%,展示了其在处理非考试导向查询方面的强大能力。
    • 在需要长上下文理解的任务中,DeepSeek-R1表现尤为突出,在长上下文基准测试中显著优于DeepSeek-V3。

相关文章:

DeepSeek R1 AI 论文翻译

摘要 原文地址: DeepSeek R1 AI 论文翻译 我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(…...

如何计算态势感知率?

态势感知率(Situational Awareness Rate)的计算通常需要结合具体应用场景和定义目标,通常涉及对感知、理解、预测三个层次的量化分析。不同领域(如网络安全、军事、工业控制等)可能有不同的量化方式。通用思路和常见方…...

二、CSS笔记

(一)css概述 1、定义 CSS是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离。 2、要点 怎么找到标签怎么操作标签对象(element) 3、css的四种引入方式 3.1 行内式 在标签的style属性中设定CSS样式。这种方…...

Alibaba开发规范_异常日志之日志规约:最佳实践与常见陷阱

文章目录 引言1. 使用SLF4J日志门面规则解释代码示例正例反例 2. 日志文件的保存时间规则解释 3. 日志文件的命名规范规则解释代码示例正例反例 4. 使用占位符进行日志拼接规则解释代码示例正例反例 5. 日志级别的开关判断规则解释代码示例正例反例 6. 避免重复打印日志规则解释…...

使用istio实现权重路由

istio概述 **概述:**Istio 是一个开源的 服务网格(Service Mesh)解决方案,主要用于管理、保护和监控微服务架构中的服务通信。它为微服务提供了基础设施层的控制功能,不需要更改应用程序的代码,从而解决服…...

M. Triangle Construction

题目链接:Problem - 1906M - Codeforces 题目大意:给一个 n 边形, 每一个边上有a[ i ] 个点, 在此多边形上求可以连的三角形有多少个, 每个点只能用一次。 输入: 第一行是一个整数 N ( 3 ≤ N ≤ 200000…...

每天学点小知识之设计模式的艺术-策略模式

行为型模式的名称、定义、学习难度和使用频率如下表所示: 1.如何理解模板方法模式 模板方法模式是结构最简单的行为型设计模式,在其结构中只存在父类与子类之间的继承关系。通过使用模板方法模式,可以将一些复杂流程的实现步骤封装在一系列基…...

机试题——到邻国目标城市的最短距离

题目描述 A国与B国是相邻的两个国家,每个国家都有很多城市。国家内部有很多连接城市的公路,国家之间也有很多跨国公路,连接两个国家的边界城市。两个国家一共有N个城市,编号从1到N,一共有M条公路,包括国内…...

Python + Tkinter + pyttsx3实现的桌面版英语学习工具

Python Tkinter pyttsx3实现的桌面版英语学习工具 在多行文本框输入英文句子,双击其中的英文单词,给出英文读音和中文含义和音标。 本程序查询本地词典数据。通过菜单栏"文件"->"打开词典编辑器"进入编辑界面。 词典数据存储…...

【Vite + Vue + Ts 项目三个 tsconfig 文件】

Vite Vue Ts 项目三个 tsconfig 文件 为什么 Vite Vue Ts 项目会有三个 tsconfig 文件?首先我们先了解什么是 tsconfig.json ? 为什么 Vite Vue Ts 项目会有三个 tsconfig 文件? 在使用 Vite 创建 vue-ts 模板的项目时,会发现除了 ts…...

AI时代IT行业职业方向规划大纲

一、引言 AI时代的颠覆性影响 ChatGPT、Midjourney等生成式AI对传统工作模式的冲击 案例:AI编程助手(GitHub Copilot)改变开发者工作流程 核心问题:IT从业者如何避免被AI替代,并找到新机遇? 二、AI时代…...

Mac M1 Comfyui 使用MMAudio遇到的问题解决?

问题1: AssertionError: Torch not compiled with CUDA enabled? 解决办法:修改代码以 CPU 运行 第一步:找到 /ComfyUI/custom_nodes/ComfyUI-MMAudio/mmaudio/ext/autoencoder/vae.py文件中的下面这两行代码 self.data_mean nn.Buffer(t…...

大语言模型深度研究功能:人类认知与创新的新范式

在人工智能迅猛发展的今天,大语言模型(LLM)的深度研究功能正在成为重塑人类认知方式的关键力量。这一突破性技术不仅带来了工具层面的革新,更深刻地触及了人类认知能力的本质。本文将从认知科学的角度出发,探讨LLM如何…...

[SAP ABAP] 性能优化

1.数据库编程OPEN SQL方面优化 1.避免使用SELECT *,只查询需要的字段即可 尽量使用SELECT f1 f2 ... (具体字段) 来代替 SELECT * 写法 2. 如果确定只查询一条数据时,使用 SELECT SINGLE... 或者是 SELECT ...UP TO 1 ROWS ... 使用语法 UP TO n ROWS 来…...

并行计算、分布式计算与云计算:概念剖析与对比研究(表格对比)

什么是并行计算?什么是分布计算?什么是云计算?我们如何更好理解这3个概念,我们采用概念之间的区别和联系的方式来理解,做到切实理解,深刻体会。 1、并行计算与分布式计算 并行计算、分布式计算都属于高性…...

ASP.NET Core Filter

目录 什么是Filter? Exception Filter 实现 注意 ActionFilter 注意 案例:自动启用事务的筛选器 事务的使用 TransactionScopeFilter的使用 什么是Filter? 切面编程机制,在ASP.NET Core特定的位置执行我们自定义的代码。…...

doris:删除操作概述

在 Apache Doris 中,删除操作(Delete)是一项关键功能,用于管理和清理数据,以满足用户在大规模数据分析场景中的灵活性需求。 Doris 提供了丰富多样的删除功能支持,包括:DELETE 语句、删除标记&…...

【思维导图】redis

学习计划:将目前已经学的知识点串成一个思维导图。在往后的学习过程中,不断往思维导图里补充,形成自己整个知识体系。对于思维导图里的每个技术知识,自己用简洁的话概括出来, 训练自己的表达能力。...

申博经验贴

1. 所谓申博,最重要的就是定制的海投 分成两个部分 1. 定制 要根据每个教授去写不同的,一定不要泛泛的去写,一定要非常非常的具体,要引起教授的兴趣。每个教授每天都会收到几十封邮件,所以要足够的引起教授的注意&a…...

.Net Core笔记知识点(跨域、缓存)

设置前端跨域配置示例: builder.Services.AddCors(option > {option.AddDefaultPolicy(policy > {policy.WithOrigins(originUrls).AllowAnyMethod().AllowAnyHeader().AllowCredentials();});});var app builder.Build();app.UseCors(); 【客户端缓存】接…...

uniapp 对接腾讯云IM群组成员管理(增删改查)

UniApp 实战:腾讯云IM群组成员管理(增删改查) 一、前言 在社交类App开发中,群组成员管理是核心功能之一。本文将基于UniApp框架,结合腾讯云IM SDK,详细讲解如何实现群组成员的增删改查全流程。 权限校验…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

JavaScript 中的 ES|QL:利用 Apache Arrow 工具

作者:来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧! Elasticsearch 拥有众多新功能,助你为自己…...

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...

【2025年】解决Burpsuite抓不到https包的问题

环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

前端开发面试题总结-JavaScript篇(一)

文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...

多模态大语言模型arxiv论文略读(108)

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

SpringTask-03.入门案例

一.入门案例 启动类: package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

浅谈不同二分算法的查找情况

二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况&#xf…...