当前位置: 首页 > news >正文

【翻译+论文阅读】DeepSeek-R1评测:粉碎GPT-4和Claude 3.5的开源AI革命

目录

  • 一、DeepSeek-R1 势不可挡
  • 二、DeepSeek-R1 卓越之处
  • 三、DeepSeek-R1 创新设计
  • 四、DeepSeek-R1 进化之路
    • 1. 强化学习RL代替监督微调学习SFL
    • 2. Aha Moment “啊哈”时刻
    • 3. 蒸馏版本仅采用SFT
    • 4. 未来研究计划

部分内容有拓展,部分内容有删除,与原文会有差异,建议结合原文、参考及视频整体阅读。
英文标题:Deepseek-R1 Review : Open Source AI Revolution Crushing GPT-4 and Claude 3.5
原文链接:https://www.geeky-gadgets.com/deepseek-r1-review/
创作者:Julian Horsey
发布时间:2025.1.28
视频来源:《Deepseek-R1 (Tested): BEST LLM EVER That’s Opensource? AGI IS HERE! (Beats O1 & 3.5 Sonnet)》(YouTube,链接不挂了,自行搜索WorldofAI)
参考文献包括但不限于:

  • DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,” 2025.
  • deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b有啥区别?
  • 全世界最强的算法平台codeforces究竟有什么魅力?
  • David Rein, B., et al, “GPQA: A Graduate-Level Google-Proof Q&A Benchmark,” 2023. Hunter Lightman, V., et al, “Let’s Verify Step by Step,” 2023.
  • https://paperswithcode.com/dataset/mmlu
  • Carlos E. Jimenez, J., et al, “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” 2024.

在这里插入图片描述

一、DeepSeek-R1 势不可挡

新的AI大模型 Deepseek-R1 正在席卷全球,为开源大型语言模型(LLMs)树立了新的基准。该模型在多个任务上与 OpenAI O1、GPT-4 Omni 和 Claude 3.5 Sonnet 等有与之相当甚至更为优秀的表现。基于MIT 许可证(更宽松的软件许可)、经济实惠性和先进的功能,Deepseek-R1 正在改变 AI 技术的可访问性和实际应用。在World of AI 的这篇深入评测视频中,可以从更专业角度了解这个新开源的 AI 模型。
Deepseek-R1 在编程、数学和多语言任务等关键领域超越行业巨头 OpenAI 的 O1 和 GPT-4 Omni,证明了开源创新(open source innovation)可以与专有解决方案(proprietary solutions)相媲美,甚至超越它们。
在这里插入图片描述

在这里插入图片描述

问:
如何衡量大模型在各个任务上的性能?测试数据库如何构建?上面的条形图中横坐标都是针对什么领域的测试数据集?
答:

  1. 性能评估:让模型尝试解决这些问题,记录正确性或得分,如果是程序,则验证是否可以正确运行并解决问题。
  2. 数据库构建:收集问题👉问题预处理(格式化、清洗、标注正确答案)👉数据库更新;
  3. 条图横坐标:Pass@1表示第一次尝试就正确解决问题的比例;Percentile表示百分比。
    3.1 AIME 2024 (American Invitational Mathematics Examination 2024):美国人邀请赛数学竞赛。该竞赛由美国数学协会(MAA)管理。AIME是通往美国数学奥林匹克竞赛(USAMO)或美国初级数学奥林匹克竞赛(USAJMO)的第二阶段考试,这些竞赛是选拔参加国际数学奥林匹克(IMO)队伍的系列考试的一部分。AIME包括15个问题,考试时间为3小时,每个答案都是一个介于0到999之间的整数。旨在挑战学生的数学问题解决能力,涵盖算术、代数、计数、几何、数论和概率等中学数学主题。通常,考试中的问题需要创造性地使用中学课程知识,或者理解不同数学领域如何结合在一起来调查和解决问题。错误答案不会扣分,但正确答案会获得一分,因此最高分是15分。
    3.2 Codeforces :国外著名编程竞赛平台,评估大模型的算法和编程能力。2小时竞赛,每周一两次,代码和程序均公开(很有意思的网站),题目兼容并蓄,思维陷阱较多。
    3.3 GPOA Diamond :由198个问题组成的高质量问答数据集,仅包括专家正确答案和大多数非专家的问题。与主集GPQA(由生物学,物理和化学专家撰写的448个多项选择问题)类似,还包括第二个专家验证者犯有可证明的错误的问题。但是,Diamond的要求更加严格,要求第一个专家验证者必须正确回答,然后第二个专家验证者错误回答,但他们清楚地描述了对问题作者的解释的错误或理解。
    3.4 Math 500:OpenAI在其Let‘s Verify Step by Step论文中的作为数学基准的评估子集,包含500个问题。
    3.5 MMLU(Massive Multitask Language Understanding):大规模多任务语言理解,基准涵盖了跨STEM,人文,社会科学等57个主题。它的难度从基础级别到高级专业水平,并且可以测试世界知识和解决问题的能力。paperwithcode上的leaderboard还没更新。
    3.6 SWE-bench:涉及软件工程(SWE)相关的基准测试,"Resolved"表示模型成功解决的问题比例。该框架由2,294个软件工程问题组成,包含来自12个流行的Python存储库中的GitHub问题,这些存储库报告了错误或请求新功能,并提取对存储库进行更改以解决这些问题的请求。

但真正让 Deepseek-R1 独树一帜的不仅仅是它的性能,还有它的可访问性和经济实惠性。上周末,DeepSeek App下载量在 Android 和 Apple 应用商店中均位居第一,受欢迎程度足以体现。无论是寻找成本效益高的工具的独立开发者,还是寻求可扩展 AI 解决方案的组织,Deepseek-R1 都提供了一个让先进AI技术触手可及的未来。

二、DeepSeek-R1 卓越之处

  • Deepseek-R1 作为新的开源 AI 大模型,在多个任务上与 OpenAI O1、GPT-4 Omni 和 Claude 3.5 Sonnet 等有与之相当甚至更为优秀的表现。
  • 该模型使用 MIT 许可证,比 OpenAI O1 等专有模型便宜 30 倍,比 ChatGPT 成本效益高 96.4%。
  • 该模型支持高达 128k 的令牌数用于处理大规模数据集,并通过 API、LM Studio 和本地工具(如 Ollama)提供部署灵活性(最大生成长度为32768个tokens )
  • 提供基于OWEN的蒸馏版本,开放适用于要求响应速度快、硬件资源有限的1.5B-7B版本、适用于对模型性能有要求但无超高配置的8B-14B版本、以及适用于专业问答系统、中规模创作平台的32B-70B版本,满足多样化用户需求。
  • 其先进功能涵盖编码、数学、多语言处理、设计和总结,使其成为开发者、研究人员和跨行业组织的多功能工具。

蒸馏版本模型性能对比
在这里插入图片描述

没有人比我的MateBook2018D性能还要差的电脑吧,我测试了下本地部署,7B运转很慢,1.5B速度与网页访问答题一样。最大的优点是不会因为服务器繁忙而卡住,还可以创建私人管家,当然回答的准确性比不上671B模型。

三、DeepSeek-R1 创新设计

DeepSeek-R1 的卓越表现植根于其创新架构和先进的训练方法。
(这一段作者笔误或者错误描述了训练阶段,故删除并重新整理)
该模型的核心创新体现在群体相对策略优化(GRPO)和强化学习的多阶段训练方法上,其训练分为四个阶段:

  1. 冷启动:构建并收集了少量的长COT数据,通过监督微调(SFT)作为初始RL Actor,提升基础模型的可读性;
  2. 面向推理的增强学习:着重于增强模型的推理能力,尤其是在诸如编码,数学,科学和逻辑推理等推理密集型任务中,这些任务涉及清晰解决方案的明确问题。为减轻语言混合问题,引入语言一致性奖励;
  3. 拒绝抽样和监督微调:利用所得检查点收集SFT(有监督的微调)数据,以进行后续回合。与主要侧重于推理的初始冷启动数据不同,此阶段包含了来自其他域的数据,以增强模型在书写,角色扮演和其他通用任务中的功能;
  4. 所有情况加强学习:再次结合基于规则和结果的奖励模型,使用GRPO进行优化,以在复杂和细微的方案中捕获人类的偏好。为了结果有帮助,专注于最终摘要,确保评估强调对用户响应的效用和相关性,同时最大程度地减少对基本推理过程的干扰。对于无害性,评估了模型的全部响应,包括推理过程和摘要,以识别和减轻在生成过程中可能出现的任何潜在风险,偏见或有害内容。

DeepSeek-R1正式确诊为“为人民服务”!

Deepseek-R1 最吸引人的地方之一是其可访问性。它在 MIT 许可证下发布,可供个人、开发者和组织免费使用,这种开源精神与通常伴随高成本和限制性使用条款的专有模型形成了鲜明对比 :)

四、DeepSeek-R1 进化之路

翻译原文无此部分,为论文阅读+个人理解
论文里描述了DeepSeek-R1-Zero和DeepSeek-R1的设计框架和任务性能。前者表现出强大而有趣的推理性能,但是也遇到了挑战,包括可读性差和语言混合;为了解决这些问题并进一步提高性能,DeepSeek-R1诞生,在强化学习之前结合了多阶段训练和冷启动数据。

1. 强化学习RL代替监督微调学习SFL

强化学习基本框架

  • Agent:ML 算法(或自治系统)
  • Environment:具有变量、边界值、规则和有效操作等属性的自适应问题空间
  • Action:Agent在Environment中导航时采取的步骤
  • State:给定时间点的环境
  • Reward:执行Action的正值、负值或零值,即奖励或惩罚

DeepSeek-R1使用的强化学习框架为GRPO(Group Relative Policy Optimization)(Shao et al., 2024),探讨了LLM在没有任何监督数据的情况下发展推理能力的潜力,着重于模型自身的进化。在奖励方面,DeepSeek-R1-Zero采用了基于规则的奖励系统,由准确性奖励和格式奖励共同构成。准确性奖励评估响应是否正确,格式奖励则强调使用在< think > < /think >描述思维过程。这种结构的好处是避免了特定于内容的偏见,例如强制反思性推理或促进特定的问题解决策略,并能够准确观察模型的自然发展(开了上帝视角去理解生物为什么、怎么样进化)。为了避免大规模黑客攻击和降低重训练成本,不采用过程奖励或者回答奖励。

< think >< /think >,我理解即将Chain-of-Thought(COT)思维链显示地提供给用户,KIMI的k1.5 loong thinking也支持,相较于DP比较口语化,速度快,能够自行折叠,产品体验上比DP好,但是编程性能次之)。
强制反思性推理,指在生成回答前,检查问题逻辑、选择回答策略、定制回答风格等等,可能需要更多的算力支撑,减少了错误和偏见,但是对于一味求快求解的用户来说并不好用。
特定于内容的偏见,偏向于某一种特定的问题解决方法,例如:教导学生只用节点法做电路题目,在绘制等效电路图、分析串并联时比较容易,但对于实物连接,就没有必要甚至会带来困惑。

2. Aha Moment “啊哈”时刻

在训练的中间阶段,DeepSeek-R1-Zero学会通过重新评估其初始方法来分配更多的思维时间来解决问题,适用拟人化音调重新考虑(Like人类在滔滔不绝中突然说:“等等,我想到了另一点”,而非按照旧的思路说到底,这一点实在非常可爱)。
在这里插入图片描述

3. 蒸馏版本仅采用SFT

蒸馏版本如前面的1.5B、70B,是直接用R1的800K样本微调开源的Qwen和Llama两个较小规模的LLM,且仅应用SFT,不包含RL阶段。其中,1.5B版本在数学基准评估上能过胜过GPT-4o和Claude 3.5 Sonnet(本地部署的孩子,数学作业有救了)。作者表示主要是展示有效性,并希望专业研究进一步探索RL阶段。通过对比大模型蒸馏后与不蒸馏使用大规模RL训练的小模型,发现后者的性能并不如前者,尽管蒸馏策略经济有效,但想要突破上限需要更大的基础模型及大规模RL。

4. 未来研究计划

  • 基于COT高效增强在函数调用、多轮问答(multi-turn)、复杂角色扮演以及JSON程序输出等任务上的处理效果;
  • 突破除了中文和英文外,其他语言混合问题的限制;
  • 提示敏感问题(改变Prompt的措辞、结构、内容会导致生成的回答截然不同),只让模型进行一次尝试(one-shot)时,生成的答案容易出错;而多次尝试(multi-shot)并尝试后验证并调整,生成的答案更加准确。作者建议直接描述问题,采用zero-shot(直接告诉任务,不提供任何示例),让模型只依赖于预训练结果。
  • 软件工程任务验证时间较长,影响RL效率。未来会使用拒绝采样、异步评估来提升效率。

相关文章:

【翻译+论文阅读】DeepSeek-R1评测:粉碎GPT-4和Claude 3.5的开源AI革命

目录 一、DeepSeek-R1 势不可挡二、DeepSeek-R1 卓越之处三、DeepSeek-R1 创新设计四、DeepSeek-R1 进化之路1. 强化学习RL代替监督微调学习SFL2. Aha Moment “啊哈”时刻3. 蒸馏版本仅采用SFT4. 未来研究计划 部分内容有拓展&#xff0c;部分内容有删除&#xff0c;与原文会有…...

Vision Transformer学习笔记(2020 ICLR)

摘要(Abstract):简述了ViT(Vision Transformer)模型的设计和实验结果,展示了其在大规模图像数据集上进行训练时的优越性能。该模型直接采用原始图像块作为输入,而不是传统的卷积神经网络(CNNs),并通过Transformer架构处理这些图像块以实现高效的图像识别。引言(Introdu…...

一步一步生成音乐类小程序的详细指南,结合AI辅助开发的思路

以下是一步一步生成音乐类小程序的详细指南,结合AI辅助开发的思路: 需求分析阶段核心功能梳理 音乐播放器(播放/暂停/进度条/音量)歌单分类(流行/古典/摇滚等)用户系统(登录/收藏/历史记录)搜索功能(歌曲/歌手/专辑)推荐系统(根据用户偏好推荐)技术选型 前端:微信…...

25/2/8 <机器人基础> 阻抗控制

1. 什么是阻抗控制&#xff1f; 阻抗控制旨在通过调节机器人与环境的相互作用&#xff0c;控制其动态行为。阻抗可以理解为一个力和位移之间的关系&#xff0c;涉及力、速度和位置的协同控制。 2. 阻抗控制的基本概念 力控制&#xff1a;根据感测的外力调节机械手的动作。位置…...

golang 开启HTTP代理认证

内部网路不能直接访问外网接口&#xff0c;可以通过代理发送HTTP请求。 HTTP代理服务需要进行认证。 package cmdimport ("fmt""io/ioutil""log""net/http""net/url""strings" )// 推送CBC07功能 func main() {l…...

详解Nginx no live upstreams while connecting to upstream

网上看到几个相关的文章&#xff0c;觉得很不错&#xff0c;这里整理记录分享一下&#xff0c;供大家参考。 upstream配置分 在分析问题原因之前&#xff0c;我们先来看下关于上面upstream配置一些相关的参数配置说明&#xff0c;参考下面表格 ngx_http_proxy_module 这里重…...

Open3d Qt的环境配置

Open3d Qt的环境配置 一、概述二、操作流程2.1 下载文件2.2 新建文件夹2.3 环境变量设置2.4 qt6 引用3、qt中调用4、资源下载一、概述 目前统一使用qt6配置,open3d中可视化功能目前使用vtk代替,语言为c++。 二、操作流程 2.1 下载文件 访问open3d github链接,进入releas…...

5.Python字典和元组:字典的增删改查、字典遍历、访问元组、修改元组、集合(set)

1. 字典&#xff08;dict&#xff09; 字典是一个无序的键值对集合&#xff0c;每个键对应一个值。 字典的增、删、改、查&#xff1a; 添加键值对: my_dict {a: 1, b: 2} my_dict[c] 3 # 添加新键c&#xff0c;值为3 print(my_dict) # 输出&#xff1a;{a: 1, b: 2, c: …...

深度学习系列--04.梯度下降以及其他优化器

目录 一.梯度概念 1.一元函数 2.二元函数 3.几何意义上的区别 二.梯度下降 1.原理 2.步骤 3.示例代码&#xff08;Python&#xff09; 4.不同类型的梯度下降 5.优缺点 三.动量优化器&#xff08;Momentum&#xff09; 适用场景 1.复杂地形的优化问题 2.数据具有噪声的问…...

2022java面试总结,1000道(集合+JVM+并发编程+Spring+Mybatis)的Java高频面试题

1、面试题模块汇总 面试题包括以下十九个模块&#xff1a; Java 基础、容器、多线程、反射、对象拷贝、Java Web 模块、异常、网络、设计模式、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、Mybatis、RabbitMQ、Kafka、Zookeeper、MySql、Redis、JVM 。如下图所示…...

Ubuntu MKL(Intel Math Kernel Library)

Get Intel oneAPI Math Kernel Library wget https://registrationcenter-download.intel.com/akdlm/IRC_NAS/79153e0f-74d7-45af-b8c2-258941adf58a/intel-onemkl-2025.0.0.940_offline.sh sudo sh ./intel-onemkl-2025.0.0.940_offline.sh MKL库的配置和使用-CSDN博客 CMak…...

消费电子产品中的噪声对TPS54202的影响

本文章是笔者整理的备忘笔记。希望在帮助自己温习避免遗忘的同时&#xff0c;也能帮助其他需要参考的朋友。如有谬误&#xff0c;欢迎大家进行指正。 一、概述 在白色家电领域&#xff0c;降压转换器的应用非常广泛&#xff0c;为了实现不同的功能就需要不同的电源轨。TPS542…...

第四十章:职场转折:突破困境,重新出发

从绍兴与岳父岳母温馨相聚归来后&#xff0c;小冷满心都是温暖与幸福&#xff0c;本以为生活与工作会继续平稳前行&#xff0c;然而&#xff0c;命运却悄然为他的职场之路埋下了转折的伏笔。 平静工作下的暗潮涌动 小冷所在的公司是一家专注于地图导航与位置服务的企业&#xf…...

c++ 不定参数,不定类型的 max,min 函数

MSVC\14.29.30133\include\utility(33,19): error C2064: 项不会计算为接受 2 个参数的函数 max min #include <iostream> #include <type_traits>// 自定义 min_gd&#xff08;支持任意类型和数量参数&#xff09; template <typename... Args> auto min_g…...

数据库的关系代数

关系就是表 属性&#xff08;Attribute&#xff09;是关系中的列.例如&#xff0c;关系 “学生” 中可能有属性 “学号”、“姓名”、“班级”。 元组(Tuple)是关系中的一行数据 1. 基本运算符 选择&#xff08;Selection&#xff09; 符号&#xff1a;σ 作用&#xff1a;从关…...

VSCode使用总结

1、VSCode左边资源窗口字体大小设置 方法一&#xff08;使用&#xff0c;已成功&#xff09; 进入安装目录Microsoft VS Code\resources\app\out\vs\workbench(如果是下载的压缩包&#xff0c;解压后resources\app\out\vs\workbench) 打开文件 workbench.desktop.main.css 搜…...

关系模型的数据结构及形式化定义

1 关系模型的核心结构 ①单一的数据结构&#xff08;关系&#xff09; 现实世界的实体以及实体间的各种联系均用关系来表示 ②逻辑结构&#xff08;二维表&#xff09; 从用户角度&#xff0c;关系模型中数据的逻辑结构是一张二维表&#xff0c;行代表元组&#xff08;记录&a…...

【C++入门讲解】

目录 ​编辑 --------------------------------------begin---------------------------------------- 一、C简介 二、开发环境搭建 主流开发工具推荐 第一个C程序 三、核心语法精讲 1. 变量与数据类型 2. 运算符大全 3. 流程控制结构 4. 函数深度解析 5. 数组与容…...

数据表中的视图操作

文章目录 一、视图概述二、为什么要使用视图三、创建视图四、查看视图 一、视图概述 小学的时候&#xff0c;每年都会举办一次抽考活动&#xff0c;意思是从每一个班级里面筛选出几个优秀的同学去参加考试&#xff0c;这时候很多班级筛选出来的这些同学就可以临时组成一个班级…...

BFS算法篇——广度优先搜索,探索未知的旅程(上)

文章目录 前言一、BFS的思路二、BFS的C语言实现1. 图的表示2. BFS的实现 三、代码解析四、输出结果五、总结 前言 广度优先搜索&#xff08;BFS&#xff09;是一种广泛应用于图论中的算法&#xff0c;常用于寻找最短路径、图的遍历等问题。与深度优先搜索&#xff08;DFS&…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API&#xff0c;用于在函数组件中使用 state 和其他 React 特性&#xff08;例如生命周期方法、context 等&#xff09;。Hooks 通过简洁的函数接口&#xff0c;解决了状态与 UI 的高度解耦&#xff0c;通过函数式编程范式实现更灵活 Rea…...

OpenLayers 可视化之热力图

注&#xff1a;当前使用的是 ol 5.3.0 版本&#xff0c;天地图使用的key请到天地图官网申请&#xff0c;并替换为自己的key 热力图&#xff08;Heatmap&#xff09;又叫热点图&#xff0c;是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...

Frozen-Flask :将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是&#xff1a;将一个 Flask Web 应用生成成纯静态 HTML 文件&#xff0c;从而可以部署到静态网站托管服务上&#xff0c;如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多&#xff0c;如何一步解决&#xff0c;采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集&#xff08;每个目录代表一个类别&#xff0c;目录下是该类别的所有图片&#xff09;&#xff0c;你需要进行以下配置步骤&#x…...

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入&#xff08;联动&#xff09;2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程&#xff1a;如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket&#xff08;服务端和客户端都要&#xff09;2. 绑定本地地址和端口&#x…...

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1&#xff09;准备工作 服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2&#xff09;服务端安装软件&#xff1a;bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

Oracle11g安装包

Oracle 11g安装包 适用于windows系统&#xff0c;64位 下载路径 oracle 11g 安装包...

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...