当前位置: 首页 > article >正文

DeepSeek 模型发展脉络全解析


在人工智能大模型领域的快速发展浪潮中,DeepSeek 凭借持续的技术创新和模型迭代,成为了备受瞩目的存在。其研发的模型不仅在技术上取得了显著突破,也在实际应用中展现出了强大的潜力。下面,让我们按照时间顺序,梳理 DeepSeek 模型的发展脉络。

一、DeepSeek Coder:代码智能领域的开拓者

提出时间:2023 年 11 月 2 日

参数量:未明确公布

特色:作为首个开源代码大模型,支持多种编程语言,基于 Transformer 架构优化,能有效助力代码生成、调试以及数据分析任务,对代码结构和语义理解出色,可智能补全代码、诊断错误。

意义:开启了 DeepSeek 在人工智能细分领域的探索,为开发者提供高效代码编写辅助工具,激发更多代码智能研究和应用。

论文链接:《DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence》

二、DeepSeek LLM:进军通用人工智能的号角

提出时间:2023 年 11 月 29 日

参数量:参数规模达 670 亿,拥有 7B 和 67B 的 base 及 chat 版本

特色:具备强大的语言理解与生成能力,采用先进注意力机制和大规模无监督预训练技术,能处理文本生成、问答系统、文本摘要等多种自然语言处理任务,语言泛化能力突出。

意义:标志着 DeepSeek 正式进军通用人工智能领域,为用户提供全新自然语言处理解决方案,推动通用大模型技术发展和应用。

论文链接:《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》

三、DeepSeekMoE

提出时间:未明确统一时间(作为系列技术理念贯穿部分模型)

参数量:不同基于 MoE 模型不同(如 DeepSeek-V2 2360 亿参数)

特色:采用混合专家(MoE)架构,可根据任务动态分配计算资源,大幅提升模型效率与性能,增强模型在复杂任务处理上的表现。

意义:革新了大模型架构设计思路,为大规模模型训练与应用提供更高效的方式,推动模型向更智能、更灵活方向发展。

论文链接:《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

四、DeepSeek-V2:混合专家架构的新突破

提出时间:2024 年 5 月 7 日

参数量:总参数达到 2360 亿

特色:第二代开源混合专家(MoE)模型,通过 MoE 架构,能根据任务特点动态分配计算资源,在长文本处理、复杂语义理解方面表现出色,可实现更精准的语言理解和生成。

意义:展示了 DeepSeek 在大规模模型架构设计上的技术实力,为整个大模型领域引入新思路,推动混合专家架构在实际应用中的发展。

论文链接:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》

五、DeepSeekMath

提出时间:具体时间暂未明确公开(基于 DeepSeek-Coder-v1.5 7B 开发)

参数量:基于 DeepSeek-Coder-v1.5 7B ,本身未单独公布独特参数量

特色:以 DeepSeek-Coder-v1.5 7B 为基础,在从 Common Crawl 中提取的数学相关 token 以及自然语言和代码数据上进行预训练,训练规模达 5000 亿 token ,在数学推理任务上表现优秀。

意义:提升了人工智能在数学领域的处理能力,为解决数学相关问题、辅助数学研究等提供新工具和思路。

论文链接:暂未查询到公开论文

六、DeepSeek-Coder V2

提出时间:未明确公开

参数量:未明确公布

特色:开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与 GPT4-Turbo 相当的性能,在代码生成、理解和代码智能相关任务上有显著提升。

意义:进一步提升了代码大模型的性能表现,缩小了与顶尖闭源模型在代码处理能力上的差距,推动代码智能技术发展。

论文链接:《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》

七、DeepSeek-VL2

提出时间:未明确公开

参数量:未明确公布

特色:混合专家(MoE)视觉 - 语言模型,在多模态理解,尤其是视觉与语言结合的任务上表现出色,增强了模型对图像内容理解并关联语言描述的能力。

意义:推动多模态人工智能的发展,为图像理解、图像描述生成等任务提供更强大的模型支持。

论文链接:《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》

八、DeepSeek-V3:技术创新引领性能飞跃

提出时间:2024 年 12 月 26 日

参数量:总参数高达 6710 亿,每 token 激活 370 亿参数

特色:采用创新的 MoE 架构和 FP8 混合精度训练,在长文本生成、代码理解和数学推理等任务中表现卓越,能处理复杂数学问题,准确解析各类编程语言,长文本生成内容连贯、逻辑清晰。

意义:巩固了 DeepSeek 在大模型领域的领先地位,展示其在技术创新和性能优化方面的卓越能力,为行业树立新标杆。

论文链接:《DeepSeek-V3 Technical Report》

九、DeepSeek-R1:推理模型的重大变革

提出时间:2025 年 1 月 20 日

参数量:有 660B 模型,也有通过蒸馏得到的参数在 15 亿到 700 亿之间的不同规模版本

特色:新一代推理模型,性能与 OpenAI 的 o1 正式版持平并开源。在仅有少量标注数据的情况下,通过大规模使用强化学习技术,极大提升模型推理能力,在数学、代码以及各种复杂逻辑推理任务上表现出色。

意义:打破了国际社会对 AI 研发 “高投入、长周期” 的固有认知,其开源和低成本特点,有助于普及 AI 技术,让更多开发者参与到人工智能的创新中,影响全球人工智能竞争格局。

论文链接:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

十、Janus-Pro:多模态融合的创新先锋

提出时间:2025 年 1 月 28 日凌晨

参数量:推出了 Janus-Pro-1B 和 Janus-Pro-7B 两个模型

特色:市面上唯一能同时兼顾多模态理解和文生图且保持高性能的模型。通过将视觉编码解耦为 “理解编码器” 和 “生成编码器”,并采用自回归 Transformer 作为统一处理框架,在图像生成和视觉分析方面成果显著。

意义:为多模态人工智能的发展开辟新道路,推动人工智能在跨模态交互领域的研究和应用。

论文链接:《Janus-Pro: Uniffed Multimodal Understanding and Generation with Data and Model Scaling》 。该论文指出,Janus-Pro 在训练策略上进行优化,延长第一阶段训练时间,改变第二阶段数据使用方式,调整第三阶段不同类型数据集的数据比例,以此提升训练效率和性能;在数据规模方面,多模态理解增加约 9000 万个样本,图像生成平衡真实与合成数据比例,加快模型收敛,提升生成图像美学质量;模型架构上,7B 版本通过更深网络层次和更宽模型维度实现性能质变,解耦式视觉编码设计分别为理解和生成任务设计独立编码方法,提升模型在两个任务上的表现。

相关文章:

DeepSeek 模型发展脉络全解析

目录 一、DeepSeek Coder:代码智能领域的开拓者二、DeepSeek LLM:进军通用人工智能的号角三、DeepSeekMoE四、DeepSeek-V2:混合专家架构的新突破五、DeepSeekMath六、DeepSeek-Coder V2七、DeepSeek-VL2八、DeepSeek-V3:技术创新引…...

为多个GitHub账户配置SSH密钥

背景 当需要同时使用多个GitHub账户(例如工作和个人账户)时,默认的SSH配置可能导致冲突。本文介绍如何通过生成不同的SSH密钥对并配置SSH客户端来管理多个账户。 操作步骤 生成SSH密钥对 为每个GitHub账户生成独立的密钥对,并指…...

蓝耘智算平台使用DeepSeek教程

目录 一.平台架构与技术特点 二、DeepSeek R1模型介绍与优势 DeepSeek R1 模型简介 DeepSeek R1 模型优势 三.蓝耘智算平台使用DeepSeek教程 展望未来 耘元生代智算云是蓝耘科技推出的一款智算云平台有着以下特点: 一.平台架构与技术特点 基于 Kubernetes 原…...

脚本一键生成管理下游k8s集群的kubeconfig

一、场景 1.1 需要管理下游k8s集群的场景。 1.2 不希望使用默认的cluster-admin权限的config. 二、脚本 **重点参数: 2.1 配置变量。 1、有单独namespace的权限和集群只读权限。 2、自签名的CA证书位置要正确。 2.2 如果配置错误,需要重新…...

发布:大彩科技DN系列2.8寸高性价比串口屏发布!

一、产品介绍 该产品是一款2.8寸的工业组态串口屏,采用2.8寸液晶屏,分辨率为240*320,支持电阻触摸、电容触摸、无触摸。可播放动画,带蜂鸣器,默认为RS232通讯电平,用户短接屏幕PCB上J5短接点即可切换为TTL电…...

简述mysql 主从复制原理及其工作过程,配置一主两从并验证

MySQL 主从复制原理及其工作过程 MySQL 主从复制(Master-Slave Replication)是一种数据同步技术,其中一个 MySQL 实例(主库)将其数据变更(插入、更新、删除)通过二进制日志(Binary …...

华北平原shp格式范围

华北平原是中国东部的重要地理区域,以下是对其的简要介绍: 此数据为付费数据,如有需求,请联系本人。 1. 地理位置与范围 位置:位于中国东部,西起太行山脉和伏牛山,东至黄海、渤海,北…...

Unity 快速入门 1 - 界面操作

本项目将快速介绍 Unity 6的基本操作和功能,下载附件的项目,解压到硬盘,例如 D:\Unity Projects\, 注意整个文件路径中只有英文、空格或数字,不要有中文或其他特殊符合。 1. 打开Unity Hub,点击右上角的 O…...

网站改HTTPS方法

默认的网站建设好后打开的样子那看起来像是钓鱼网站,现在的浏览器特别只能,就是你新买来的电脑默认的浏览器同样也会出现这样“不安全”提示。 传输协议启动了向全球用户安全传输网页内容的流程。然而,随着HTTPS的推出,传输协议通…...

C#+halcon机器视觉九点标定算法

在机器视觉中,九点标定(也称为九点标定法)是一种常用的方法,用于将图像坐标系与物理坐标系进行映射。通过标定,可以将图像中的像素坐标转换为实际物理坐标,或者反之。下面是一个使用C#和Halcon进行九点标定…...

采用idea中的HTTP Client插件测试

1.安装插件 采用idea中的HTTP Client插件进行接口测试,好处是不用打开post/swagger等多个软件,并且可以保存测试时的参数,方便后续继续使用. 高版本(2020版本以上)的idea一般都自带这个插件,如果没有也可以单独安装. 2.使用 插件安装完成(或者如果idea自带插件),会在每个Con…...

记录 | WPF基础学习Style局部和全局调用

目录 前言一、Style1.1 例子1.2 为样式起名字1.3 BasedOn 继承上一个样式 二、外部StyleStep1 创建资源字典BaseButtonStyle.xamlStep2 在资源字典中写入StyleStep3 App.xaml中写引用路径【全局】Step4 调用三、代码提供四、x:Key和x:Name区别 更新时间 前言 参考文章&#xff…...

npm-npm ERR! missing script: serve

1.前言 vue运行项目时报错 npm ERR! missing script: serve 2.解决 在使用npm(Node Package Manager)时遇到“npm ERR! missing script: serve”的错误通常意味着在项目的package.json文件中没有定义名为serve的脚本。或者是未找到package.json文件。…...

重新刷题求职2-DAY6-哈希表

1.有效的字母异位词 给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的 字母异位词 示例 1: 输入: s "anagram", t "nagaram" 输出: true示例 2: 输入: s "rat", t "car" 输出: false提示: 1 < s.leng…...

为什么在Rust中要用Struct和Enum组织数据?

为什么在Rust中要用Struct和Enum组织数据&#xff1f; Rust是一门注重内存安全和高效的系统编程语言&#xff0c;其类型系统的设计哲学强调明确性和安全性。struct&#xff08;结构体&#xff09;和enum&#xff08;枚举&#xff09;是Rust中组织数据的核心工具&#xff0c;它…...

性能优化中的配置优化

配置优化主要包括JVM&#xff0c;连接池&#xff0c;线程池&#xff0c;缓存机制&#xff0c;CDN等优化手段&#xff0c;这些优化提高了资源利用率&#xff0c;最大限度地提升了服务器性能。 JVM配置优化 合理的分配堆与非堆的内存&#xff0c;配置合适的内存回收算法&#x…...

【STM32】HAL库USB虚拟U盘MSC配置及采用自带的Flash作为文件系统

【STM32】HAL库USB虚拟U盘MSC实现配置及采用自带的Flash作为文件系统 本文将自带的Flash作为文件系统 通过配置USB的MSC功能实现虚拟U盘 没有单独建立FATFS文件系统 仅仅是配置USB和Flash读写而已 当然 这里也可以用外部Flash等等 也可以配置文件系统来进行套壳 但总体而言不如…...

深浅拷贝~

深浅拷贝&#xff1a;直接赋值给的是地址&#xff0c;如果修改赋值后的变量&#xff0c;实际上连同原变量的值一并修改了。 浅拷贝 展开运算符 {...obj} 拷贝对象 Object.assign(新&#xff0c;旧) 深拷贝 递归&#xff1a;自己调用自己 以下实际是浅拷贝 递归调用处理数组问题…...

动手学图神经网络(12):MovieLens上的链接回归

MovieLens上的链接回归 在MovieLens数据集上进行评分预测的实践过程,包括数据处理、模型构建、训练以及评估等步骤,预测用户对电影的评分(即边的属性值)。 环境设置 使用pip安装pyg - lib、pytorch_geometric、sentence_transformers、fuzzywuzzy、captum等。 import t…...

开源项目介绍-词云生成

开源词云项目是一个利用开源技术生成和展示词云的工具或框架&#xff0c;广泛应用于文本分析、数据可视化等领域。以下是几个与开源词云相关的项目及其特点&#xff1a; Stylecloud Stylecloud 是一个由 Maximilianinir 创建和维护的开源项目&#xff0c;旨在通过扩展 wordclou…...

Zookeeper是如何解决脑裂问题的?

大家好&#xff0c;我是锋哥。今天分享关于【Zookeeper是如何解决脑裂问题的&#xff1f;】面试题。希望对大家有帮助&#xff1b; Zookeeper是如何解决脑裂问题的&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Zookeeper 通过多种机制来解决脑裂&…...

算法13(力扣225)-用队列实现栈

1、问题 请你仅使用两个队列实现一个后入先出&#xff08;LIFO&#xff09;的栈&#xff0c;并支持普通栈的全部四种操作&#xff08;push、top、pop 和 empty&#xff09;。 实现 MyStack 类&#xff1a; void push(int x) 将元素 x 压入栈顶。 int pop() 移除并返回栈顶元素。…...

【Elasticsearch】文本分类聚合Categorize Text Aggregation

响应参数讲解: key &#xff08;字符串&#xff09;由 categorization_analyzer 提取的标记组成&#xff0c;这些标记是类别中所有输入字段值的共同部分。 doc_count &#xff08;整数&#xff09;与类别匹配的文档数量。 max_matching_length &#xff08;整数&#xff09;从…...

【redis】缓存设计规范

本文是 Redis 键值设计的 14 个核心规范与最佳实践&#xff0c;按重要程度分层说明&#xff1a; 一、通用数据类型选择 这里我们先给出常规的选择路径图。 以下是对每个步骤的分析&#xff1a; 是否需要排序&#xff1f;&#xff1a; zset&#xff08;有序集合&#xff09;用…...

【愚公系列】《循序渐进Vue.js 3.x前端开发实践》061-Vue Router的动态路由

标题详情作者简介愚公搬代码头衔华为云特约编辑&#xff0c;华为云云享专家&#xff0c;华为开发者专家&#xff0c;华为产品云测专家&#xff0c;CSDN博客专家&#xff0c;CSDN商业化专家&#xff0c;阿里云专家博主&#xff0c;阿里云签约作者&#xff0c;腾讯云优秀博主&…...

流媒体缓存管理策略

缓存管理策略是指为了优化性能、资源使用和用户体验而对缓存数据进行管理的方法和规则。以下是一些常见的缓存管理策略&#xff1a; 1. LRU&#xff08;Least Recently Used&#xff0c;最近最少使用&#xff09; 原理&#xff1a;当缓存满了&#xff0c;需要腾出空间时&…...

2025简约的打赏系统PHP网站源码

源码介绍 2025简约的打赏系统PHP网站源码 源码上传服务器&#xff0c;访问域名/install.php安装 支持自定义金额打赏 集成支付宝当面付 后台管理系统 订单记录查询 效果预览 源码获取 2025简约的打赏系统PHP网站源码...

交叉编译工具链下载和使用

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…...

BUU28 [GXYCTF2019]BabySQli1

常规万能密码&#xff0c;发现登不上去 过滤掉了or&#xff0c;&#xff0c;当尝试了n种方法以后&#xff0c;最关键的是发现()居然也被过滤了 哈哈&#xff0c;那玩个淡&#xff0c; 再搜wp&#xff01;&#xff01; 当输入admin的时候&#xff0c;提示密码错误&#xff0…...

ubuntu20.04+RTX4060Ti大模型环境安装

装显卡驱动 这里是重点&#xff0c;因为我是跑深度学习的&#xff0c;要用CUDA&#xff0c;所以必须得装官方的驱动&#xff0c;Ubuntu的附件驱动可能不太行. 进入官网https://www.nvidia.cn/geforce/drivers/&#xff0c;选择类型&#xff0c;最新版本下载。 挨个运行&#…...