开源模型迎来颠覆性突破:DeepSeek-V3与Qwen2.5如何重塑AI格局?
不用再纠结选择哪个AI模型了!chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择,快来体验吧!
在全球人工智能模型快速发展的浪潮中,开源模型正逐渐成为一股不可忽视的力量。近日,DeepSeek-V3和Qwen 2.5系列的相继发布,再次证明了开源模型在技术创新和性能提升上的巨大潜力。这两大模型不仅在多个基准测试中取得了惊人的成绩,更以其高效的训练方法和开放透明的技术细节,为开源社区注入了新的活力。
DeepSeek-V3:以精细化MoE架构挑战闭源巨头

DeepSeek-V3是DeepSeek团队推出的一个完全开源的LLM(大型语言模型),其总参数高达6710亿,但每个token仅激活370亿参数。这种高效的参数利用得益于其精细的MoE(混合专家)架构。
DeepSeek-V3采用了创新的MoE架构,每个token都有一个共享专家和256个路由专家,其中8个路由专家处于激活状态。此外,该模型还采用了多头潜在注意力机制,具有低等级联合压缩,用于关注键和值。多token预测技术则有助于投机解码和更好地利用训练数据。
在训练方面,DeepSeek-V3使用了14.8万亿个token,训练成本仅为560万美元,使用了2788K H800 GPU小时。如此高效的训练得益于精细的MoE架构、FP8混合精度训练以及动态调整上下文长度。DeepSeek团队通过算法、框架和硬件的协同设计,克服了大型MoE模型训练中的通信瓶颈,实现了在训练中有效利用计算资源。两阶段的上下文长度扩展,首先将上下文从4k令牌扩展到32k令牌,然后扩展到128k令牌,使得模型的长文本处理能力得到了显著提升。
DeepSeek-V3在多个基准测试中的表现令人印象深刻,例如在MMLU上达到了88.5,在GPQA上达到了59.1,在MATH上达到了90.2。其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美,证明了开源模型在性能上完全有能力挑战闭源巨头。
DeepSeek团队不仅在HuggingFace上共享了模型,还在其“DeepSeek-V3技术报告”中提供了有关模型的详细信息,这种开放透明的态度无疑将加速开源社区的共同进步。
Qwen 2.5:以长上下文和多模态能力引领开源潮流
阿里巴巴Qwen团队推出的Qwen 2.5系列LLM,同样在开源模型领域取得了显著进展。Qwen 2.5系列由多个开放式权重基础和指令调整模型组成,参数范围从0.5B到72B。此外,还有两种专有的混合专家(MoE)型号,Qwen2.5-Turbo和Qwen2.5-Plus。
Qwen 2.5系列模型在架构上采用了基于Transformer的解码器,并利用了分组查询注意力(GQA)、SwiGLU激活、旋转位置嵌入(RoPE)等技术。在训练方面,Qwen团队将训练前数据集扩展到18万亿个代币,并纳入了更多样和高质量的数据。训练后,他们使用了超过100万个样本的复杂监督微调(SFT),并结合了多阶段强化学习(DPO,然后是GRPO)。
Qwen 2.5系列模型的最大亮点在于其强大的长上下文处理能力。该系列模型利用YARN和Dual Chunk Attention(DCA)技术,使Qwen2.5-Turbo的上下文长度高达100万个令牌。此外,Qwen团队还发布了基于Qwen 32B的推理AI模型Qwen QwQ,以及基于Qwen2-VL-72B的视觉推理模型QvQ,进一步丰富了Qwen模型家族的功能。
在性能方面,Qwen2.5-72B-Instruct的性能可与Llama-3-405B-Instruct相媲美。Qwen2.5-Turbo在1M令牌密码检索任务中实现了100%的准确率。Qwen 2.5还进一步成为他们最新和最伟大的专业模型的基础:Qwen2.5-Math、Qwen2.5-Coder、QwQ和QvQ等多模态模型。
与DeepSeek团队一样,阿里巴巴Qwen团队也发布了Qwen2.5技术报告,提供了关于该系列模型的详细信息,体现了开源社区的开放精神。

结语
DeepSeek-V3和Qwen 2.5系列的发布,无疑是开源模型发展史上的重要里程碑。它们以其卓越的性能、高效的训练方法和开放透明的技术细节,为开源社区注入了新的活力,也为AI技术的未来发展指明了方向。我们有理由相信,随着开源社区的不断壮大,开源模型必将在未来的AI竞争中扮演越来越重要的角色。
不用再纠结选择哪个AI模型了!chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择,快来体验吧!
相关文章:
开源模型迎来颠覆性突破:DeepSeek-V3与Qwen2.5如何重塑AI格局?
不用再纠结选择哪个AI模型了!chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择,快来体验吧! 在全球人工智能模型快速发展的浪潮中,开源模型正逐渐成为一股不可忽视的力量。近日,DeepSeek-V3和Qwen 2.…...
【51单片机零基础-chapter4:LED数码管】
LED数码管本质是一种廉价的显示器,由多个发光二极管封装组成的8字形器件 如果要显示6,那么需要点亮除了B以外的所有段,并且开发板上默认是共阴极 阳极A->G除了B全点亮,所以7,4,2,1,9,10全接正极:10111110 这个就是段码,表示显示的数据 静态LED显示 开发板上是四个一体…...
【网络】什么是路由协议(Routing Protocols)?常见的路由协议包括RIP、OSPF、EIGRP和BGP
路由协议(Routing Protocols) 像 google map RIP (Routing Information Protocol):跳数 超了就废了 OSPF(Open Shortest Path First) 就好像拿着map找最短距离(跳数) EIGRP(Enhanced Interior Gateway Routing Protoco…...
Unity3D ILRuntime开发原则与接口绑定详解
引言 ILRuntime是一款基于C#的热更新框架,使用IL2CPP技术将C#代码转换成C代码,支持动态编译和执行代码,适用于Unity3D的所有平台,包括Android、iOS、Windows、Mac等。本文将详细介绍ILRuntime在Unity3D中的开发原则及接口绑定技术…...
闻泰科技涨停-操盘训练营实战-选股和操作技术解密
如上图,闻泰科技,今日涨停,这是前两天分享布局的一个潜伏短线的标的。 选股思路: 1.主图指标三条智能辅助线粘合聚拢,即将选择方向 2.上图红色框住部分,在三线聚拢位置,震荡筑底,…...
我用AI学Android Jetpack Compose之开篇
最近突发奇想,想学一下Jetpack Compose,打算用Ai学,学最新的技术应该要到官网学,不过Compose已经出来一段时间了,Ai肯定学过了,用Ai来学,应该问题不大,学习过程记录下来,…...
25考研王道数据机构课后习题-----顺序表链表部分
文章目录 1.顺序表题目2.链表相关题目3.我的个人总结 声明:以下内容来自于B站知名up主白话拆解数据结构,望获悉; 1.顺序表题目 下面的这个说的是:下面的哪一个是组成我们的顺序表的有限序列,这个应该是数据元素&#x…...
新能源电动汽车动力电池技术
新能源电动汽车动力电池技术是新能源汽车发展的核心之一,以下是动力电池技术的一些关键方面: 技术进展 能量密度提升:近年来,动力电池的能量密度有了显著提升,从2010年的100Wh/kg提高到2024年的300Wh/kg。能量密度的…...
修复 ITunes 在 Windows 或 Mac 上不断崩溃的问题 [100% 有效]
对于 iDevice 用户来说,只能通过 iTunes 在 iDevice 和计算机之间传输文件的困境一直是一个紧迫的问题。所有 iPhone 用户可能都知道,iTunes 并不是一款高效的应用程序,有时性能会很差,例如在 iDevices 和计算机之间传输文件时不断…...
Android设备使用AOA协议进行主机与配件模式通信
1.使用TYPC-C数据线连接两台华为手机: TYPE-C线,先连接下图右边的ACCESSORY 再连接左边的HOST 此时左边的HOST(白色) 会给右边的ACCESSORY(黑色) 充电 接着打开左连接的HostChart会自动调起授权,然后会启动右边的AccessoryChart USB HOS…...
Python爬虫入门实例:Python7个爬虫小案例(附源码)
引言 随着互联网的快速发展,数据成为了新时代的石油。Python作为一种高效、易学的编程语言,在数据采集领域有着广泛的应用。本文将详细讲解Python爬虫的原理、常用库以及实战案例,帮助读者掌握爬虫技能。 一、爬虫原理 爬虫,又…...
生成对抗网络 (Generative Adversarial Network, GAN) 算法MNIST图像生成任务及CelebA图像超分辨率任务
生成对抗网络 (Generative Adversarial Network, GAN) 算法详解与PyTorch实现 目录 生成对抗网络 (Generative Adversarial Network, GAN) 算法详解与PyTorch实现1. 生成对抗网络 (GAN) 算法概述1.1 生成器与判别器1.2 GAN的优势2. GAN的核心技术2.1 目标函数2.2 生成器2.3 判别…...
快速排序排序方法演示及算法分析(附代码和实例)
基本思想: 任取一个元素(比如第一个)为中心,称为枢轴(pivot)所有比它小的元素一律前放,比它大的元素后放,形成左右两个子表对各子表重新选择中心元素并以此规则调整直到每个子表的元…...
库迪困境:供应链补救失效背后的市场错配
作者 | 曾响铃 文 | 响铃说 近日,红餐网证实了库迪咖啡暂停便捷店招商的消息。库迪官方回应称,店中店模式招商只是按下了暂停键,不排除未来重启的可能。 但一批被“暂停”的便捷店加盟商,不知道等不等起库迪的未来重启。 小红…...
解决openpyxl操纵带公式的excel或者csv之后,pandas无法读取数值的问题
1 功能特点 openpyxl: 这是一个专门用于操作Excel文件(.xlsx/.xlsm)的库。它提供了丰富的功能来读取、写入和修改Excel文件的各个元素,如单元格、行、列、工作表等。例如,可以通过openpyxl轻松地创建一个新的Excel工作…...
基于傅立叶神经网络(FNN)与物理信息神经网络(PINN)求解泊松方程(附Pytorch源代码)
基于傅立叶神经网络(FNN)与物理信息神经网络(PINN)求解泊松方程 一、引言 偏微分方程(Partial Differential Equation, PDE)在科学与工程领域有着广泛的应用。传统数值方法(如有限差分法、有限元法)在求解这类问题时,尽管已经非常成熟,但随着问题复杂度的增加,其计…...
小程序组件 —— 28 组件案例 - 推荐商品区域 - 实现结构样式
这一节目标是实现底部推荐商品的结构和样式,由于这里要求横向滚动,所以需要使用上节介绍的 scroll-view 功能,并使用 scroll-x 属性支持横向滚动,推荐商品区域中的每一个商品是一个单独的 view,每个view 中需要写三个组…...
Flink读写Kafka(DataStream API)
在Flink里,已经预定义了kafka connector,使用该connector我们可以读写kafka,并且能实现exactly once的语义。 要使用需要引入相关的maven依赖,在这里,因为读写kafka,就会涉及一个问题,kafka-client和broker的版本兼容问题,不过因为kafka client和broker的双向兼容的良…...
SCAU期末笔记 - 数据库系统概念往年试卷解析
数据库搞得人一头雾水,题型太多太杂,已经准备摆烂了。就刷刷往年试卷,挂不挂听天由命。 2019年 Question 1 选择题 1. R ∩ S R∩S R∩S等于一下哪个选项? 画个文氏图秒了 所以选A. R ∩ S R − ( R − S ) R∩SR-(R-S) R∩…...
flutter在windows平台中运行报错
PS D:\F\luichun> flutter run当运行flutter项目时,【解决如下报错】 /C:/flutter/packages/flutter/lib/src/painting/star_border.dart:530:27: Error: The getter Matrix4 isnt defined for the class _StarGenerator.- _StarGenerator is from package:flut…...
终极指南:用LeetDown免费快速降级你的iPhone,让老设备重获新生
终极指南:用LeetDown免费快速降级你的iPhone,让老设备重获新生 【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown 还在为旧iPhone升级后卡顿发愁吗࿱…...
Win10/Win11双网卡访问冲突?详解路由跃点数(Metric)的优先级设置与实战调优
Win10/Win11双网卡访问冲突?详解路由跃点数(Metric)的优先级设置与实战调优 当你的笔记本同时连接公司内网和家庭WiFi时,是否遇到过微信消息延迟、视频会议卡顿却查不出原因?或者远程桌面连接时断时续,而pi…...
TMS320F28335新手避坑指南:从零搭建CCS7.2项目到点亮第一个LED(附完整源码包)
TMS320F28335实战入门:CCS7.2环境搭建与LED控制全流程解析 第一次接触TMS320F28335这款经典DSP芯片时,面对CCS开发环境和复杂的项目配置,很多开发者都会经历从兴奋到困惑的过程。本文将以最简路径带你完成开发环境搭建、项目配置到第一个LED控…...
Fisher最优分割法实战:用Python帮你找到时间序列里的“变盘点”和“稳定期”
Fisher最优分割法实战:用Python精准捕捉时间序列的变盘时刻 金融市场的价格波动、用户活跃度的周期性变化、产品销量的季节性起伏——这些时间序列数据中往往隐藏着关键的结构变化点。传统分析方法通常依赖主观判断或简单阈值分割,而Fisher最优分割法提供…...
Vue v-on 在 React 中 VuReact 会如何实现?
VuReact 是一个能将 Vue 3 代码编译为标准、可维护 React 代码的工具。今天就带大家直击核心:Vue 中常见的 v-on/ 指令经过 VuReact 编译后会变成什么样的 React 代码? 前置约定 为避免示例代码冗余导致理解偏差,先明确两个小约定ÿ…...
别再手动对齐维度了!用PyTorch广播机制让你的张量运算代码更简洁(附常见错误排查)
别再手动对齐维度了!用PyTorch广播机制让你的张量运算代码更简洁(附常见错误排查) 在深度学习项目中,我们常常需要处理形状各异的张量进行运算。想象一下这样的场景:你需要将一个形状为(3,1)的偏置向量加到形状为(3,25…...
软件流处理化的实时计算与状态管理
软件流处理化的实时计算与状态管理:技术演进与实践 在当今数据驱动的时代,实时计算已成为企业决策和用户体验的核心支撑。随着物联网、金融交易和在线服务的普及,传统的批处理模式难以满足低延迟、高吞吐的需求。软件流处理化(St…...
2026奇点大会量子计算分论坛突发技术声明:NISQ时代终结,AGI训练能耗骤降67%——你准备好硬件升级了吗?
第一章:2026奇点智能技术大会:AGI与量子计算 2026奇点智能技术大会(https://ml-summit.org) AGI系统架构的范式跃迁 本届大会首次公开演示了基于神经符号融合(Neuro-Symbolic Integration)的AGI原型系统“Orion-7”,…...
强化学习在复杂决策系统中的探索与利用平衡
强化学习在复杂决策系统中的探索与利用平衡 强化学习作为人工智能领域的重要分支,在自动驾驶、游戏博弈、金融交易等复杂决策系统中展现出巨大潜力。其核心挑战之一是如何在探索未知环境与利用已知经验之间取得平衡。过度探索可能导致效率低下,而过度利…...
告别硬编码!用TwinCAT 3 XML-Server实现设备配方与参数动态加载
工业自动化参数管理的革命:TwinCAT 3 XML-Server实战指南 在一条24小时运转的汽车零部件生产线上,工程师小王正面临一个典型困境——每次切换产品型号时,都需要手动修改PLC程序中的200多个参数,包括冲压压力、传送带速度、机械臂位…...
