当前位置：首页 > news >正文

开源模型迎来颠覆性突破：DeepSeek-V3与Qwen2.5如何重塑AI格局？

news 2026/4/20 0:19:58

不用再纠结选择哪个AI模型了！chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择，快来体验吧！

在全球人工智能模型快速发展的浪潮中，开源模型正逐渐成为一股不可忽视的力量。近日，DeepSeek-V3和Qwen 2.5系列的相继发布，再次证明了开源模型在技术创新和性能提升上的巨大潜力。这两大模型不仅在多个基准测试中取得了惊人的成绩，更以其高效的训练方法和开放透明的技术细节，为开源社区注入了新的活力。

DeepSeek-V3：以精细化MoE架构挑战闭源巨头

DeepSeek-V3是DeepSeek团队推出的一个完全开源的LLM（大型语言模型），其总参数高达6710亿，但每个token仅激活370亿参数。这种高效的参数利用得益于其精细的MoE（混合专家）架构。

DeepSeek-V3采用了创新的MoE架构，每个token都有一个共享专家和256个路由专家，其中8个路由专家处于激活状态。此外，该模型还采用了多头潜在注意力机制，具有低等级联合压缩，用于关注键和值。多token预测技术则有助于投机解码和更好地利用训练数据。

在训练方面，DeepSeek-V3使用了14.8万亿个token，训练成本仅为560万美元，使用了2788K H800 GPU小时。如此高效的训练得益于精细的MoE架构、FP8混合精度训练以及动态调整上下文长度。DeepSeek团队通过算法、框架和硬件的协同设计，克服了大型MoE模型训练中的通信瓶颈，实现了在训练中有效利用计算资源。两阶段的上下文长度扩展，首先将上下文从4k令牌扩展到32k令牌，然后扩展到128k令牌，使得模型的长文本处理能力得到了显著提升。

DeepSeek-V3在多个基准测试中的表现令人印象深刻，例如在MMLU上达到了88.5，在GPQA上达到了59.1，在MATH上达到了90.2。其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美，证明了开源模型在性能上完全有能力挑战闭源巨头。

DeepSeek团队不仅在HuggingFace上共享了模型，还在其“DeepSeek-V3技术报告”中提供了有关模型的详细信息，这种开放透明的态度无疑将加速开源社区的共同进步。

Qwen 2.5：以长上下文和多模态能力引领开源潮流

阿里巴巴Qwen团队推出的Qwen 2.5系列LLM，同样在开源模型领域取得了显著进展。Qwen 2.5系列由多个开放式权重基础和指令调整模型组成，参数范围从0.5B到72B。此外，还有两种专有的混合专家（MoE）型号，Qwen2.5-Turbo和Qwen2.5-Plus。

Qwen 2.5系列模型在架构上采用了基于Transformer的解码器，并利用了分组查询注意力（GQA）、SwiGLU激活、旋转位置嵌入（RoPE）等技术。在训练方面，Qwen团队将训练前数据集扩展到18万亿个代币，并纳入了更多样和高质量的数据。训练后，他们使用了超过100万个样本的复杂监督微调（SFT），并结合了多阶段强化学习（DPO，然后是GRPO）。

Qwen 2.5系列模型的最大亮点在于其强大的长上下文处理能力。该系列模型利用YARN和Dual Chunk Attention（DCA）技术，使Qwen2.5-Turbo的上下文长度高达100万个令牌。此外，Qwen团队还发布了基于Qwen 32B的推理AI模型Qwen QwQ，以及基于Qwen2-VL-72B的视觉推理模型QvQ，进一步丰富了Qwen模型家族的功能。

在性能方面，Qwen2.5-72B-Instruct的性能可与Llama-3-405B-Instruct相媲美。Qwen2.5-Turbo在1M令牌密码检索任务中实现了100%的准确率。Qwen 2.5还进一步成为他们最新和最伟大的专业模型的基础：Qwen2.5-Math、Qwen2.5-Coder、QwQ和QvQ等多模态模型。

与DeepSeek团队一样，阿里巴巴Qwen团队也发布了Qwen2.5技术报告，提供了关于该系列模型的详细信息，体现了开源社区的开放精神。

推动AI技术

结语

DeepSeek-V3和Qwen 2.5系列的发布，无疑是开源模型发展史上的重要里程碑。它们以其卓越的性能、高效的训练方法和开放透明的技术细节，为开源社区注入了新的活力，也为AI技术的未来发展指明了方向。我们有理由相信，随着开源社区的不断壮大，开源模型必将在未来的AI竞争中扮演越来越重要的角色。

不用再纠结选择哪个AI模型了！chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择，快来体验吧！

开源模型迎来颠覆性突破：DeepSeek-V3与Qwen2.5如何重塑AI格局？

DeepSeek-V3：以精细化MoE架构挑战闭源巨头

Qwen 2.5：以长上下文和多模态能力引领开源潮流

结语

相关文章：

开源模型迎来颠覆性突破：DeepSeek-V3与Qwen2.5如何重塑AI格局？

【51单片机零基础-chapter4:LED数码管】

【网络】什么是路由协议（Routing Protocols）？常见的路由协议包括RIP、OSPF、EIGRP和BGP

Unity3D ILRuntime开发原则与接口绑定详解

闻泰科技涨停-操盘训练营实战-选股和操作技术解密

我用AI学Android Jetpack Compose之开篇

25考研王道数据机构课后习题-----顺序表链表部分

新能源电动汽车动力电池技术

修复 ITunes 在 Windows 或 Mac 上不断崩溃的问题 [100% 有效]

Android设备使用AOA协议进行主机与配件模式通信

Python爬虫入门实例：Python7个爬虫小案例（附源码）

生成对抗网络 (Generative Adversarial Network, GAN) 算法MNIST图像生成任务及CelebA图像超分辨率任务

快速排序排序方法演示及算法分析（附代码和实例）

库迪困境：供应链补救失效背后的市场错配

解决openpyxl操纵带公式的excel或者csv之后，pandas无法读取数值的问题

基于傅立叶神经网络（FNN）与物理信息神经网络（PINN）求解泊松方程(附Pytorch源代码)

小程序组件 —— 28 组件案例 - 推荐商品区域 - 实现结构样式

Flink读写Kafka（DataStream API）

SCAU期末笔记 - 数据库系统概念往年试卷解析

flutter在windows平台中运行报错

终极指南：用LeetDown免费快速降级你的iPhone，让老设备重获新生

Win10/Win11双网卡访问冲突？详解路由跃点数（Metric）的优先级设置与实战调优

TMS320F28335新手避坑指南：从零搭建CCS7.2项目到点亮第一个LED（附完整源码包）

Fisher最优分割法实战：用Python帮你找到时间序列里的“变盘点”和“稳定期”

Vue v-on 在 React 中 VuReact 会如何实现？

别再手动对齐维度了！用PyTorch广播机制让你的张量运算代码更简洁（附常见错误排查）

软件流处理化的实时计算与状态管理

2026奇点大会量子计算分论坛突发技术声明：NISQ时代终结，AGI训练能耗骤降67%——你准备好硬件升级了吗？

强化学习在复杂决策系统中的探索与利用平衡

告别硬编码！用TwinCAT 3 XML-Server实现设备配方与参数动态加载