当前位置：首页 > article >正文

DeepSeek与Kimi：开源万亿模型技术互通，携手推动中国AI产业发展！

article 2026/4/26 1:07:43

全球大模型更新中国热闹非凡这两天全球顶级大模型接连更新重磅消息不断。中国也迎来热闹的一周从周一开始Qwen、Kimi、小米、腾讯相继发布最新模型。周五千呼万唤的DeepSeek终于发布V4双版本引发国内AI圈的一波海啸。中国迈入万亿参数俱乐部并已开源的模型有DeepSeek和Kimi两家小米也预告将会开源最新的万亿模型。多次「偶遇」背后的「合谋」翻完DeepSeek V4近60页的技术报告发现这两个已开源万亿模型之间的默契很可怕。往前溯源DeepSeek和Kimi已经是第N次「偶遇」这可能源于梁文锋和杨植麟对Scaling Law的共同信仰和对AGI的竞逐。从DeepSeek - R1和Kimi K1.5仅隔两小时发布到如今的Kimi K2.6与DeepSeek - V4在同一周发布两家公司不是互相厮杀而是用近乎「开源共享」的方式一起进步。引用车圈的话「好的设计总是心有灵犀」从Kimi K2采用DeepSeek V3的MLA注意力机制到DeepSeek V4引入Kimi大规模验证的Muon优化器技术上的联动成为行业亮点。MLA注意力机制DeepSeek创新Kimi复用DeepSeek在V3中首创了MLA注意力机制通过低秩压缩技术有效减少显存占用让长上下文推理成为可能。这个创新很快被行业广泛认可Kimi K2在自己的注意力机制中也采用了MLA注意力机制。二阶优化器Kimi大规模验证DeepSeek跟进2025年2月Kimi发表《Muon is Scalable for LLM Training》论文在480亿参数的Moonlight系列模型上验证了Muon优化器的效果用来取代用了10年的行业标准技术Adam。2025年7月在万亿参数Kimi K2中二阶优化器Muon被首次大规模应用展示了其在大规模语言模型训练中的优势。如今DeepSeek V4也跟进用Muon优化器技术实现训练效率的稳定性。两家公司将底层的优化技术相互吸纳打破了技术壁垒展现出深度合作。残差连接两种不同的解决方案DeepSeek在V4中引入了mHC残差连接目标是提高信息传递的效率。通过改变多头注意力的拼接方式mHC提高了梯度流动的效率实测训练效率提高了约30%。Kimi提出的Attention Residuals注意力残差优化了信息流的传递效率提升了模型的表现。这一创新得到广泛认可Andrej Karpathy、OpenAI推理之父Jerry Tworek点评马斯克也在社交媒体上点赞。这两种方案各有特色展现了两家公司在同一技术问题上不同的思路。长上下文推理两种技术路线的探索长上下文推理是AI模型的一大挑战Kimi和DeepSeek思路不同。Kimi在2024年实现了百万Token上下文的能力但成本问题大超长上下文的计算开销线性增长普通开发者难承受。2026年DeepSeek和Kimi分别提出解决方案DeepSeek选择稀疏注意力降低计算量让百万上下文成本更可接受但设计和调优难度大Kimi推出线性注意力架构降低计算复杂度从理论上大幅降低长上下文的计算成本。这两种方案各有优势Kimi和DeepSeek同时在这两条技术路线上发力为未来长上下文推理提供多种选择。从「两个公司」到「一套基础设施」DeepSeek和Kimi的「偶遇」故事关乎中国AI产业格局。GPT - 4参数量未正式公布Claude 3.5 Opus闭源而中国这两家创业公司做出同等规模模型并全部开源任何开发者、研究机构、企业都可免费获取模型进行二次开发和部署。企业私有化部署成本砍到原来的1/10中小企业能在自己服务器上跑万亿参数级模型。生态也在成形在OpenRouter平台上两者的API调用量稳居中国前两名在应用层Kimi被海外爆款编程工具「套壳」接入DeepSeek被日本乐天集团包装成Rakuten AI 3.0。硅谷巨头也正视这股力量Meta将Llama 4与DeepSeek - V3.1以及Kimi - K2进行性能对比黄仁勋在CES主题演讲上展示DeepSeek和Kimi K2 - Thinking模型。同时两家公司在国产芯片适配上有投入DeepSeek V4适配华为昇腾芯片Kimi的Prefill - as - a - Service方案提升了国产芯片推理性能为国产芯片进入大模型推理链条打开切入口。结语两个广东人撑起中国AI的半边天技术的高度取决于人的格局。2023年起步DeepSeek与Kimi双双叩开百亿美金十角兽大门保持业内人数精简、人才密度顶尖的配置。两位来自广东的创始人杨植麟与梁文锋是技术狂热信徒和中国AI国家队。他们在总理主持的座谈会上建言献策是中国AI发展史上的注脚。他们是技术范式引领者DeepSeek证明「思维链」威力Kimi引领「智能体」落地狂潮。在追逐AGI的马拉松里DeepSeek与Kimi有竞争也有共鸣技术互通和底层机制探索说明中国AI的底气在于技术火花和开源生态的互利共生。双峰并峙终将顶峰相见中国大模型的万亿级航海时代才刚刚拉开序幕。那么未来这两家公司还会带来怎样的惊喜呢

DeepSeek与Kimi：开源万亿模型技术互通，携手推动中国AI产业发展！

相关文章：

DeepSeek与Kimi：开源万亿模型技术互通，携手推动中国AI产业发展！

AI协同头脑风暴：提升创意产出的结构化方法与实践

机器学习参数与超参数：核心概念与实践指南

GitHub中文插件：一键解锁全中文GitHub界面体验

二手拆机公司在笔记本上先贴一个唯一的编码然后比如拆下内存和硬盘在内存和硬盘上各贴一个二维码然后用pad扫描进去这样做的目的是什么

算子数学｜独立完整学科章节（百条原创公式· ROOT传世定稿）

php怎么使用PHP PM热重启_php如何零停机更新生产环境代码

Arm架构寄存器编程与定时器控制详解

UP Squared 7100 Edge工业级无风扇迷你电脑深度解析

为什么你花10万+做的小程序，还不如别人花5万块的效果？

DeepSeek-V4 低调发布，藏在背后的5个关键信号，远比发布会更有分量

AI通识-大模型的原理应用

模型莫名拦截输出背后真相，看懂风控底层逻辑学会高效破限

性能压测实战：我们的Agent如何承受百万级并发？

为什么工作台列表要避免 N+1 查询

企业级生成式AI安全部署：NVIDIA NeMo Guardrails实战指南

SpringBoot+Vue出租车服务管理系统源码+论文

王者荣耀与英雄联盟数值设计对比：穿透、乘算与加算、增伤乘算更厉害，减伤加算更厉害

科技报告：基于弱监督BERT-CRF与知识元特征融合的专利价值评估研究

电影票特惠出票和快速出票到底什么逻辑？看完就懂！

zmq源码分析之poller和signaler如何建立联动实现用户层通知

zmq源码分析之IO线程绑定时机

zmq源码分析之多 Socket 监听方案

Pomotroid番茄工作法计时器：如何用这个免费工具快速提升专注力

SMAPI安卓安装器：星露谷物语MOD管理终极解决方案

如何用HTML函数工具测试显卡性能_基准跑分详解【详解】

多芯片加速器动态LLM推理优化与Compass框架实践

量子网络可编程光子接口：原理与实现

词级神经语言模型开发实战：从原理到应用

量子纠错解码器：BP算法与光束搜索技术解析