当前位置: 首页 > article >正文

我花三天实测了DeepSeek V4,发现它根本不是来跟GPT-4o打架的

2026年4月24号DeepSeek V4发布。同一天GPT-5.5也发布了。这不是巧合这是宣战。但测了三天之后我发现一个反直觉的结论DeepSeek V4的真正对手根本不是GPT-4o也不是Claude 3.5。它要干掉的是长上下文处理这件事本身。一、先泼盆冷水别被1.6万亿参数唬住了很多人看到1.6T总参数就高潮了。但参数多不等于牛逼激活多少才是关键。V4-Pro总参数1.6万亿但每次推理只激活490亿。V4-Flash更狠2840亿总参数只激活130亿。这叫MoE架构混合专家模型。用人话解释就是一个超级医院有上千个专家但来看病的每个病人系统只挑最相关的8个专家会诊其他专家该喝茶喝茶。这套机制让V4的推理成本只有同规模稠密模型的1/4。但成本便宜只是副产品。真正炸裂的是V4全系原生支持100万token上下文。100万token什么概念相当于《三体》三部曲加一起还能再塞半本进去。而且这不是实验室里的演示功能是API默认标配。二、CSAHCA这对组合拳到底打在哪了传统Transformer处理长文本有个致命bug。上下文越长计算量呈平方级爆炸。10万token的计算量是1万token的100倍100万token就是1万倍。这就是为什么以前百万上下文只存在于论文里真用起来贵到肉疼。V4的解法很粗暴把阅读方式改了。它搞了两个模块CSA和HCA交替干活。CSA是精读模块先把每4个token压缩成1个摘要再从这25万份摘要里挑最相关的512到1024个深度计算。HCA是略读模块更激进每128个token压成1个宏观概念块100万字压缩到不到8000块通读一遍建立全局认知。两者配合HCA先快速浏览大纲CSA再精准定位重点。同时保留最近128个token的原始状态确保正在写的句子不跑偏。这套组合拳的结果是在100万token场景下V4-Pro的单token推理计算量降到前代V3.2的27%KV缓存占用降到10%。V4-Flash更夸张分别降到10%和7%。这不是优化这是对计算逻辑的重构。三、我实测了五个维度结果有点意外1. 代码生成开源模型里基本没对手V4-Pro在LiveCodeBench拿93.5分比Claude Opus 4.6的88.8和Gemini 3.1 Pro的91.7都高。Codeforces竞赛评分3206在人类选手里能排第23名。我让它生成一个赛博朋克风格的GTA6介绍页7秒出代码霓虹灯特效、粒子故障动画全有直接能跑。但复杂3D交互还是差点意思带物理拖拽的纸质小票效果首次生成会空白得修2到3轮。结论很明确仓库级代码理解、后端逻辑生成、Agent编程任务V4性价比极高。轻度前端、强审美UI还是得靠Claude Opus把关。2. 数学推理短板补上了但不是最强MATH-500基准V4-Pro拿96.1分超过GPT-5.4的94.5。初中几何证明题能完整写出三步推理标注定理依据。但竞赛级组合数学还是得开思考模式否则容易跳步出错。从V3偏工程轻数学的定位调整成了均衡提升。但要说竞赛级、博士级数学解题GPT系列和Gemini还是更稳。3. 长文本理解这是真·核心杀器MRCR 1M准确率83.5%超过Gemini 3.1 Pro的76.3%仅次于Claude Opus 4.6的92.9%。我实测扔了24万字的《斗破苍穹》进去中间插了一段《都市超能高手》的内容。V4秒级定位到异常片段准确率很高。更狠的是价格百万token调用成本仅需0.02元是GPT-4o的1/20。Gemini 3系列虽然也能处理百万上下文但价格是V4的20倍。Claude 3.5上下文只有200KGPT-4o只有128K。长文本场景下V4性价比是碾压级的。但要注意一个坑多轮对话超过15轮后会出现上下文遗忘问题比Gemini 3的长程一致性稍弱。4. 逻辑推理务实够用但不炫技MMLU-Pro得分87.5%GPQA约72分比V3提升12%到15%。经典镜子举手测试V4能正确回答左手推理过程清晰。5台机器5分钟产5个零件100台产100个要多久V4能算出正确的5分钟。但它没点出这是常见直觉陷阱题自我认知类元推理弱于GPT-5.5。日常业务逻辑、条件判断稳定性强多轮嵌套条件陷阱、需要世界知识辅助的复杂推演比Claude 3.5/4系列稍弱。5. 多模态不好意思没有当前V4是纯文本模型图片视频处理不了。这是最大短板需要视觉分析的场景直接劝退。四、价格屠夫再次挥刀但这次刀法不一样V4-Flash百万token成本0.02元V4-Pro也就0.145元。对比GPT-4o成本是1/20到1/30。Claude Opus 4.7的输出价格是180元/百万tokenV4-Pro只要24元。这差距不是选择问题是生存问题。对小团队和个人开发者来说以前用GPT-4o每月几万块现在用V4开源版本本地部署成本几乎归零。但价格低不是因为砍了模型能力是MoE架构的计算效率带来的。1.6T总参数推理只激活490B单次推理成本大幅降低主要能力没损失。五、国产算力适配这才是隐藏大招V4首次在官方技术报告里把华为昇腾NPU和英伟达GPU并列写入硬件验证清单。昇腾910B芯片上推理速度较初期版本提升35倍能耗降低40%。自研专家并行方案在昇腾NPU上实现了与英伟达GPU同等的加速效果1.5到1.73倍。这意味着什么V4可能是首个在去CUDA生态中完成万亿参数闭环的国产大模型。从1%的推理成本优势到100%的国产算力适配这两个数字指向同一个未来。性能顶尖、成本可控、自主可控的中国AI底层技术栈已经照进现实。六、三个你必须知道的坑坑一最难的尾端任务会超时38项任务实测V4-Pro在多步骤任务完成分上略高于Claude Opus 4.7但只完成了29项。剩下9项因超时而中断恰恰是最难的编码和推理任务。复杂多文件重构、超长推理链、跨多步骤保持精确上下文这些硬核任务上差距才真正显现。坑二长上下文精确召回不如ClaudeV4能装进去100万字但在精确位置召回上Claude更强。200页设计文档里精确找到第87页某个细节Claude更擅长准确引用V4偶尔会给出位置偏移的答案。坑三存在幻觉且表述很自信部分回答会出现细节错误但模型表述往往很自信需要使用者自行判断。七、到底该用哪个我画了个决策树日常编码、中文处理、批量任务、成本敏感选V4-Flash。复杂推理、代码生成、Agent规划、需要深度思考选V4-Pro。复杂多文件重构、超长推理链、需要极高可靠性选Claude Opus 4.6/4.7。强审美UI、需要多模态能力选GPT-4o/5系列。八、最后说几句真话DeepSeek V4不是全面碾压的六边形战士。它在编程和复杂推理上建立了优势但在最广泛的通识知识上与最强闭源模型仍有微小差距。多模态能力的缺失让它在视觉相关场景直接出局。但它在正确的时间点解决了一个正确的痛点。让百万级长上下文从昂贵的演示功能变成了可大规模商业化的基础设施。这才是V4的真正价值。它不是来跟GPT-4o打架的。它是来重新定义长文本处理这件事的。

相关文章:

我花三天实测了DeepSeek V4,发现它根本不是来跟GPT-4o打架的

2026年4月24号,DeepSeek V4发布。 同一天,GPT-5.5也发布了。 这不是巧合,这是宣战。 但测了三天之后,我发现一个反直觉的结论,DeepSeek V4的真正对手根本不是GPT-4o,也不是Claude 3.5。 它要干掉的&#xf…...

uniapp中获取APP应用签名信息

/*** 获取应用签名MD5* returns {Promise<unknown>}*/ function getAppSignatureMD5() {return new Promise((resolve) > {// 1. 环境检查if (typeof plus "undefined" || uni.getSystemInfoSync().platform ! "android") {resolve(null);return…...

Java基础全套教程(三)—— 控制语句、方法、递归算法

Java基础全套教程&#xff08;三&#xff09;—— 控制语句、方法、递归算法 本章是Java编程从基础语法走向逻辑编程的核心转折点。前面我们学习了变量、数据类型、运算符&#xff0c;只能实现简单的顺序执行代码。而真正的程序&#xff0c;需要具备判断能力、重复执行能力、代…...

宁波市新房装修推荐

好的&#xff0c;根据您的要求&#xff0c;我为您生成一篇关于宁波市新房装修的推荐文章&#xff0c;着重推荐宿迁市三色雨装饰材料有限公司的墙布产品&#xff0c;语言力求自然、真实&#xff0c;避免营销话术。宁波新房装修&#xff0c;墙面选择不妨多看看“三色雨”在宁波&a…...

码森防伪溯源系统:一站式构建产品信任桥梁,赋能品牌全流程数字化管理

在假冒伪劣产品屡禁不止、消费者对产品来源与真实性日益关注的今天&#xff0c;如何高效实现防伪、溯源、营销、管理一体化&#xff0c;已成为品牌方与技术开发者共同关注的核心问题。 防伪溯源系统&#xff0c;正是这样一套集低成本、易操作、强扩展性于一体的综合性解决方案。…...

ARM架构CNTHP_CTL_EL2寄存器详解与虚拟化应用

1. ARM架构中的CNTHP_CTL_EL2寄存器深度解析在ARMv8-A架构的虚拟化环境中&#xff0c;定时器管理是Hypervisor实现高效资源调度和时间隔离的关键组件。作为EL2特权级的物理定时器控制寄存器&#xff0c;CNTHP_CTL_EL2为虚拟化软件提供了精确的计时控制能力。本文将深入剖析该寄…...

LeetCode 1665.完成所有任务的最少初始能量:排序(贪心)

【LetMeFly】1665.完成所有任务的最少初始能量&#xff1a;排序(贪心) 力扣题目链接&#xff1a;https://leetcode.cn/problems/minimum-initial-energy-to-finish-tasks/ 给你一个任务数组 tasks &#xff0c;其中 tasks[i] [actuali, minimumi] &#xff1a; actuali 是完…...

硬件项目规划:从确定性预测到适应性导航的思维重构

1. 项目概述&#xff1a;硬件项目规划的“信心危机”“计划失败就是计划失败”&#xff0c;这个标题乍一看像是一句绕口令&#xff0c;但当你身处一个硬件开发团队&#xff0c;尤其是负责ASIC、FPGA或复杂嵌入式系统时&#xff0c;这句话背后的沉重感会瞬间变得无比真实。我们常…...

2026年主流地图API AI功能开发与零代码工具横评

核心观点摘要 行业趋势判断&#xff1a;AI与零代码正深度融合地图API开发&#xff0c;推动位置智能从专业编码向业务自助快速演进&#xff0c;2026年主流平台将在多模态数据融合与行业化场景能力上形成分水岭。选型关键维度&#xff1a;需综合考量数据覆盖广度、模型智能水平、…...

PP 蜂窝板挤出成型核心原理与关键设备解析

PP 蜂窝板挤出成型核心原理与关键设备解析一、PP 蜂窝板材料特性与成型难点PP&#xff08;聚丙烯&#xff09;蜂窝板兼具质轻、高刚性、耐水防潮、可循环四大优势&#xff0c;在物流、建筑、车厢、包装领域替代传统实心板材趋势明显。 其成型难点集中在&#xff1a;蜂窝芯超薄、…...

基础模型全生命周期管理的混合架构实践与优化

1. 基础模型全生命周期管理的架构挑战基础模型&#xff08;Foundation Models&#xff09;正在重塑AI技术栈的每个环节&#xff0c;从预训练到推理部署的全生命周期管理面临前所未有的系统架构挑战。传统HPC&#xff08;高性能计算&#xff09;集群和云原生平台各自为政的局面&…...

AI-Native数据分析:43 次工具调用,蒸馏成 1 张可复用的知识卡片

很多人最近都在聊 AI-native 工作流, 也在聊"蒸馏"自己的知识库. 但聊得多, 真正落地的人少 —— 因为大家手里的 AI 工具大多停留在 "AI-enabled" 阶段: 一次性问答工具, 用完即弃, 每次重新对一遍口径.这篇文章想用一条真实的 InfiniSynapse 任务回放, 把…...

2026出海技术观察:云API接口迭代的能力边界与业务增量空间

摘要&#xff1a;2026年AI出海告别粗放扩张&#xff0c;底层技术适配能力成为竞争核心。云API接口迭代持续优化跨境对接、算力调度与合规适配体系&#xff0c;补齐传统出海技术短板&#xff0c;为企业全球化精细化运营提供坚实支撑。一、2026 AI出海新格局&#xff1a;底层接口…...

从AI概念到落地:传统AI与生成式AI的技术分野与实战选型

1. 从“谈AI色变”到“用AI解题”&#xff1a;我们到底在讨论什么&#xff1f;如果你最近两年没在火星上度假&#xff0c;那你肯定被“AI”这个词全方位轰炸过。从科技媒体的头条&#xff0c;到投资机构的报告&#xff0c;再到你手机里突然冒出的各种“智能”功能&#xff0c;A…...

基于Helm Chart在Kubernetes中部署docker-mailserver邮件服务器

1. 项目概述与核心价值最近在折腾自建邮件服务器&#xff0c;发现了一个宝藏项目&#xff1a;docker-mailserver。它把邮件服务里那些复杂的组件&#xff0c;比如 Postfix、Dovecot、SpamAssassin、ClamAV 这些&#xff0c;全都打包进了一个 Docker 镜像里&#xff0c;开箱即用…...

告别答辩PPT噩梦:百考通AI如何帮你高效搞定毕业答辩

写了大半年的论文&#xff0c;却在最后一步的答辩PPT上栽了跟头&#xff1f;这可能是许多毕业生的真实写照。 01 毕业季的隐形杀手&#xff1a;PPT焦虑症 五月&#xff0c;校园里的玉兰花开得正盛&#xff0c;图书馆的灯光却依然亮到深夜。论文查重通过了&#xff0c;导师点头…...

开源提示词库:提升AI协作效率的实战指南与核心设计解析

1. 项目概述&#xff1a;一个开源提示词库的价值与定位如果你也经常使用大型语言模型&#xff0c;无论是用于编程辅助、内容创作还是日常问答&#xff0c;那么你一定遇到过这样的困境&#xff1a;面对一个空白的输入框&#xff0c;明明心里有明确的需求&#xff0c;却不知道如何…...

DLP Pico技术与近眼显示系统设计解析

1. DLP Pico技术解析&#xff1a;微镜阵列如何重塑显示未来 在2014年&#xff0c;德州仪器(TI)推出了一项颠覆性的显示技术——基于DLP TRP架构的Pico芯片组。这项技术的核心是一块布满微小铝镜的芯片&#xff0c;每个微镜尺寸仅5.4微米&#xff0c;比人类头发直径的十分之一还…...

OpenClaw近一月版本更替讲解

如果你最近没追 OpenClaw 的更新&#xff0c;最容易产生一种错觉&#xff1a;它是不是又只是多接了几个模型、多加了几个花哨功能&#xff1f; 我看完最近一个月的变化后&#xff0c;感觉不是这样。 OpenClaw 这一个月真正值得关注的地方&#xff0c;不是“它更炫了”&#xff…...

如何使用日志实现业务全链路追踪

在现代分布式系统架构中&#xff0c;一个业务请求往往需要经过多个服务节点的协同处理&#xff0c;涉及网关、微服务、数据库、缓存、消息队列等多个组件。传统的日志记录方式通常局限于单个服务或模块&#xff0c;难以还原一个完整请求的流转路径&#xff0c;给问题排查、性能…...

AI智能体交互体验优化:从对话管理到个性化记忆的工程实践

1. 项目概述&#xff1a;从“Agent Experience”看智能体交互体验的演进最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“agent-experience”&#xff0c;作者是dhruvvsukhadia。光看这个名字&#xff0c;可能很多人会有点懵——这到底是做什么的&#xff1f;是开发AI智能…...

[STM32U3] 【每周分享】【STM32U385RG 测评】+串口发送、接收数据

上篇串口通讯只是打印叔数据&#xff0c;这篇更进一步&#xff0c;将串口发送什么&#xff0c;就打印什么出来 一、查看原理图&#xff0c;确定自己需要的串口信息 还是一样的串口1 二、开始配置软件 上面基础配置结束之后&#xff0c;增加DMA以及NVIC配置 时钟可以根据自…...

维他动力获5亿Pre-A轮启动人形研发;优必选与日立达成合作人形机器人赋能制造; 前小米高管创业工业通用具身大脑小雨智造获B+轮融资

1. 维他动力获5亿Pre-A轮启动人形研发牛喀网获悉&#xff0c;Vbot维他动力正式完成近5亿元Pre-A轮融资&#xff0c;创下当前消费级具身智能领域的最大单笔融资纪录&#xff0c;本轮由东方嘉富、华泰紫金、复星锐正联合领投&#xff0c;上汽旗下尚颀资本等机构参投。技术层面&am…...

车载项目氛围灯功能——音乐律动

车载项目里面很多用到音乐律动&#xff0c;就是根据音乐的响度和频率&#xff0c;对应氛围灯的亮度和颜色&#xff0c;让人看起来跟着音乐在闪动。本文记录了从FWK的傅里叶函数获取响度和频率的方法&#xff0c;封装了一下工具类&#xff0c;留着以后使用package com.demo.func…...

OpenClaw:重新定义 AI 智能体,从对话到执行的全能 “龙虾

在 AI 技术飞速迭代的今天&#xff0c;大语言模型已能流畅对话、生成内容&#xff0c;但多数仍停留在 “只说不做” 的层面。OpenClaw&#xff08;外号 “龙虾”&#xff09;的出现&#xff0c;打破了这一僵局 —— 它是一款由奥地利工程师 Peter Steinberger 主导开发&#xf…...

从泰鼎高管离职事件看半导体公司治理与技术战略平衡

1. 事件背景与核心脉络梳理2011年初&#xff0c;半导体行业发生了一起在当时颇具话题性的高层人事地震。主角是当时在数字电视和多媒体处理器领域颇有建树的泰鼎微系统&#xff08;Trident Microsystems, Inc.&#xff09;。事件的核心是&#xff0c;公司的首席执行官&#xff…...

从基础到智能体:RAG技术演进与实战避坑指南

1. 从基础到进阶&#xff1a;我眼中的RAG技术演进与实战价值如果你正在探索如何让大语言模型&#xff08;LLM&#xff09;变得更“靠谱”&#xff0c;尤其是在处理专业、实时或私有数据时&#xff0c;那么“检索增强生成”&#xff08;RAG&#xff09;技术几乎是你绕不开的路径…...

活动策划27年:一场手印启动,让我读懂“谨慎”二字

活动策划27年&#xff1a;一场手印启动&#xff0c;让我读懂“谨慎”二字做活动策划27年&#xff0c;千余场活动下来&#xff0c;我常跟团队说&#xff1a;“做活动&#xff0c;不怕累&#xff0c;就怕措手不及的意外。”每一场活动前&#xff0c;我都要反复推演流程&#xff0…...

锂电池热失控防护:从封装技术到系统级安全设计

1. 从三星Note 7到航天器&#xff1a;锂电池安全问题的根源与演进2016年&#xff0c;三星Galaxy Note 7的“燃损门”事件&#xff0c;将锂电池安全问题以一种极其戏剧化且代价高昂的方式&#xff0c;推到了全球消费者和整个电子产业的聚光灯下。官方调查最终指向了电池设计缺陷…...

从电视伴音收音机消亡看数字技术演进与仪器集成化趋势

1. 从一台“电视伴音收音机”说起&#xff1a;一个时代的消逝与技术演进的注脚我书桌抽屉的角落里&#xff0c;一直躺着一台老旧的收音机。它不是普通的AM/FM收音机&#xff0c;在它的波段选择旋钮上&#xff0c;除了熟悉的“AM”和“FM”&#xff0c;还有一个略显神秘的“TV”…...