当前位置: 首页 > article >正文

百万上下文之后,拼什么?

过去几天科技圈的视线全被DeepSeek吸走了。满屏都是传闻中的估值溢价或者是跟各类国产算力芯片的适配通稿。市场的狂热情绪很容易让人迷失在庞大的数字迷宫里。大众的关注点要么是“百万上下文这个听起来很唬人的标签要么是跑分榜单上“谁又赢了谁零点几分”的算术题。DeepSeek V4-Pro的分数确实好看。从其技术报告披露的底牌来看在SimpleQA-Verified测试中它以20个绝对百分点的优势甩开了所有开源对手在Codeforces代码竞赛里预期评分直接追平了GPT-5.4。当然在世界知识的广度上它依然略逊于Gemini-3.1-Pro遇到极高难度的复杂任务跟Claude Opus 4.6也还有微小的身位差。但这都不重要。如果你只盯着榜单排名就完全看漏了这家机构真正的野心。DeepSeek根本不是在发布一个用来刷榜的模型参数包。它实际上是在一点点拆开“百万上下文”这件事的底座。大模型的战争已经从模型层退场全面接管系统层。过去几年行业都在拼脑容量。比谁的参数多比谁跑分高。但这套玩法到头了。V4的出现是在定义一套新规矩模型本身只是高效工程系统自然结出的一个副产品。当1M上下文变成所有官方服务的出厂默认值时从其开源实现中可以清晰地看到一个事实这绝对不是靠算力硬堆出来的。长文本时代的下半场拼的从来不是智商。而是机房调度能力。13B激活参数把37B按在地上调度能力从哪看出来先看V4最反直觉的一个设计Pro和Flash的共生关系。行业里一看到“Pro”和“Flash”第一反应就是精准刀法Pro用来打标杆Flash用来做下沉市场收割中小企业。这种典型的商业包装逻辑放在V4身上看偏了。这两者根本不是算力降级关系而是验证同一套底层逻辑的对照组。大模型过去的长文本能力本质上是用显存硬堆出来的伪能力。只要给的GPU够多显存够大不管多长的文本都能硬吞下去。但代价是成本高到根本没法在真实的商业环境里铺开。V4-Pro以1.6T的总参数和49B的激活参数把容量拉到了顶。但真正的大招是那个只有284B总参数、13B激活参数的V4-Flash。文档里的一个数据直接戳破了行业的窗户纸在大量极具挑战性的测试中只有13B激活参数的Flash-Base直接超越了上一代37B激活参数的V3.2-Base。13B的极小激活代价绝不是能力缩水而是一次底层的效率重构。Flash的意义不是为了证明它能有多省钱而是为了证明“算力霸权是可以被架构重构打破的”。参数规模已经彻底失去决定性意义。调度能力正在取代参数成为新的主战场。这让百万上下文不再是高阶英伟达集群的专属玩具国产芯片也能顺畅地接管战局。未来开源模型的分水岭不再是看谁的底座大而是看谁能用十分之一的力气干同样的活。专家和稀泥不如各管一段硬件效率是一面另一面是软件效率。V4在后训练阶段也换了一条路。大模型的“后训练”阶段过去一直走在一条死胡同里。行业惯用的混合强化学习Mixed RL说的直白点就是和稀泥。如果你想让模型既懂微积分又会写C还能做日常规划时传统的做法是把所有的参数强行往中间捏。结果就是“向均值回归”。强行捏在一起特化能力全磨平了最终只会均值化成平庸的通才。V4换了一条路。不是改良是彻底换道。技术报告里交代了新解法先独立培养专家。数学专家就只管算数代码专家就只管编程。把单一维度的能力拉到满。关键在于最后怎么合并。V4不用业内泛滥的参数平均法而是用了同策略蒸馏OPD。传统的权重合并是一种静态妥协而OPD是一场动态接管。统一模型在自己生成轨迹时遇到数学题系统就精准引入数学专家的梯度来指路遇到写代码就无缝切给代码专家。大家各司其职不在参数层面打架。顺着这条线往下看V4应用端那个很火的“三种推理模式”无思考、高强度思考、极限思考根本不是加了个UI按钮那么简单。它是OPD机制在产品端的直接变现。在极限思考模式下底层提示词会强制模型去分解问题、穷尽边缘情况。这种极其固执的死磕行为恰恰是在OPD阶段在“数学专家”和“编程专家”的高强度捶打下固化下来的本能。OPD不搞平均。遇到数学题接数学专家遇到代码接代码专家。各管一段不在参数层面打架。Agent跑了三小时不能失忆换完训练方法换应用场景长上下文到底能干嘛如果只是为了在十万字的研报里找一句话那不叫长上下文那叫高级检索。真实的商业场景里Agent要替你重构代码、跨系统验证数据、甚至跑一整晚的流程。在这个过程里最致命的问题是“失忆”。V3.2有个让工程师极其头疼的痛点新消息一进来模型之前的思考痕迹直接清空。普通聊天这么干没问题省资源。但如果是跑了三个小时的Agent任务半路插进去一句话模型脑子一白整个状态全部丢失得从头算。这种链条断裂在实际业务中直接接不住。V4给出的方案是“交织思考”。逻辑很冷酷分场景算账。只要是带工具调用的长程场景跨越消息边界推理链条完整保留。如果是闲聊继续清空绝不多浪费一丁点算力。模型开始真正懂得“在什么场合该记住什么”。更绝的是它的快速指令Quick Instruction。以前行业里做意图识别都习惯在外面挂个小模型。这意味着每次有新请求进来不管长短系统都得把用户的提示词重新嚼一遍。这本质上是在白白浪费预填充计算。V4没这么干。从其开源代码中可见直接在输入序列末尾插几个隐式指令。主模型之前算好的海量特征KV Cache直接复用。长上下文的核心问题从来不是“记得多”而是“算得起”。这其实就是粗暴地砍掉了一次冗余的预填充计算。行业默认一个功能配一个小模型V4用行动证明不用。KV Cache复用吃透了长程Agent才能跑起来。完全缓存、定期存、不存都疼能跑不代表能卖。第17页有个细节自动生成的kernel跟手写CUDA逐位比对。不是差不多是每一位都一样。这种工程洁癖业务里少见。有这底线才敢算部署账。高并发的百万上下文拼的根本不是大模型懂不懂人类拼的是你懂不懂硬件的物理极限在哪。文档里三种调度策略都列出来了没有藏着掖着全是取舍。想追求计算零冗余上“完全缓存”。但代价是固态硬盘的I/O通道可能在几秒钟内被高频写入直接挤爆。想保护硬盘上“定期检查点”。隔一段距离存一次。硬盘保住了但GPU得时不时腾出算力来给丢失的尾部数据擦屁股。要是干脆不上物理硬盘缓存呢那就选“零缓存”。省下全部存储带宽全靠长程特征做锚点碰到问题GPU现场硬算。这三条路哪条都不是完美的。这本质上就是一场关于硬件寿命、并发峰值和用户延迟容忍度之间的极限算账。它把冷冰冰的现实摆在所有人面前AI早已不是单纯的算力密集型产业它正在加速变成调度密集型产业。写在最后看DeepSeek V4如果还停留在跑分榜上那就连门槛都没摸到。OPD的能力动态接管交织思考的记忆保留砍掉预填充的快速指令还有那些把硬盘和显存算计到骨头里的落盘策略。这些枯燥的细节其实是一根线上的蚂蚱。大模型在变。不再是陪聊的玩具。而是开始接管真实世界的业务链条。DeepSeek不是在赌未来它是在建机房。外界还在聊分数分数只是机房运转时的副产品。当对手还在为跑分榜上的零点几分沾沾自喜、向市场炫耀那几百亿参数时DeepSeek已经在算每百万Token的电费。战局已经很清晰了下一场长文本战争决胜点不是智商是机房成本。

相关文章:

百万上下文之后,拼什么?

过去几天,科技圈的视线全被DeepSeek吸走了。满屏都是传闻中的估值溢价,或者是跟各类国产算力芯片的适配通稿。市场的狂热情绪,很容易让人迷失在庞大的数字迷宫里。大众的关注点,要么是“百万上下文"这个听起来很唬人的标签&a…...

大模型优化实战:LoRA与量化技术降低70亿参数模型显存需求

1. 大模型优化技术背景在深度学习模型规模不断膨胀的今天,如何让百亿参数级别的大模型真正落地应用,已经成为工业界和学术界共同关注的焦点问题。我最近在部署一个70亿参数的对话模型时,就深刻体会到了原始模型对计算资源的恐怖需求——单次推…...

物理知识点

⚙️ 经典力学(基础核心) • 质点运动学 • 参考系与位置矢量、位移 • 速度、加速度的矢量定义与导数表示 • 直角/自然/极坐标下运动分解 • 切向、法向加速度的物理意义 • 匀变速/抛体/圆周运动公式 • 伽利略速度变换(相对运动) • 质点动力学 • 牛顿三大定…...

手把手教你写一个Linux下的mdio调试工具(附完整C代码)

从零构建Linux MDIO调试工具:深入PHY寄存器操作实战 当你面对一块没有预装mii-tool或ethtool的嵌入式开发板,或者需要直接操作PHY芯片寄存器进行底层调试时,自己动手编写一个轻量级MDIO工具会成为解决问题的关键。本文将带你深入Linux内核的M…...

别再让Langchain流式输出卡脖子了!FastAPI + SSE实战,附ChatGLM3完整配置

Langchain流式输出实战:FastAPI与SSE深度整合指南 引言 在当今AI应用开发领域,流式输出已成为提升用户体验的关键技术。想象一下,当用户与你的AI助手交互时,等待完整响应的时间可能长达数秒甚至更久——这种等待体验在实时交互场…...

从理论实验室到全球加密网络的技术跃迁

量子通信基于量子力学原理构建绝对安全的加密体系。其核心量子密钥分发(QKD)技术利用量子不可克隆、测量坍缩及纠缠分发三大特性,实现“窃听必留痕”的物理级防护,从根本上抵御量子计算攻击。中国在该领域实现多重突破&#xff1a…...

novel-downloader:终极小说下载指南,永久保存你的阅读时光

novel-downloader:终极小说下载指南,永久保存你的阅读时光 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 你是否曾为心爱的小说突然消失而心痛?是…...

Windows风扇控制终极指南:Fan Control免费软件让电脑散热更智能

Windows风扇控制终极指南:Fan Control免费软件让电脑散热更智能 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Tr…...

Hermes Agent:2026 年最火的 AI Agent,到底牛在哪?

Hermes Agent:2026 年最火的 AI Agent,到底牛在哪?最近 AI 圈有个叫 Hermes 的东西火得一塌糊涂,GitHub 星标蹭蹭涨。很多人第一反应:“爱马仕出 AI 了?” 😂 不不不,此 Hermes 非彼…...

Windows窗口管理革命:如何用AlwaysOnTop彻底改变你的多任务工作方式

Windows窗口管理革命:如何用AlwaysOnTop彻底改变你的多任务工作方式 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 在数字化工作时代,窗口管理已成为提升…...

如何永久保存网络小说:novel-downloader完整指南

如何永久保存网络小说:novel-downloader完整指南 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在数字阅读时代,网络小说已成为许多人日常娱乐的重要组成部分…...

轻量级AI聊天界面的技术实现:Ollama Web UI Lite深度解析

轻量级AI聊天界面的技术实现:Ollama Web UI Lite深度解析 【免费下载链接】ollama-webui-lite 项目地址: https://gitcode.com/gh_mirrors/ol/ollama-webui-lite 你是否曾想过,在本地部署AI模型时,如何获得既美观又高效的交互界面&am…...

创业团队如何利用 Taotoken 统一管理多个 AI 模型的 API 调用与成本

创业团队如何利用 Taotoken 统一管理多个 AI 模型的 API 调用与成本 1. 多模型管理的常见挑战 小型创业团队在同时接入多个大模型时,通常会面临几个典型问题。首先是密钥管理分散,不同模型的 API Key 需要分别申请、存储和轮换,增加了安全风…...

如何永久保存微信聊天记录:三步实现完整备份与深度分析

如何永久保存微信聊天记录:三步实现完整备份与深度分析 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeCh…...

从0到1构建奶牛行为智能监控系统(一)

这篇博客记录了我博士期间搭建的一个奶牛行为智能监控系统,系统整体由边缘侧、本地模型部署与云端界面协同的分层架构设计。系统集成了视频监控、行为识别、数据分析以及AI交互等核心功能。 目录 1.系统整体框架 2.硬件录像 3.云服务器界面 4.具体工具展示 &…...

构建企业级知识库问答系统时的大模型接入实践

构建企业级知识库问答系统时的大模型接入实践 1. 企业级知识库问答系统的技术挑战 在企业环境中构建知识库问答系统需要处理大量内部文档,包括技术手册、产品规格、会议纪要和客户支持记录等非结构化数据。这类系统通常面临三个核心挑战:模型选择灵活性…...

68.YOLOv8视频推理优化,30FPS实时检测,代码可复用

摘要 YOLO(You Only Look Once)是目标检测领域最经典的算法之一,以单阶段检测、实时性强、精度高著称。 本文从零开始,系统讲解YOLOv8的核心原理与完整实战流程,涵盖环境搭建、数据准备、模型训练、推理与部署。提供完整可运行代码,并针对常见问题给出避坑指南,帮助读者…...

AI赋能算法设计:借助快马平台生成智能车竞赛弯道模糊控制优化方案

最近在准备智能车竞赛,发现弯道控制一直是影响成绩的关键因素。传统PID控制虽然稳定,但在复杂弯道场景下适应性不够好。于是尝试用模糊控制来优化过弯速度,借助InsCode(快马)平台的AI辅助功能,快速实现了算法原型。 模糊控制设计…...

鸣潮智能剧情助手:5分钟实现后台自动跳过与多账号管理

鸣潮智能剧情助手:5分钟实现后台自动跳过与多账号管理 【免费下载链接】better-wuthering-waves 🌊更好的鸣潮 - 后台自动剧情 项目地址: https://gitcode.com/gh_mirrors/be/better-wuthering-waves 厌倦了《鸣潮》中重复冗长的剧情对话&#xf…...

特朗普孤注一掷,美国要最后的疯狂了!

坏土豆 作品首发于微信号 一个坏土豆陪我的国一起复兴特朗普要孤注一掷了,要带领美国进入最后的疯狂,未来的全球局势将发生巨大变化。5月2日,白宫发了一段堪称史诗级的神奇的视频,全世界都震惊了。视频里面就是特朗普在各种场合疯…...

新手入门CV:手把手教你下载和使用ADE20K数据集(附Python解析代码)

从零玩转ADE20K:计算机视觉新手的实战数据解析指南 推开计算机视觉的大门,ADE20K数据集就像一座藏满宝石的矿洞——但对第一次拿起数据镐的新手来说,如何准确找到矿脉入口往往比挖掘本身更令人头疼。这份指南将化身你的数字矿工手册&#xff…...

semi-utils:摄影师的终极批量水印解决方案

semi-utils:摄影师的终极批量水印解决方案 【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具,后续「可能」添加其他功能。 项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为一张张手动添加水印而烦恼吗&#xff…...

RSSHub Radar浏览器扩展:5分钟快速上手智能RSS订阅终极指南

RSSHub Radar浏览器扩展:5分钟快速上手智能RSS订阅终极指南 【免费下载链接】RSSHub-Radar 🧡 Browser extension that simplifies finding and subscribing RSS and RSSHub 项目地址: https://gitcode.com/gh_mirrors/rs/RSSHub-Radar 在信息爆炸…...

AISMM认证不是考试,是合规博弈:基于2026 SITS2026真题库的4层证据链构建法

更多请点击: https://intelliparadigm.com 第一章:SITS2026分享:AISMM认证流程 AISMM(AI System Maturity Model)是由SITS2026大会正式发布的AI系统成熟度评估框架,其认证流程强调可验证性、可审计性与工程…...

Linux内核调优笔记:调整tcp_sack与tcp_dsack参数,对高并发服务网络性能的实际影响测试

Linux内核TCP调优实战:SACK与D-SACK对高并发服务的性能影响量化分析 在游戏服务器、实时通信系统等高并发场景中,网络性能的细微差异可能直接导致用户体验的分水岭。当服务器需要处理数万并发连接时,TCP协议栈的默认配置往往成为性能瓶颈的隐…...

从WSDM顶会论文看2024时空预测新趋势:CityCAN、CreST这些模型到底解决了啥实际问题?

从WSDM顶会论文看2024时空预测新趋势:CityCAN、CreST这些模型到底解决了啥实际问题? 清晨6点的城市交通调度中心,大屏上闪烁的红点正在蔓延——这是早高峰拥堵的前兆。但今天的系统给出了不同以往的预警:基于CreST模型的不确定性量…...

OpenCL 3.1 正式发布:强制集成 SPIR-V,多项特性成核心规范要求

【导语:在 OpenCL 3.0 临时版本发布六年后,Khronos Group 正式发布 OpenCL 3.1,将成熟功能整合到核心规范,在性能、开发效率等方面带来诸多提升,且相关扩展功能也即将推出。】强制集成 SPIR-V:消除工具采用…...

在多模型间切换时如何通过用量看板透明管理API成本

在多模型间切换时如何通过用量看板透明管理API成本 1. 用量看板的核心功能 Taotoken平台提供的用量看板是开发者管理API成本的核心工具。该看板以小时为单位更新数据,展示当前账户下所有模型调用的详细记录。主要数据维度包括调用次数、输入输出token总量、各模型…...

2026 年微软 Xbox 新 CEO 宣布:终止 Copilot AI 游戏开发,启动领导层大重组!

2026 年 5 月 5 日,微软 Xbox 部门新任 CEO Asha Sharma 发备忘录,宣布终止 Copilot AI 在游戏领域开发,启动大规模领导层重组,以扭转收入下滑局面。 新官上任三把火 Sharma 今年 2 月接替 Phil Spencer 成为 Xbox CEO。她 2024 年…...

ARM TrustZone与AHB5总线安全机制详解

1. ARM TrustZone安全机制深度解析 在嵌入式系统安全领域,ARM TrustZone技术已经成为硬件级安全方案的行业标准。我第一次接触这项技术是在开发一款金融支付终端时,当时我们需要在同一个Cortex-A53处理器上同时运行支付应用和第三方应用,而Tr…...