当前位置: 首页 > article >正文

DS 首款多模态大模型

关于五一前发了又删这件事DeepSeek 发布其首个多模态模型Thinking with Visual Primitives采用全新的视觉原语范式与传统多模态模型如 LLaVA 等使用模糊自然语言描述图像不同DeepSeek 的新模型将图像内容精确到具体坐标和点实现细粒度语义理解传统多模态模型的痛点:精确度低用自然语言描述图像如左边那个红色汽车存在语义模糊性复杂任务表现差在走迷宫、轨迹追踪等需要精确位置理解的任务上效果不佳细粒度控制能力弱无法精确到具体的点或坐标DeepSeek 新范式的优势:将图像元素与坐标信息一并输出精确描述每个物体的位置甚至可以精确到具体的点在细粒度控制、语义理解上具有以往模型无法比拟的优势二、模型架构输入层 ├── 图像输入 → ViTVision Transformer→ 视觉Token └── 文字输入 → 分词器 → 文本Token ↓ 语言模型DeepSeek-V2 ↓ 输出纯自然语言架构参数组件参数基础架构DeepSeek-V2 with Flash Attention总参数量284B推理时激活参数13B架构风格简洁清晰复杂点在于训练方法原始图像经过以下步骤转换为Token原始图像756 × 756 像素切分成小方块每个方块 54 × 54 像素共 14 × 14 196 个区域每个区域再细分14 × 14 的小块总Token数2916 个196 × 14 × 14 / 9三、创新视觉Token压缩压缩技术路线原始 2916 个Token ↓ 第一次压缩3×3 线性投影 ↓ 324 个Token减少 9 倍 ↓ 第二次压缩CSC技术 ↓ 81 个Token压缩效果对比模型Token数量效果其他多模态模型2916基准DeepSeek81Token利用率提升 36 倍压缩效果经过实验验证完全没有性能衰减。意义降低推理成本Token是智能体场景中的敏感指标减少Token直接降低计算成本保持高精度36倍压缩比下仍能保持甚至超越原模型效果对Agent部署和实时推理场景意义重大四、训练方法五步流程DeepSeek的训练方法分为5个阶段预训练 → SFT → 强化学习 → IFT → 蒸馏4.1 预训练Pre-training训练数据格式输入图片问题如计算这张照片上有多少人输出思考过程 答案思考模块逐个标注每个人的位置坐标最终答案如25人坐标标注方式[左上角X, 左上角Y, 宽度, 高度]示例每个人的位置用红框标出坐标以这种格式输出。训练任务类型1. 粗粒度任务示例统计图片中的人数特点一把输出多个框的坐标训练目标学会定位和计数2. 细粒度任务示例“地上有多少只熊”排除树上的熊特点逐个标注每只熊的位置坐标训练目标学会精确区分和定位3. 空间推理任务示例“哪个紫色的球跟银白色球大小一样”特点需要逐一查看每个物体理解位置、颜色、大小关系训练目标学会复杂的空间关系理解4. 迷宫导航任务示例从起点走到终点输出路径坐标特点需要输出一系列点坐标而非框训练目标理解图像精确到点的级别5. 轨迹追踪任务示例皇冠通过线条连接到哪个物体特点需要沿路径逐点追踪训练目标学会复杂的连通性理解4.2 第二阶段SFT监督微调数据拆分策略数据类型占比训练目标正常多模态数据70%通用多模态理解带坐标的精细数据30%精确位置理解专业化的模型拆分 将基座模型通过两套独立数据微调拆分为框定位模型专门处理需要输出边框的任务点定位模型专门处理需要输出精确点的任务预训练基座模型 ├── SFT框数据→ 框定位模型 └── SFT点数据→ 点定位模型拆分原因两类问题处理方式有差异独立训练避免冲突4.3 第三阶段强化学习RL强化学习的核心优势无需标注思考过程传统方式需要标注图片 问题 思考过程 答案强化学习方式只需标注图片 问题 最终答案效果数据标注成本大幅降低数据量快速上升数据难度分级让模型对同一问题回答 N 次根据正确率分级难度等级定义处理方式简单100% 正确剔除无训练价值普通有对有错保留训练困难0% 正确剔除超出学习能力核心思想找蹦一蹦能够得着的数据进行学习奖励模型设计奖励函数分为三个主要部分1. 格式奖励输出格式正确框之间无交集框模型内容不冗余2. 质量奖励答案准确表述简洁3. 准确性奖励针对不同任务设计了不同的奖励计算方式计数任务奖励准确率 f(预测值 ŷ, 真实值 y)完全一致1分偏差越大分数平滑递减迷宫任务奖励5个指标指标说明奖励逻辑穿墙惩罚路径不能穿越墙壁穿墙则后续点无效探索覆盖率死路迷宫是否探索完全部路径覆盖率越高越好最终路径准确性是否正确走出迷宫终点离目标越近越好答案正确性迷宫是否可解正确判断迷宫是否可解综合得分前4项加权求和-路径追踪任务奖励4个指标指标说明奖励逻辑点距离预测路径与真实路径的最近点距离距离越近越好曲线相似度两条路径的贴合程度越贴合越好端点精度起点终点识别准确性正确识别得高分连续性惩罚路径连续性不连续扣分强化学习流程图框定位模型 ←──┐ │ │ │ 强化学习 ← 框数据 奖励模型 │ │ ↓ │ 点定位模型 ←──┘ ↑ └──── 点数据 奖励模型4.4 第四阶段IFT指令微调后的微调模型合并将强化学习训练后的两个专业化模型合并强化学习后的框模型 点模型 ↓ 产生样本数据 ↓ 数据分级简单/普通/困难 ↓ 保留普通数据 部分简单数据 ↓ 回训预训练模型 ↓ 统一融合模型合并的意义保留特性框理解和点理解能力都保留统一输出一个模型具备两种能力能力整合相当于二合一4.5 第五阶段蒸馏Distillation教师模型框模型 点模型 │ │ 观察学生模型生成的Token ↓ 学生模型最终模型蒸馏过程学生模型生成回答和数据教师模型对同一问题进行回答学生模型学习教师模型的概率分布通过 KL 散度等方式优化本质学生写完作业交给老师批改老师给出标准答案学生学习老师的思路总结┌─────────────────────────────────────────────────────────┐ │ 预训练基座模型 │ └─────────────────────────────────────────────────────────┘ │ ┌──────────────────┴──────────────────┐ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ SFT框数据 │ │ SFT点数据 │ └───────────────────┘ └───────────────────┘ │ │ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ 强化学习框 │ │ 强化学习点 │ └───────────────────┘ └───────────────────┘ │ │ └──────────────────┬──────────────────┘ ↓ ┌───────────────────┐ │ 模型合并 (RFT) │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 产生训练数据 │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 蒸馏学习 │ └───────────────────┘ │ ↓ ┌─────────────────────────────────────────────────────────┐ │ 最终学生模型 │ └─────────────────────────────────────────────────────────┘突破点突破点说明视觉原语范式从模糊自然语言描述 → 精确坐标输出解决语义模糊性问题Token压缩36倍通过两次压缩3×3投影 CSC2916 Token → 81 Token无性能衰减强化学习应用无需标注思考过程降低标注成本数据量快速扩展复杂任务能力迷宫导航、轨迹追踪等需要精确点级理解的任务模型拆合策略先拆分为专业化模型再合并融合最终蒸馏强化七、发展论文发布后不久DeepSeek 将该论文火速撤回。分析认为该模型更多是**中间态技术探索**不是最终形态预计会推出更完善的下一代多模态模型启示-DeepSeek 的方法论架构尽量清晰简单复杂点放在训练方法上这种方法最终训练出的模型并不简单是一种优雅且符合最终解的技术路线

相关文章:

DS 首款多模态大模型

关于五一前发了又删这件事 DeepSeek 发布其首个多模态模型 Thinking with Visual Primitives,采用全新的"视觉原语"范式 与传统多模态模型(如 LLaVA 等)使用模糊自然语言描述图像不同,DeepSeek 的新模型将图像内容精确到…...

手把手教你玩转模型格式转换:把Stable Diffusion的.ckpt变成.safetensors(附完整代码)

从.ckpt到.safetensors:Stable Diffusion模型格式转换实战指南 当你从Civitai下载了一个心仪的Stable Diffusion模型,却发现它是.ckpt格式时,是否曾为加载速度慢和潜在安全风险而困扰?本文将带你深入理解不同模型格式的特性&#…...

so-vits-svc 4.1终极实战指南:从零搭建专业歌声转换系统

so-vits-svc 4.1终极实战指南:从零搭建专业歌声转换系统 【免费下载链接】so-vits-svc SoftVC VITS Singing Voice Conversion 项目地址: https://gitcode.com/gh_mirrors/so/so-vits-svc 在人工智能语音合成领域,歌声转换技术正以前所未有的速度…...

3步掌握AI绘画模型训练:kohya_ss图形化界面终极指南

3步掌握AI绘画模型训练:kohya_ss图形化界面终极指南 【免费下载链接】kohya_ss 项目地址: https://gitcode.com/GitHub_Trending/ko/kohya_ss 还在为复杂的AI模型训练命令行而头疼吗?kohya_ss为你带来了革命性的解决方案!这个强大的A…...

别再死记硬背了!用Java代码和动画图解,5分钟搞懂基数排序的LSD和MSD

基数排序可视化:用动画和Java代码拆解LSD与MSD的奥秘 当你第一次听说基数排序时,脑海中是否浮现出一堆数字在某种神秘规则下自动排列的场景?作为非比较型排序算法中的佼佼者,基数排序通过巧妙的"分桶"策略,让…...

ContentClaw:基于AI与事实核查的自动化内容生成引擎实践

1. 内容整体设计与思路拆解如果你正在运营一个内容网站、博客,或者为某个CMS系统(比如WordPress、Strapi)寻找内容填充方案,那你肯定对“内容生成”这件事又爱又恨。爱的是,AI确实能极大提升效率;恨的是&am…...

2025年年度总结之25.教育之德智

教育之德智 严复对传统道德条目的肯定至晚年变得更为强烈,1921年他在死前将一生经历总结为以下的遗言,供后代子孙参考: 中国必不灭,旧法可损益,而必不可叛。新知无尽,真理无穷,人生一世&#…...

手把手教你用Python实现GFP帧的CRC-16/XMODEM校验与加扰(附完整代码)

Python实战:GFP帧的CRC-16/XMODEM校验与加扰技术解析 在网络协议开发中,GFP(通用成帧规程)作为高效封装各类数据流的标准协议,其帧结构的校验与加扰机制是确保数据传输可靠性的关键环节。本文将深入探讨如何用Python实…...

基于Python与Leaflet的旅行足迹可视化工具:从数据聚合到交互地图生成

1. 项目概述:一个旅行足迹可视化工具最近在整理过去几年的旅行照片和行程记录,发现了一个痛点:虽然手机相册里有海量的照片和定位信息,但很难直观地看到自己到底去过哪些地方,行程轨迹是怎样的。手动在地图上标记不仅耗…...

如何在macOS上免费运行Windows程序?Whisky的终极指南

如何在macOS上免费运行Windows程序?Whisky的终极指南 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 对于macOS用户来说,运行Windows程序一直是个痛点。无论是…...

10个Windows Terminal命令行参数技巧:让你的终端启动效率提升10倍!

10个Windows Terminal命令行参数技巧:让你的终端启动效率提升10倍! 【免费下载链接】terminal The new Windows Terminal and the original Windows console host, all in the same place! 项目地址: https://gitcode.com/GitHub_Trending/term/termin…...

Calibre中文路径乱码终结者:3分钟让你的电子书重获“姓名权“

Calibre中文路径乱码终结者:3分钟让你的电子书重获"姓名权" 【免费下载链接】calibre-do-not-translate-my-path Switch my calibre library from ascii path to plain Unicode path. 将我的书库从拼音目录切换至非纯英文(中文)命名…...

管家婆辉煌ERP如何设置职员操作权限?

使用管家婆ERP软件经营日常业务时,企业不同岗位的人员使用同一套软件但由于职位、工作范围不同,人员所需要知道的公司资料也就会不尽相同,该如何设置他们的权限呢?今天来和小编一起学习下管家婆辉煌ERP如何设置职员操作权限吧&…...

Go语言构建轻量级反向代理Kraken:从核心原理到生产部署

1. 项目概述:一个轻量级、高性能的Web应用代理工具最近在折腾一些个人项目,经常需要在本地开发环境和远程服务器之间进行调试和测试。传统的方案要么太重,要么配置繁琐,要么性能堪忧。直到我发现了luisabwk/kraken这个项目&#x…...

基于OpenAssistantGPT SDK快速构建智能对话机器人:架构、工具与实战

1. 项目概述:一个能让你快速“组装”智能对话机器人的SDK如果你正在开发一个需要集成对话AI功能的应用,比如一个客服系统、一个智能助手,或者一个带有聊天界面的工具,那么你大概率会遇到一个共同的烦恼:从零开始对接大…...

kirolink:基于Go的AWS SSO令牌代理,无缝桥接Claude Code与内部CodeWhisperer

1. 项目概述与核心价值如果你和我一样,日常开发中重度依赖像 Claude Code 这样的 AI 编程助手,但同时又因为公司或项目使用了 Kiro 这类基于 AWS SSO 的内部身份认证平台而头疼,那么kirolink这个工具的出现,绝对能让你眼前一亮。简…...

AI智能体记忆系统构建:从向量检索到LangChain集成实践

1. 项目概述:为什么我们需要为AI智能体构建“记忆宫殿”?最近在折腾AI智能体(Agent)开发的朋友,估计都遇到过同一个头疼的问题:你精心设计的智能体,在一次对话中表现得像个天才,能完…...

漫画数字阅读革命:Kindle Comic Converter完整使用指南

漫画数字阅读革命:Kindle Comic Converter完整使用指南 【免费下载链接】kcc KCC (a.k.a. Kindle Comic Converter) is a comic and manga converter for ebook readers. 项目地址: https://gitcode.com/gh_mirrors/kc/kcc 在数字阅读时代,漫画爱…...

AISMM模型实施倒计时预警:政策合规收紧+AI审计常态化下,未完成成熟度L3认证的企业将面临3项运营风控升级

更多请点击: https://intelliparadigm.com 第一章:AISMM模型与运营效率提升 AISMM(Artificial Intelligence–Supported Service Management Model)是一种融合AI驱动决策、服务流程建模与实时反馈闭环的智能运维管理框架。它通过…...

别再被销售坑了!手把手教你用Java搞定华夏T83相机的LED屏与语音播报(附完整Demo)

华夏T83相机LED屏与语音播报的Java实战指南 去年接手一个停车场项目时,遇到了华夏T83相机的LED屏控制问题。销售团队只负责安装,对二次开发一问三不知。经过两周的摸索,我发现只需更换一块几十元的主板,配合Java代码就能实现完全自…...

FanControl风扇控制软件:3步完成Windows系统散热优化配置

FanControl风扇控制软件:3步完成Windows系统散热优化配置 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…...

用MATLAB复现经典SEIR模型:从零开始搭建你的第一个疫情传播仿真(附完整代码)

用MATLAB构建SEIR模型:零基础实现疫情传播动态仿真 当第一次看到传染病传播曲线的陡峭上升时,我被数学模型的预测能力震撼了。作为流行病学研究的基础工具,SEIR模型用简洁的微分方程揭示了病毒扩散的内在规律。本文将带你从零开始&#xff0c…...

终极免费方案:用NoFences彻底解决你的Windows桌面混乱问题

终极免费方案:用NoFences彻底解决你的Windows桌面混乱问题 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为满屏的桌面图标而头疼吗?每次找文件都…...

Obsidian Tasks:5步掌握任务优先级管理,让重要事项不再遗漏

Obsidian Tasks:5步掌握任务优先级管理,让重要事项不再遗漏 【免费下载链接】obsidian-tasks Task management for the Obsidian knowledge base. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-tasks Obsidian Tasks 是 Obsidian 知识库…...

基于Next.js与GitHub Pages构建个人开发者门户:从SSG到CI/CD全流程实践

1. 项目概述:一个开发者个人门户的诞生在技术社区里,一个以自己名字命名的.github.io仓库,往往不仅仅是一个静态网站,它更像是一个开发者的数字名片、技术博客、项目集散地,甚至是一个个人品牌的线上总部。今天要聊的这…...

收藏!小白程序员轻松入门大模型:6步解锁AI Agent开发全攻略

本文提供AI大模型应用开发的入门路线图,分为六步:掌握大模型基础与核心技术(如RAG、Prompt工程);提升Python、API调用等开发基础;实践智能问答、知识库等应用场景开发;学习项目落地全流程&#…...

基于AI与双级缓存的新闻聚合器:从架构设计到工程实践

1. 项目概述:一个只传递好消息的AI新闻聚合器最近在做一个挺有意思的Side Project,起因是受够了每天被各种负面新闻轰炸。不知道你有没有同感,一打开新闻App,满屏都是冲突、灾难和让人焦虑的标题党。这不仅仅是个人感受&#xff0…...

Temu在韩国提速“火箭配送”:当日达背后,跨境物流的护城河正在变深

韩国电商市场正在成为全球平台最密集的试验场。Coupang的“火箭配送”用十年时间教育了韩国消费者对配送时效的期待值,而现在,Temu决定在这个已经被拉高的标准线上继续加注。近日,Temu正式在韩国市场推出同名“火箭配送”服务,首尔…...

VisualCppRedist AIO:Windows系统运行库完整解决方案深度指南

VisualCppRedist AIO:Windows系统运行库完整解决方案深度指南 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist VisualCppRedist AIO是Windows系统必备…...

利用 Taotoken 的模型广场为不同 Agent 工作流选择合适的底层模型

利用 Taotoken 的模型广场为不同 Agent 工作流选择合适的底层模型 在构建复杂的 AI Agent 工作流时,一个常见的挑战是如何为规划、代码生成、逻辑推理等不同的子任务匹配合适的底层模型。不同的任务对模型的能力、响应速度和成本敏感度要求各异。Taotoken 的模型广…...