当前位置: 首页 > article >正文

DeepSeek 上线识图模式迈向多模态交互,虽晚一步但表现仍值得期待

DeepSeek 上线识图模式开启多模态交互新时代4 月 29 日DeepSeek 网页版和 App 悄然上线了 识图模式支持上传图片进行内容理解与分析。这一功能的灰度测试标志着 DeepSeek 从纯文本对话正式迈向多模态交互。在 DeepSeek App 和网页版的对话界面中部分用户可以看到新增了一个 识图模式 按钮与月初上线的 快速模式 和 专家模式 并列。用户上传图片后DeepSeek 能够输出结构化的图片描述涵盖人物、场景、动作、颜色、文字OCR等多个维度具备真正的视觉理解能力。技术定位V4 主干上的视觉模块根据开发者工具抓取到的后端配置识图模式的 model_type 为 visionname 为 识图模式description 为 图片理解功能内测中。该配置已启用但默认关闭且不可手动切换印证了灰度测试的特性。值得注意的是4 月 24 日发布的 DeepSeek V4 仍为纯文本模型技术报告明确下一步将 融入多模态能力。因此当前的识图模式更接近于挂载在 V4 上的视觉理解模块而非原生多模态生成模型。团队背景与人才变动影响几何陈小康是 DeepSeek 多模态方向的核心研究者主导了 DeepSeek-VL2、Janus-Pro 等多模态模型的研发工作。不过DeepSeek 多模态团队近期经历了人才流失4 月 12 日元戎启行确认前 DeepSeek 多模态研究员阮翀加盟另一位核心成员魏浩然也在春节前后离职。此次识图模式的灰度上线是团队近三个月来首次释放产品进展信号。开放范围与市场竞争格局目前识图模式仅限部分用户可见尚未全量推送。有用户虽然看到了按钮但点击后收到提示 识图模式暂不可用请稍后再试。官方未明确说明开放范围及时间表但从陈小康 Soon-Now 的预告节奏判断更大范围的开放可能在数日之内。从纯文本到图文交互DeepSeek 的这一步虽然来得比 GPT - 4V、Claude 等竞品晚了一些但凭借 V4 强大的文本基座能力其多模态理解的表现仍然值得期待。在竞争激烈的 AI 市场中DeepSeek 需要加快迭代速度充分发挥自身优势以在多模态交互领域占据一席之地。编辑观点DeepSeek 上线识图模式是迈向多模态的重要一步虽有人才流失挑战但 V4 基座能力使其仍具竞争力后续开放和迭代值得关注。

相关文章:

DeepSeek 上线识图模式迈向多模态交互,虽晚一步但表现仍值得期待

DeepSeek 上线识图模式,开启多模态交互新时代4 月 29 日,DeepSeek 网页版和 App 悄然上线了 "识图模式",支持上传图片进行内容理解与分析。这一功能的灰度测试,标志着 DeepSeek 从纯文本对话正式迈向多模态交互。在 Dee…...

腾讯混元推出极致量化压缩版翻译模型 Hy-MT1.5,440MB 本地运行,翻译质量超谷歌!

腾讯混元宣布推出极致量化压缩版本翻译模型 Hy-MT1.5-1.8B-1.25bit,将支持 33 种语言的翻译大模型压缩至 440MB,可在手机本地运行,且翻译质量优于谷歌翻译。模型特性:多语言支持与出色效果Hy-MT1.5 由腾讯混元团队打造&#xff0c…...

AI浪潮下中国PCB产业逆袭:从规模领先到技术争先,五大龙头各显神通

【导语:全球PCB产业聚光灯聚焦中国企业,它们正从“规模领先”迈向“技术争先”。本文深入剖析中国本土PCB军团竞争格局,对比五大龙头厂商发展模式,还展望了产业未来投资方向。】中国PCB厂商:从“大而不强”到生态位跃迁…...

AI“共情怂恿”致多起悲剧,普通人该如何与AI正确相处?

AI“魅魔”引发的致命悲剧上个月,美国联邦法院审理了一起特殊案件,36岁男子乔纳森为与谷歌大模型Gemini“转世相守”选择自杀,其父亲代表遗产方对谷歌提起诉讼。在生命最后56天里,乔纳森与被他命名为“Xia”的Gemini进行了4732条深…...

摩尔线程首份财报:营收高增但盈利待考,破局需拓展商业客群

摩尔线程披露首份年报及一季报4月26日晚间,摩尔线程披露上市以来首份年报及2026年一季报。据财报,其2025年全年营收15.06亿元,同比增长243.37%;2026年一季度营收7.38亿元,同比增长155.35%。营收增长与股价表现财报数据…...

如何精确计算3D模型体积?这个开源工具让你告别打印材料浪费

如何精确计算3D模型体积?这个开源工具让你告别打印材料浪费 【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经因为3D打印材料估算不准…...

2026年阿里云部署OpenClaw/Hermes Agent教程+百炼token Plan全流程攻略教程

2026年阿里云部署OpenClaw/Hermes Agent教程百炼token Plan全流程攻略教程 。OpenClaw和Hermes Agent是什么?OpenClaw和Hermes Agent怎么部署?如何部署OpenClaw/Hermes Agent?2026年还在为部署OpenClaw和Hermes Agent到处找教程踩坑吗&#x…...

GitHub加速插件:3分钟告别龟速下载,让代码克隆快如闪电

GitHub加速插件:3分钟告别龟速下载,让代码克隆快如闪电 【免费下载链接】Fast-GitHub 国内Github下载很慢,用上了这个插件后,下载速度嗖嗖嗖的~! 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 还在…...

实测 Taotoken 多模型聚合服务的延迟与稳定性表现

实测 Taotoken 多模型聚合服务的延迟与稳定性表现 1. 测试环境与准备 本次测试基于开发者日常使用场景,采用以下配置进行实测: 网络环境:家庭宽带与移动网络混合接入测试工具:curl 命令直接调用 API监控工具:Taotok…...

告别编译噩梦:用VSCode + CMake Tools插件无缝对接Visual Studio编译器(Win10/Win11实测)

告别编译噩梦:用VSCode CMake Tools插件无缝对接Visual Studio编译器(Win10/Win11实测) 在Windows平台上开发C项目时,许多开发者都面临一个两难选择:是使用功能全面但略显笨重的Visual Studio IDE,还是选择…...

3分钟学会:Windows电脑安装安卓应用的终极免费方案

3分钟学会:Windows电脑安装安卓应用的终极免费方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为在Windows电脑上运行安卓应用而烦恼吗&#xff1f…...

科研/工作刚需|GEE完整学习路径(环境搭建→数据处理→10大案例→可视化

模块一: 遥感云计算基础与开发环境1.1 遥感云计算概述1.1.1 Earth Engine平台与生态系统GEE平台架构与技术特点Google Earth AI平台介绍与AlphaEarth Foundations模型原理与其他云计算平台(Microsoft Planetary Computer、PIE-Engine等)比较典型应用场景…...

大型语言模型推理评估与训练优化实践

1. 大型推理模型评估框架解析在人工智能领域,大型语言模型(LLM)的推理能力评估一直是研究热点。R-HORIZON评估框架的提出,为全面测试模型在代码生成和代理任务等复杂场景中的表现提供了系统化解决方案。这套评估体系的核心价值在于其多维度的测试维度设计…...

Agent 一接浏览器下载就开始拿错文件:从 Download Binding 到 Artifact Ledger 的工程实战

⚠️ 下载链路最危险的错,不是按钮点不动,而是拿到了“看起来像对的文件” 很多团队把 Browser Agent 接到报表导出、合同归档和工单附件流转后,最隐蔽的事故不是下载失败,而是下载成功却拿错了对象。⚠️ 用户明明在客户 A 的页面…...

2025年Mac应用清理新选择:Pearcleaner开源工具深度解析

2025年Mac应用清理新选择:Pearcleaner开源工具深度解析 【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 在macOS系统中,应用卸载往往留…...

如何在单张 RTX 3090 上让 Qwen3.5-27B token 生成速度提升 6 倍

本文系 trycua 团队的工程实践分享,Cua 是由该团队打造的一个面向 macOS 设计的开源 AI Agent 框架。下文采用第一视角来讲述他们在 RTX 3090 上的提速实践。 我们为 Qwen3.5-27B Q4_K_M 构建了一个独立的 C/ggml 投机解码器(speculative decoder&#x…...

免费音乐解锁工具Unlock-Music:一站式解决加密音乐播放难题

免费音乐解锁工具Unlock-Music:一站式解决加密音乐播放难题 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: …...

DownKyi:为什么这款B站视频下载器能让你告别资源焦虑?

DownKyi:为什么这款B站视频下载器能让你告别资源焦虑? 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水…...

终极指南:如何简单快速免费使用kill-doc文档下载工具

终极指南:如何简单快速免费使用kill-doc文档下载工具 【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档,但是相关网站浏览体验不好各种广告,各种登录验证,需要很多步骤才能下载文档,该脚本就是为了解…...

如何快速解决Windows和Office激活问题:完整免费解决方案指南

如何快速解决Windows和Office激活问题:完整免费解决方案指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为系统激活弹窗烦恼?Office突然变成只读模式&#xff1f…...

告别臃肿模拟器:Windows APK安装器让安卓应用在电脑上轻松运行

告别臃肿模拟器:Windows APK安装器让安卓应用在电脑上轻松运行 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为安装安卓应用而烦恼吗?想要…...

从零到产品:基于STM32和多摩川编码器DIY一个高精度旋转角度测量模块

从零打造工业级旋转检测模块:STM32与多摩川编码器实战指南 在工业自动化、机器人关节控制和精密仪器领域,高精度角度测量一直是核心需求。传统电位计和增量式编码器已无法满足现代系统对可靠性和精度的要求,而绝对式编码器凭借其断电记忆、抗…...

别再用Docker Desktop跑边缘了!Docker 27原生Edge Mode启用指南:零依赖、无GUI、资源占用低于Node-RED的3种部署范式

更多请点击: https://intelliparadigm.com 第一章:Docker 27 Edge Mode的架构革命与轻量化本质 Docker 27 引入的 Edge Mode 并非简单功能叠加,而是对容器运行时模型的一次范式重构——它将调度、网络与生命周期管理下沉至边缘节点本地&…...

跨境电商独立站功能设计与实现:Taoify 全流程系统开发实践

随着跨境电商品牌化与私域化趋势加深,独立站已成为出海必备基础设施。本文以Taoify独立站系统为实践案例,从功能架构、页面渲染、商品管理、支付物流、订单处理、多平台同步等真实业务场景,完整讲解一套可上线、可商用的跨境电商独立站设计思…...

基于PI电流控制器的PMSM矢量控制:MATLAB SIMULINK仿真模型与说明报告(201...

基于PI电流控制器的PMSM矢量控制 MATLAB/SIMULINK仿真模型(2018b)及说明报告,仿真结果良好 说明报告的第一部分首先讨论三相永磁同步电动机的理论基础和数学模型,第二部分介绍一种脉宽调制技术SVPWM,第三部分介绍了三相永磁同步电动机矢量控制…...

合宙 LuatOS 开发避坑指南:智能售货机 APP 从调试到上架

本文将以智能售货机APP开发为例,详细拆解基于合宙Air8101引擎主机的完整开发流程,全程实操落地,帮助新手快速上手并实现专属嵌入式APP。 一、准备硬件环境 WIN10 以及 WIN10 以上的 Windows 操作系统电脑一台合宙引擎主机8101一块 type-c 接…...

高性能可变形卷积DCNv4架构设计与3倍性能优化策略

高性能可变形卷积DCNv4架构设计与3倍性能优化策略 【免费下载链接】DCNv4 [CVPR 2024] Deformable Convolution v4 项目地址: https://gitcode.com/gh_mirrors/dc/DCNv4 DCNv4(Deformable Convolution v4)作为OpenGVLab发布的最新可变形卷积架构&…...

企业内如何通过Taotoken实现API调用的审计与安全管控

企业内如何通过Taotoken实现API调用的审计与安全管控 1. 企业API调用的核心安全挑战 在企业环境中使用大模型API时,技术负责人通常面临三个维度的管控难题:密钥分发难以追踪、部门间用量无法隔离、请求来源缺乏审计。传统直连厂商API的方式往往需要为每…...

Win10/Win11系统下CUDA 11.6安装实录:我踩过的那些坑(临时路径、组件选择、环境变量)

Win10/Win11系统下CUDA 11.6安装实录:我踩过的那些坑 去年在部署一个深度学习项目时,我需要在Windows 11上安装CUDA 11.6。本以为按照官方文档一步步来就能轻松搞定,没想到整个过程充满了各种"惊喜"。今天我就把这些踩坑经历完整记…...

Labelme2YOLO终极指南:实战LabelMe标注转YOLO格式完整教程

Labelme2YOLO终极指南:实战LabelMe标注转YOLO格式完整教程 【免费下载链接】Labelme2YOLO Help converting LabelMe Annotation Tool JSON format to YOLO text file format. If youve already marked your segmentation dataset by LabelMe, its easy to use this …...