当前位置：首页 > article >正文

NVIDIA 发布 Nemotron 3 Nano Omni 模型

article 2026/4/30 4:30:55

如今的 AI 智能体系统需要分别调用视觉、语音和语言模型 —— 而在模型间传递数据的过程中不仅耗时还会丢失上下文信息。今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型它将上述功能集成至一个系统中使智能体能够对视频、音频、图像和文本进行高级推理从而提供更快、更智能的响应。这一出色的模型为企业和开发者提供了一条生产路径帮助其构建更高效且更准确的多模态 AI 智能体并赋予他们完全的部署灵活性与控制权。Nemotron 3 Nano Omni 凭借其较高的准确性和成本优势为开放式多模态模型设定了新的效率边界并在复杂文档智能以及视频和音频理解领域的六项榜单中名列前茅。目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir 和Pyler同时戴尔科技、Docusign、Infosys、K-Dense、Lila、Oracle 和Zefr正在评估该模型。H Company 首席执行官 Gautier Cloix 表示“要构建实用的智能体不能花几秒钟等待模型来解析屏幕。我们的智能体基于 Nemotron 3 Nano Omni 进行构建可以快速解析全高清屏幕录制内容 —— 而这在过去是无法实现的。这不仅仅是速度上的提升也改变了我们的智能体实时感知和与数字环境交互的方式。Nemotron 3 Nano Omni 助力打造更快、更精简的多模态智能体试想一个客户支持 AI 智能体在处理屏幕录制内容的同时还需要分析上传的通话音频并检查数据日志或是一个财务 AI 智能体需要负责解析多个 PDF、电子表格、图表和语音笔记。如今大多数智能体系统都通过独立的视觉、语音和语言模型来完成这些任务。这种方法会因为重复推理而增加延迟导致不同模态之间的上下文碎片化并随时间推移增加成本和误差性。通过在其 30B-A3B 的混合专家模型 (MoE)架构中结合视觉和音频编码器Nemotron 3 Nano Omni 无需独立的感知模型从而大规模提高推理效率。它将这种效率与强大的多模态感知准确性相结合使 AI 系统在保持相同交互性能的情况下实现比其他开放式全模态模型高 9 倍的吞吐量。因此其能够在不牺牲响应速度或质量的前提下降低成本并提高可扩展性。在智能体系统中Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra同时也可结合其他供应商的专有模型协同工作来支持计算机操作、文档智能和音频-视频推理等智能体工作流中的子智能体。●计算机操作智能体——Nemotron 3 Nano Omni 为智能体提供感知回路帮助其在图形用户界面导航、对屏幕内容进行推理并理解随时间变化的用户界面状态。H Company 最新推出的由 Nemotron 3 Nano Omni 驱动的计算机操作智能体采用 1920x1080 像素的原生输入分辨率以实现高保真视觉推理。在对 OSWorld 基准测试的初步评估中这种集成在导航复杂图形界面上实现了重大飞跃并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。●文档智能——解析文档、图表、表格、屏幕截图和混合媒体输入使智能体能够连贯地推理视觉结构和文本内容。这对企业分析和合规性工作流至关重要。●音频和视频理解——针对客户服务、研究和监测工作流Nemotron 3 Nano Omni 能够保持音频-视频上下文将所说、所显示和所记录的内容绑定到单个推理流中而非毫无关联的摘要。开放且可定制随处可部署Nemotron 3 Nano Omni 发布时附带开放权重、数据集和训练技术赋予组织对模型定制和部署方式的完全透明度与控制力。开发者可以使用诸如NVIDIA NeMo等工具来定制、评估和优化特定领域的用例。由于 Nemotron 系列模型是开放的组织可以将其部署在符合监管、主权或数据本地化要求的环境中。过去一年中Nemotron 3 系列 —— 包括 Nano、Super 和 Ultra 模型 —— 下载量已超 5,000 万次。Omni 将该系列的能力扩展到多模态和智能体领域。该模型已在Hugging Face、OpenRouter和NVIDIA 官网以 NVIDIA NIM 的形式上线并通过广泛的NVIDIA 云合作伙伴、推理平台和云服务提供商生态系统提供支持。其开放、轻量级的架构可支持从NVIDIA Jetson硬件、NVIDIA DGX Spark等本地系统到数据中心和云环境的一致性部署。访问 NVIDIA 技术博客获取适用于 Nemotron 3 Nano Omni 用例的教程、实操和部署指南。订阅NVIDIA 新闻、加入 NVIDIA 开发者社区及时了解关于代理式 AI 和NVIDIA Nemotron等最新动态。

NVIDIA 发布 Nemotron 3 Nano Omni 模型

相关文章：

NVIDIA 发布 Nemotron 3 Nano Omni 模型

告别单调列表！Bootstrap-Vue列表组件BListGroup的10个高级玩法

防范智能体协作中的三大风险蚂蚁集团提出全链路安全治理框架

10分钟极速部署DolphinScheduler：Kubernetes工作流编排的终极指南

5分钟搞定微服务限流监控：Pinpoint集成Spring Cloud Alibaba Sentinel终极指南

保姆级教程：在VMware虚拟机里用DHCP搞定Security Onion 2.4.60独立版安装

C# 13主构造函数实战跃迁：从语法糖到对象生命周期控制的3层深度优化

React Native Voice核心架构揭秘：从JavaScript到Native的完整通信流程

AI神话Mythos：5亿美元的黑市标价与失控的AI安全

2025终极指南：Office Tool Plus多语言支持架构与本地化实战详解

intv_ai_mk11实际项目：为非技术人员提供零代码AI文本处理工作流

Qwen3-4B-Thinking高算力适配：4-bit GGUF量化后8GB显存高效运行方案

semi-utils深度解析：高效的批量图片处理自动化方案

从零到一：如何用开源OnStep系统将普通望远镜升级为智能寻星设备

如何每天节省25分钟：淘金币自动化脚本终极指南

机器人控制中的强化学习与模仿学习技术解析

大型集团数字化用户主数据管理体系建设：从零到一的系统性规划实践（PPT）

BiliTools跨平台工具箱：解决B站资源下载的三大难题

别乱升BIOS！给ThinkPad P53升级前，你必须知道的3件事和1个关键备份

ESP8266 AT指令连接阿里云MQTT全流程实测：从串口调试到物模型数据收发

告别系统依赖：用C++和FreeType库手把手打造你的跨平台字体渲染引擎

基于安卓的读书笔记社交分享系统毕业设计

别再手动改Excel了！用QT的QFile和QTextStream搞定CSV读写（附线程安全锁）

深入S32K3芯片内部：图解FCCU状态机与错误处理流程，告别一知半解

基于安卓的电影评论与观影记录平台毕业设计

【国家级三甲医院实测验证】：基于动态令牌+分片哈希的PHP脱敏新范式（吞吐量提升4.2倍）

【AI 编程工具进阶用法】如何在Cursor、Trae等工具中使用Skills

校庆（2026）书法展览作品

Cadence SpectreRF PSS/Pnoise仿真避坑指南：从Beat Frequency设置到Jitter测量实战

使用 PI 预装载处理永磁同步电机二次起步异响