英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

Llama-3.1-Nemotron-Ultra-253B-v1 模型情况
1. 模型概述
Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM),专为推理、人类对话偏好和任务(如 RAG 和工具调用)而优化。该模型支持 128K 令牌的上下文长度,并可以在单个 8xH100 节点上进行推理。
关键特点
-
准确性与效率的平衡:通过神经架构搜索 (NAS) 方法显著减少内存占用,降低 GPU 需求,同时提升推理效率。
-
垂直压缩技术:进一步优化延迟。
-
多阶段后训练:包括监督微调和基于 GRPO 算法的强化学习,提升推理和非推理能力。
-
商业用途:适用于 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动的应用。
2. 技术细节
模型架构
-
架构类型:密集型解码器 Transformer 模型。
-
基础模型:基于 Llama-3.1-405B-Instruct,通过 NAS 定制。
-
参数数量:2530 亿。
-
NAS 优化:
-
跳过注意力层:某些块中完全跳过注意力层或替换为单线性层。
-
可变 FFN 层:不同块的 FFN 层扩展/压缩比率不同。
-
FFN 融合:将多个连续的 FFN 层融合为更少的宽层。
-
训练过程
-
知识蒸馏:使用 650 亿令牌进行知识蒸馏。
-
持续预训练 (CPT):使用 880 亿令牌进行进一步训练。
-
多阶段后训练:包括监督微调和基于 GRPO 的强化学习。
3. 使用方法
推理模式
-
推理模式控制:通过系统提示控制推理模式(ON/OFF)。
-
推荐参数:
-
推理模式 ON:温度
0.6,Top P0.95。 -
推理模式 OFF:贪心解码(温度
0)。
-
代码示例
使用 Hugging Face Transformers
import torch
from transformers import AutoTokenizer, pipelinemodel_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16,"trust_remote_code": True,"device_map": "auto"
}tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_idpipeline = pipeline("text-generation",model=model_id,tokenizer=tokenizer,max_new_tokens=32768,temperature=0.6,top_p=0.95,**model_kwargs
)# 推理模式 ON
print(pipeline([{"role": "system", "content": "detailed thinking on"}, {"role": "user", "content": "Solve ..."}]))# 推理模式 OFF
print(pipeline([{"role": "system", "content": "detailed thinking off"}, {"role": "user", "content": "Solve ..."}]))
使用 vLLM
pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \--model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \--trust-remote-code \--seed=1 \--host="0.0.0.0" \--port=5000 \--served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \--tensor-parallel-size=8 \--max-model-len=32768 \--gpu-memory-utilization 0.95 \--enforce-eager
4. 性能评估
评估数据集
-
训练数据:包括 FineWeb、Buzz-V1.2 和 Dolma 等。
-
多阶段后训练数据:支持数学、代码、推理和指令遵循能力的提升。
评估结果
-
推理模式 ON:
-
GPQA:72.50%
-
AIME25:66.31%
-
MATH500:97.00%
-
-
推理模式 OFF:
-
GPQA:16.67%
-
AIME25:29.03%
-
MATH500:80.40%
-
5. 伦理考虑
- 可信 AI:NVIDIA 强调可信 AI 是一项共同责任,开发者需确保模型符合行业和用途要求,并防止未预见的滥用。
6. 适用场景
-
AI 代理系统:如聊天机器人、RAG 系统。
-
编程语言支持:适用于英语和多种编程语言(如 Python)。
-
多语言支持:支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
7. 硬件与软件要求
-
推荐硬件:NVIDIA Hopper 和 Ampere 架构。
-
操作系统:Linux。
-
软件版本:推荐使用 Transformers 4.48.3。
相关文章:
英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况
Llama-3.1-Nemotron-Ultra-253B-v1 模型情况 1. 模型概述 Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM),专为推理、人类对话偏好和任务(如 RAG 和工具调用)而优化。该模型支持 128K 令…...
质检LIMS系统在半导体制造行业的应用 半导体质量革命的现状
在半导体这个“工业皇冠上的明珠”领域,纳米级的精度要求与质量管控如同硬币的两面。随着芯片制程向3nm、2nm演进,传统质检模式已难以满足海量数据、复杂工艺的质量追溯需求。质检LIMS实验室系统作为质量管理的中枢神经,正在重构半导体制造的…...
面向对象高级(1)
文章目录 final认识final关键字修饰类:修饰方法:修饰变量final修饰变量的注意事项 常量 单例类什么是设计模式?单例怎么写?饿汉式单例的特点是什么?单例有啥应用场景,有啥好处?懒汉式单例类。 枚举类认识枚…...
HTTP 压力测试工具autocannon(AI)
简介 autocannon 是一款基于 Node.js 的高性能 HTTP 压力测试工具,适用于评估 Web 服务的并发处理能力和性能瓶颈。 一、工具特点 高性能:利用 Node.js 异步非阻塞机制模拟高并发请求。实时监控:测试过程中动态展示请求统计和性能…...
my2sql工具恢复误删数据
一、下载my2sql my2sql下载地址https://github.com/liuhr/my2sql/blob/master/releases/centOS_release_7.x/my2sql 二、my2sql工具注意事项 1. binlog格式必须为row,且binlog_row_imagefull 原因:binlog_row_image 参数决定了 binlog 中是否记录完整的…...
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
前言:OpenAI又双叒叕搞事情了!这次他们带着三款全新语音模型强势来袭,直接让 AI 语音界卷出新高度!无论是语音识别的精准度、还是根据文字生成音频的脑洞,这三款模型都堪称“神仙打架”。 如果你还在用老掉牙的语音助手…...
蓝桥杯嵌入式十四届模拟一(eeprom)
一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码,在文件夹中添加code文件夹&#…...
ArcGis Reclassify CDL
1. 下载CDL CropScape - NASS CDL Program 2. 把CDL放入arcgis,导出表格,变成csv 3. 把cvs表格里的内容合并,分类成 agriculture developed open natural other water woods fruits 等 4.变成新的表格,导入gis使用recla…...
DevOps与功能安全:Perforce ALM通过ISO 26262合规认证,简化安全关键系统开发流程
本文来源perforce.com,由Perforce中国授权合作伙伴、DevSecOps解决方案提供商-龙智翻译整理。 近日,Perforce ALM(原Helix ALM)通过了国际权威认证机构 TV SD的ISO 26262功能安全流程认证!该认证涵盖Perforce ALM解决方…...
C++高精度算法(加、减、乘)
首先声明,没有除法是因为我不会(手动狗头_doge) 简介 顾名思义,高精度算法是用来算一些超级大的数,比如长到 longlong 都存不下的那种,还有就是小数点后好多位,double都存不下的那种ÿ…...
【图片识别改名工具】如何识别图片中文字内容,并根据文字对图片批量重命名批量改名,基于WPF和腾讯OCR的完整实现
办公场景 批量处理图片文件:用户有一批图片文件,图片中包含文字信息(如编号、日期、名称等),需要根据图片中的文字内容对图片进行重命名。自动化办公:在办公场景中,用户需要将图片文件按内容分类或归档,手动重命名效率低下,自动化工具可以大幅…...
Dify+DeepSeek能做出什么来?快速构建可扩展的 AI 应用
将 Dify(开源 LLM 应用开发平台)与 DeepSeek(深度求索公司的高性能大模型,如 DeepSeek-R1 或 DeepSeek-Lite)结合使用,可以充分发挥两者的优势,快速构建高效、灵活且可扩展的 AI 应用。以下是具…...
【深度学习】Ubuntu 服务器配置开源项目FIGRET(PyTorch、torch-scatter、torch-sparse、Gurobi 安装)
开源项目网址:https://github.com/FIGRET/figret 该项目在SIGCOMM2024发表,用深度学习方法处理流量工程中的突发问题 1. 创建新的 Conda 环境 使用国内镜像源创建环境 conda create -n figret python3.8.0 --override-channels -c https://mirrors.…...
浅析Centos7安装Oracle12数据库
Linux下的Oracle数据库实在是太难安装了,事贼多,我都怀疑能安装成功是不是运气的成分更高一些。这里虚拟机是VMware Workstation 15.5,操作系统是Centos7,Oracle版本是Oracle Database 12c Enterprise Edition Release 12.1.0.2.0…...
代码随想录算法训练营Day27 | Leetcode 56. 合并区间、738.单调递增的数字、968.监控二叉树
代码随想录算法训练营Day27 | Leetcode 56.合并区间、738.单调递增的数字、968.监控二叉树 一、合并区间 相关题目:Leetcode56 文档讲解:Leetcode56 视频讲解:Leetcode56 1. Leetcode56. 合并区间 以数组 intervals 表示若干个区间的集合&am…...
三大开源大模型应用框架深度对比:AnythingLLM、Dify 与 Open-WebUI
三大开源大模型应用框架深度对比:AnythingLLM、Dify 与 Open-WebUI 本文将全面解析三大主流开源大模型应用框架与Ollama的集成方案,帮助开发者根据实际需求选择最适合的工具。 一、框架概览与定位差异 1. AnythingLLM:企业级知识管理专家 …...
freertos低功耗模式简要概述
简介 FreeRTOS 的 Tickless 模式是一种特殊的运行模式,用于最小化系统的时钟中断频率,以降低功耗。在 Tickless 模式下,系统只在有需要时才会启动时钟中断,而在无任务要运行时则完全进入休眠状态,从而降低功耗。在滴答…...
ESP32S3 链接到 WiFi
以下是关于如何让 ESP32S3 连接到 WiFi 的完整流程和代码示例: ESP32S3 链接到 WiFi 1. 设置工作模式 ESP32 可以工作在两种模式下: Station (STA) 模式:作为无线终端连接到无线接入点(AP),类似于手机或…...
2024年博客之星的省域空间分布展示-以全网Top300为例
目录 前言 一、2024博客之星 1、所有排名数据 2、空间属性管理 二、数据抓取与处理 1、相关业务表的设计 2、数据抓取处理 3、空间查询分析实践 三、数据成果挖掘 1、省域分布解读 2、技术开发活跃 四、总结 前言 2024年博客之星的评选活动已经过去了一个月…...
vue项目引入tailwindcss
vue3项目引入tailwindcss vue3 vite tailwindcss3 版本 初始化项目 npm create vitelatest --template vue cd vue npm install npm run dev安装tailwindcss3 和 postcss 引入 npm install -D tailwindcss3 postcss autoprefixer // 初始化引用 npx tailwindcss init -p…...
蓝桥赛前复习2:一维差分二维差分
一维差分 问题描述 给定一个长度为 nn 的序列 aa。 再给定 mm 组操作,每次操作给定 33 个正整数 l,r,dl,r,d,表示对 al∼ral∼r 中的所有数增加 dd。 最终输出操作结束后的序列 aa。 Update:由于评测机过快,n,mn,m 于 2024…...
算法---子序列[动态规划解决](最长递增子序列)
最长递增子序列 子序列包含子数组! 说白了,要用到双层循环! 用双层循环中的dp[i]和dp[j]把所有子序列情况考虑到位 class Solution { public:int lengthOfLIS(vector<int>& nums) {vector<int> dp(nums.size(),1);for(int i …...
100道C#高频经典面试题带解析答案——全面C#知识点总结
100道C#高频经典面试题带解析答案 以下是100道C#高频经典面试题及其详细解析,涵盖基础语法、面向对象编程、集合、异步编程、LINQ等多个方面,旨在帮助初学者和有经验的开发者全面准备C#相关面试。 🧑 博主简介:CSDN博客专家、CSD…...
jar包安全加密工具
目录 1. 代码混淆工具(Obfuscation) 推荐工具 (1) ProGuard (2) Allatori (3) DashO 2. JAR 加密工具(Class 文件加密) 推荐工具 (1) JxCore (2) ClassFinal (3) Zelix KlassMaster 3. 自定义类加载器加密 实现思路 4. 打包成 Native 可执行文件 推荐工具 (…...
MQTT的构成、使用场景、工作原理介绍
一、MQTT内容简介 MQTT(Message Queuing Telemetry Transport)是一种轻量级、基于发布-订阅模式的消息传输协议【适用于资源受限的设备和低带宽、高延迟或不稳定的网络环境】它在物联网应用中广受欢迎,能够实现传感器、执行器和其它设备之间的…...
RESTful API以及使用它构建 web 应用程序的方法
RESTful API是一种基于REST(Representational State Transfer)架构风格的应用程序接口,通过HTTP协议传输数据并使用标准的HTTP方法(GET、POST、PUT、DELETE)来对资源进行操作。 RESTful API 遵循一系列约定和规范&…...
Vanna + qwq32b 实现 text2SQL
Vanna 是一个开源的 Text-2-SQL 框架,主要用于通过自然语言生成 SQL 查询,它基于 RAG(Retrieval-Augmented Generation,检索增强生成)技术。Vanna 的核心功能是通过训练一个模型(基于数据库的元数据和用户提…...
电脑知识 | TCP通俗易懂详解 <一>
目录 一、👋🏻前言 二、🚍什么是TCP/TCP协议 三、🧍♂为什么TCP可靠 1.🥰关于可靠 2.🤠哪里可靠 3.🎓️图片的三次握手,四次挥手 4.📚️知识点总结 四、&…...
精品推荐-最新大模型MCP核心架构及最佳实践资料合集(18份).zip
精品推荐-最新大模型MCP核心架构及最佳实践资料合集,共18份。 1、2025年程序员必学技能:大模型MCP核心技术.pdf 2、MCP 架构设计剖析:从 Service Mesh 演进到 Agentic Mesh.pdf 3、MCP 架构设计深度剖析:使用 Spring AI MCP 四步…...
Linux 线程:从零构建多线程应用:系统化解析线程API与底层设计逻辑
线程 线程的概述 在之前,我们常把进程定义为 程序执行的实例,实际不然,进程实际上只是维护应用程序的各种资源,并不执行什么。真正执行具体任务的是线程。 那为什么之前直接执行a.out的时候,没有这种感受呢…...
