当前位置：首页 > news >正文

TensorRT-LLM高级用法

news 2025/12/29 0:06:32

--multi_block_mode

decoding phase, 推理1个新token，

平时：按照batch样本，按照head，将计算平均分给所有SM；

batch_size*num_heads和SM数目相比较小时：有些SM会空闲；加了--multi_block_mode，似乎是将input context再进行划分，原来1个SM干的活儿，分给多个SM来干，让所有SM都并行忙碌起来；

其他证据：

"we only use multi-block in generation phase (generating new token). In context phase, we have enough blocks to run in parallel and we don't need to use multi-block."
"take H100-SXM as an example, you have 132 SMs, and let us say the batch size is 1, num heads is 16, then normally we can split the sequence into (132/16 = 8) blocks to fully utilize all SMs, but if the sequence length is quite small like 1K, it might not worth 8 blocks per sequence (maybe fewer)."

支持llama格式和hf格式

llama格式，要使用--meta_ckpt_dir:

# Build LLaMA v3 70B TP=8 using Meta checkpoints directly.
python convert_checkpoint.py --meta_ckpt_dir ./tmp/llama/70B/ \--output_dir ./tllm_checkpoint_8gpu_tp8 \--dtype float16 \--tp_size 8

hf格式，使用--model_dir:

# Build LLaMA v3 70B using 4-way tensor parallelism and 2-way pipeline parallelism.
python convert_checkpoint.py --model_dir ./tmp/llama/70B/hf/ \--output_dir ./tllm_checkpoint_8gpu_tp4_pp2 \--dtype float16 \--tp_size 4 \--pp_size 2

推理显存占用分析
Total memory = (Model size + KV cache size + Activation memory) / Parallelism
where

The model size is the number of parameters * the size of data type.
The KV cache size is the total number of tokens * the size of KV cache data type * the number of layers * the KV hidden dimension
The activation memory is determined by TRT engine, which can be a few GBs regardless of the degree of parallelism used

For LLaMA v2 70B FP16 weights + FP8 KV cache, the model size is 70B parameters * 2 bytes = 140GB. The KV cache size is 32K tokens * 1 bytes * 80 layers * 2048 KV hidden dimension = 5GB per 32K tokens. We have 145GB spread across 8 GPUs. The end result is ~18GB per GPU plus some GBs of flat scratch/activation memory allocated by TRT engine and the TRT-LLM runtime.

Note that the KV hidden dimension is derived by the number of KV heads times hidden dimension of each head. LLaMA v2 70B has hidden dimension of 8192, and uses grouped-query attention where 8 key heads and 8 value heads are associated with 64 query heads. Each head has hidden dimension of 8192/64 = 128. So the hidden dimension for KV in total is 128 * 8 * 2 = 2048. （2是K和V)

The total number of tokens is determined by beam width, batch size, and maximum sequence length.

TensorRT-LLM高级用法

--multi_block_mode decoding phase, 推理1个新token， 平时：按照batch样本，按照head，将计算平均分给所有SM； batch_size*num_heads和SM数目相比较小时：有些SM会空闲；加了--multi_block_mode&…...

编程日记 2024/9/7 22:15:58

文心一言功能新升级：读文档、懂翻译、能识图

9月4日，百度文心一言官网显示，在向全社会开放一周年之际，文心一言进行了功能最新全面升级，同时在周年期间为新老会员增加1个月专业版免费使用体验。据了解，针对网页版用户需求，文心一言实现了创作内容更加…...

编程日记 2024/9/7 22:14:57

C++机试——走方格的方案

题目请计算n*m的棋盘格子（n为横向的格子数，m为竖向的格子数）从棋盘左上角出发沿着边缘线从左上角走到右下角，总共有多少种走法，要求不能走回头路，即：只能往右和往下走，不能往左和往…...

编程日记 2024/9/7 22:10:52

Bootstrap 字体图标无法显示问题，＜i＞标签字体图标无法显示问题

bootstrap fileInput 以及 Bootstrap 字体图标无法显示问题。今天在用 bootstrap fileInput 插件的时候发现图标无法显示，如下： 查看DOM，发现那些图标是<i>标签做的： 网上的方案方案1 网上很多人说是我们打乱了boots…...

编程日记 2024/9/7 22:08:50

docker registry 仓库加密

docker registry 仓库加密 1、背景公司一直用的镜像仓库是docker registry，但是有个安全问题，就是仓库从web ui的浏览到镜像的拉取都是可以直接使用的，还是放到了公网上，只需要知道你的域名那就是畅通无阻了，可以…...

编程日记 2024/9/7 22:07:49

利用高德+ArcGIS优雅获取任何感兴趣的矢量边界

荷花十里，清风鉴水，明月天衣。四时之景不同，乐亦无穷尽也。今天呢，梧桐君给大家讲解一下，如何利用高德地图，随机所欲的获取shp边界数据。文章主要分成以下几个步骤： 首先搜索你想获取的矢量…...

编程日记 2024/9/7 22:06:45

炮弹【USACO】

题目背景时/空限制：1s / 64MB 题目描述贝茜已经精通了变成炮弹并沿着长度为 N 的数轴弹跳的艺术，数轴上的位置从左到右编号为 1,2,…,N 。她从某个整数位置 S 开始，以 1 的起始能量向右弹跳。如果贝茜的能量为 k ，则她将…...

编程日记 2024/9/7 22:05:44

python如何读取excel文件内的数据

目录前言一、安装openpyxl二、读取Excel数据总结前言在Python中读取Excel数据，最常用的库之一是openpyxl（用于.xlsx格式）和xlrd（尽管xlrd从版本2.0开始不再支持.xlsx，仅支持旧的.xls格式）。然而，对于大多数现代应用来说，openpyxl是一个更好的选择，因为它支持.xlsx格…...

编程日记 2024/9/7 22:02:41

Java项目: 基于SpringBoot+mybatis+maven+mysql教师工作量管理系统(含源码+数据库+毕业论文)

一、项目简介本项目是一套基于SpringBootmybatismavenmysql教师工作量管理系统包含：项目源码、数据库脚本等，该项目附带全部源码可作为毕设使用。项目都经过严格调试，eclipse或者idea 确保可以运行！ 该系统功能完善、界面美观…...

编程日记 2024/9/7 22:01:37

项目开发--数据库--postgresql数据库操作

背景 1、安装postgresql的基础方法 2、基本操作命令解决方案安装命令在ubuntu环境当中进行安装。 sudo apt install postgresql安装完毕之后直接进行测试，如果看到如下内容则安装成功。 sudo systemctl status postgresql使用DBeaver进行连接报错&#xff…...

编程日记 2024/9/7 21:56:28

一.代码 #include <stdio.h> int Num[100]; int Hang; int Lie; int a; int Flag; int main() {Lie 1;Hang 1;a 0;while (1) {//列1为1if (Lie 1) {Num[1] 1;Lie;}//数据存到数组里面while (Hang > Lie && Hang ! 2) { if (Hang!Lie) {Flag Num[Lie] …...

编程日记 2024/9/7 21:55:17

Codeforces Round 971 (Div. 4) (A~G1)

A、B题太简单，不做解释 C 对于 x y 两个方向，每一个方向至少需要 x / k 向上取整的步数，取最大值。由于 x 方向先移动，假如 x 方向需要的步数多于 y 方向的步数，那么最后 y 方向的那一步就不需要了，答案…...

编程日记 2024/9/7 21:53:15

为什么构造函数不能为虚函数？为什么析构函数可以为虚函数，如果不设为虚函数可能会存在什么问题？

目录一、为什么构造函数不能为虚函数？ 二、为什么析构函数可以是虚函数？如果不设为虚函数可能会存在什么问题？ 构造函数不能为虚函数，因为在构造过程中，虚函数机制尚未生效，对象还未完成构造&#xff0c…...

编程日记 2024/9/7 21:52:11

【数据结构】单链表功能的实现

目录 1.链表的概念及结构 2.单链表功能的实现 2.1打印单链表 2.2创建节点 2.3单链表尾插 2.3单链表头插 2.5单链表尾删 2.6单链表头删 2.7单链表的查找 2.8在指定位置之前插入数据 2.9在指定位置之后插入数据 2.10删除pos节点 2.11删除pos之后的节点 2.12销毁链表…...

编程日记 2024/9/7 21:51:10

70. 爬楼梯

70. 爬楼梯假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？ 示例 1： 输入：n 2 输出：2 解释：有两种方法可以爬到楼顶。 1.1 阶 1 阶 2.2 阶示例…...

编程日记 2024/9/7 21:45:03

pytorch正向传播没问题，loss.backward()使定义的神经网络中权重参数变为nan

记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan 1.首先loss值是正常数值； 2.查了好多网上的解决办法：检查原始输入神经网络数据有没有nan值，初始化权重参数，使用relu激活函数，梯度裁剪&a…...

编程日记 2024/9/7 21:44:02

❤《实战纪录片 1 》原生开发小程序中遇到的问题和解决方案

《实战纪录片 1 》原生开发小程序中遇到的问题和解决方案文章目录《实战纪录片 1 》原生开发小程序中遇到的问题和解决方案1、问题一：原生开发中 request请求中返回的数据无法使用this传递给 data{}中怎么办？2、刚登录后如何将token信息保存&#xf…...

编程日记 2024/9/7 21:43:01

2024.9.6 作业

手写unique_ptr指针指针代码： #include <iostream> #include <stdexcept>template <typename T> class unique_ptr { public:// 构造函数explicit unique_ptr(T* ptr nullptr) : m_ptr(ptr) {}// 析构函数~unique_ptr() {delete m_ptr;}// 禁…...

编程日记 2024/9/7 21:42:00

2024年架构设计师论文-“模型驱动架构设计方法及其应用”

论模型驱动架构设计方法及其应用模型驱动架构设计是一种用于应用系统开发的软件设计方法，以模型构造、模型转换和精化为核心，提供了一套软件设计的指导规范。在模型驱动架构环境下，通过创建出机器可读和高度抽象的模型实现对不同问题域的描述…...

编程日记 2024/9/7 21:40:58

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/11/9 1:27:18

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2025/12/21 9:09:26

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2025/12/21 4:14:07

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异，它们的数据同步要求既要保持数据的准确性和一致性，又要处理好性能问题。以下是一些主要的技术要点： 数据结构差异数据类型差异&#xff…...

编程新知 2025/8/12 3:03:43

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2025/7/18 1:50:27

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2025/11/13 8:14:48

三分算法与DeepSeek辅助证明是单峰函数

前置单峰函数有唯一的最大值，最大值左侧的数值严格单调递增，最大值右侧的数值严格单调递减。单谷函数有唯一的最小值，最小值左侧的数值严格单调递减，最小值右侧的数值严格单调递增。三分的本质三分和二分一样都是通过不断缩…...

编程新知 2025/12/27 12:15:14

Unity UGUI Button事件流程

场景结构测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...

编程新知 2025/12/23 17:47:16

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的第一部分： 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...

编程新知 2025/8/27 0:09:05

TensorRT-LLM高级用法

相关文章：

TensorRT-LLM高级用法

文心一言功能新升级：读文档、懂翻译、能识图

C++机试——走方格的方案

Bootstrap 字体图标无法显示问题，＜i＞标签字体图标无法显示问题

docker registry 仓库加密

利用高德+ArcGIS优雅获取任何感兴趣的矢量边界

炮弹【USACO】

python如何读取excel文件内的数据

Java项目: 基于SpringBoot+mybatis+maven+mysql教师工作量管理系统(含源码+数据库+毕业论文)

项目开发--数据库--postgresql数据库操作

c语言——用一维数组输出杨辉三角形

Codeforces Round 971 (Div. 4) (A~G1)

为什么构造函数不能为虚函数？为什么析构函数可以为虚函数，如果不设为虚函数可能会存在什么问题？

【数据结构】单链表功能的实现

最新车型库大全｜阿里云实现调用API接口

70. 爬楼梯

pytorch正向传播没问题，loss.backward()使定义的神经网络中权重参数变为nan

❤《实战纪录片 1 》原生开发小程序中遇到的问题和解决方案

2024.9.6 作业

2024年架构设计师论文-“模型驱动架构设计方法及其应用”

day52 ResNet18 CBAM

深入理解JavaScript设计模式之单例模式

376. Wiggle Subsequence

oracle与MySQL数据库之间数据同步的技术要点

什么是EULA和DPA

数据库分批入库

React---day11

三分算法与DeepSeek辅助证明是单峰函数

Unity UGUI Button事件流程

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要