当前位置: 首页 > news >正文

在NVIDIA Jetson平台离线部署大模型

在NVIDIA Jetson平台离线部署大模型,开启离线具身智能新纪元。

本项目提供一种将LMDeploy移植到NVIDIA Jetson系列边缘计算卡的方法,并在Jetson计算卡上运行InternLM系列大模型,为离线具身智能提供可能。

最新新闻🎉

  • [2024/3/15] 更新了对LMDeploy-v0.2.5。
  • [2024/2/26] 本项目被LMDeploy官方社区收录。

已验证模型/平台

  • ✅:已验证可运行
  • ❌:已验证不可运行
  • ⭕️:待验证
ModelsInternLM-7BInternLM-20BInternLM2-1.8BInternLM2-7BInternLM2-20B
Orin AGX(32G)
Jetpack 5.1

Mem:??/??
14.68 token/s

Mem:??/??
5.82 token/s

Mem:??/??
56.57 token/s

Mem:??/??
14.56 token/s

Mem:??/??
6.16 token/s
Orin NX(16G)
Jetpack 5.1

Mem:8.6G/16G
7.39 token/s

Mem:14.7G/16G
3.08 token/s

Mem:5.6G/16G
22.96 token/s

Mem:9.2G/16G
7.48 token/s

Mem:14.8G/16G
3.19 token/s
Xavier NX(8G)
Jetpack 5.1

Mem:4.35G/8G
28.36 token/s

未来工作

  • 更新更多型号Jetson板卡的Benchmark测试数据
  • 制作Jetson专用whl发行版
  • 跟进更新版本的LMDeploy

部署教程

Jetson端离线运行InternLM大模型

创建模型保存目录:

mkdir -p ~/models

将S1.服务器端模型W4A16量化得到的internlm-chat-7b-turbomind.tgz上传到models目录下。

解压模型文件:

tar zxvf internlm-chat-7b-turbomind.tgz -C .

0.Bug解决:修改MMEngine库

Jetson端的pytorch不支持分布式的reduce算子,这会导致MMEngine库中与分布式有关的部分出现错误。

错误为:

AttributeError: module 'torch.distributed' has no attribute 'ReduceOp'

激活conda环境:

conda activate lmdeploy

用解释器方式运行python:

python

输入如下内容:

import mmengine
print(mmengine.__file__)

这就输出了MMEngine库的安装位置,笔者的是/home/nvidia/miniconda3/envs/lmdeploy/lib/python3.8/site-packages/mmengine/__init__.py,那么相应位置就是home/nvidia/miniconda3/envs/lmdeploy/lib/python3.8/site-packages/mmengine/,咱们用<path/to/mmengine>代替。

修改<path/to/mmengine>/logging/logger.py第208行:

- global_rank = _get_rank()
+ global_rank = 0

在运行就不会报错了。

注意:该方式过于粗暴,仅适用于Jetson平台部署推理,在服务器端会影响分布式功能!

1.终端运行

激活conda环境:

conda activate lmdeploy

运行模型:

lmdeploy chat turbomind ./internlm-chat-7b-turbomind

在这里插入图片描述

2.Python集成运行

编写运行脚本run_model.py,内容如下:

from lmdeploy import turbomind as tmif __name__ == "__main__":model_path = "./internlm-chat-7b-turbomind" # 修改成你的路径tm_model = tm.TurboMind.from_pretrained(model_path)generator = tm_model.create_instance()while True:inp = input("[User] >>> ")if inp == "exit":breakprompt = tm_model.model.get_prompt(inp)input_ids = tm_model.tokenizer.encode(prompt)for outputs in generator.stream_infer(session_id=0, input_ids=[input_ids]):res = outputs[1]response = tm_model.tokenizer.decode(res)print("[Bot] <<< {}".format(response))

激活conda环境:

conda activate lmdeploy

运行脚本:

python run_model.py

在这里插入图片描述

附录

  • 为Jetson重装Jetpack
  • LMDeploy-Jetson基准测试

引用

如果本项目对您的工作有所帮助,请使用以下格式引用:

@misc{2024lmdeployjetson,title={LMDeploy-Jetson:Opening a new era of Offline Embodied Intelligence},author={LMDeploy-Jetson Community},url={https://github.com/BestAnHongjun/LMDeploy-Jetson},year={2024}
}

致谢

  • 书生·浦语大模型实战营
  • 上海人工智能实验室
  • trt-llm

相关文章:

在NVIDIA Jetson平台离线部署大模型

在NVIDIA Jetson平台离线部署大模型&#xff0c;开启离线具身智能新纪元。 本项目提供一种将LMDeploy移植到NVIDIA Jetson系列边缘计算卡的方法&#xff0c;并在Jetson计算卡上运行InternLM系列大模型&#xff0c;为离线具身智能提供可能。 最新新闻&#x1f389; [2024/3/1…...

51单片机嵌入式开发:8、 STC89C52RC 操作LCD1602原理

STC89C52RC 操作LCD1602原理 1 LCD1602概述1.1 LCD1602介绍1.2 LCD1602引脚说明1.3 LCD1602指令介绍 2 LCD1602外围电路2.1 LCD1602接线方法2.2 LCD1602电路原理 3 LCD1602软件操作3.1 LCD1602显示3.2 LCD1602 protues仿真 4 总结 1 LCD1602概述 1.1 LCD1602介绍 LCD1602是一种…...

数字化时代的供应链管理综合解决方案

目录 引言背景与意义供应链管理综合解决方案的目标 &#x1f4c4;供应链管理系统主要功能系统优势 &#x1f4c4;物流管理系统主要功能系统优势 &#x1f4c4;订单管理系统主要功能应用场景 &#x1f4c4;仓储管理系统系统亮点主要功能系统优势 &#x1f4c4;商城管理系统主要功…...

CentOS 安装 annie/lux,以及 annie/lux 的使用

annie 介绍 如果第一次听到 annie 想必都会觉得陌生&#xff0c;annie 被大家称为视频下载神器&#xff0c;annie 作者介绍说可以下载抖音、哔哩哔哩、优酷、爱奇艺、芒果TV、YouTube、Tumblr、Vimeo 等平台的视频。 githup&#xff1a;https://github.com/pingf/annie 支持…...

拥抱UniHttp,规范Http接口对接之旅

前言 如果你项目里还在用传统的编程式Http客户端比如HttpClient、Okhttp去直接对接第三方Http接口&#xff0c; 那么你项目一定充斥着大量的对接逻辑和代码&#xff0c; 并且针对不同的对接渠道方需要每次封装一次调用的简化&#xff0c; 一旦封装不好系统将会变得难以维护&am…...

Python 给存入 Redis 的键值对设置过期时间

Redis 是一种内存中的数据存储系统&#xff0c;与许多传统数据库相比&#xff0c;它具有一些优势&#xff0c;其中之一就是可以设置数据的过期时间。通过 Redis 的过期时间设置&#xff0c;可以为存储在 Redis 中的数据设置一个特定的生存时间。一旦数据到达过期时间&#xff0…...

在linux中安装docker

文章目录 1、安装依赖2、安装docker的下载源3、安装docker4、设置Docker服务开机自启 1、安装依赖 sudo yum install -y yum-utils2、安装docker的下载源 sudo yum-config-manager \--add-repo \https://download.docker.com/linux/centos/docker-ce.repohttps://download.do…...

【JVM-04】线上CPU100%

【JVM-04】线上CPU100% 1. 如何排查2. 再举一个例子 1. 如何排查 ⼀般CPU100%疯狂GC&#xff0c;都是死循环的锅&#xff0c;那怎么排查呢&#xff1f;先进服务器&#xff0c;⽤top -c 命令找出当前进程的运⾏列表按⼀下 P 可以按照CPU使⽤率进⾏排序显示Java进程 PID 为 2609…...

try catch 解决大问题

项目开发中遇到一个棘手的bug&#xff0c;react前端项目独自运行时一切正常&#xff0c;但是把项目集成到使用wujie的大平台微前端项目中之后&#xff0c;突然有个地方无故报错&#xff0c;导致程序运行停止&#xff0c;后续的方法不再执行。报错如下&#xff1a; DOMExceptio…...

手动解析Collection

即将被解析的json {"collection": {"templates": [{"data": [{"name": "plantCode","value": "MSHG_KFXHS02"}, {"name": "details","value": [{"plantMedicament…...

list模拟实现【C++】

文章目录 全部的实现代码放在了文章末尾准备工作包含头文件定义命名空间类的成员变量为什么节点类是用struct而不是class呢&#xff1f;为什么要写get_head_node? 迭代器迭代器在list类里的实例化和重命名普通迭代器operator->()的作用是什么&#xff1f; const迭代器反向迭…...

nginx正向代理、反向代理、负载均衡

nginx.conf nginx首要处理静态页面 反向代理 动态请求 全局模块 work processes 1; 设置成服务器内核数的两倍&#xff08;一般不不超过8个超过8个反而会降低性能一般4个 1-2个也可以&#xff09; netstat -antp | grep 80 查端口号 *1、events块&#xff1a;* 配置影响ngi…...

matlab 有倾斜的椭圆函数图像绘制

matlab 有倾斜的椭圆函数图像绘制 有倾斜的椭圆函数图像绘制xy交叉项引入斜线负向斜线成分正向斜线成分 x^2 y^2 xy 1 &#xff08;负向&#xff09;绘制结果 x^2 y^2 - xy 1 &#xff08;正向&#xff09;绘制结果 有倾斜的椭圆函数图像绘制 为了确定椭圆的长轴和短轴的…...

PTK是如何加密WLAN单播数据帧的?

1. References WLAN 4-Way Handshake如何生成PTK&#xff1f;-CSDN博客 2. 概述 在Wi-Fi网络中&#xff0c;单播、组播和广播帧的加密算法是由AP决定的。其中单播帧的加密使用PTK密钥&#xff0c;其PTK的密钥结构如下图所示&#xff1a; PTK的组成如上图所示&#xff0c;由K…...

Django之登录权限系统

本文参考链接django之auth模块&#xff08;用户认证&#xff09; - chchcharlie、 - 博客园 (cnblogs.com) 执行完迁移命令&#xff0c;会自动生成admin表,迁移命令如下&#xff1a; python manage.py makemigrations python manage.py migrate 相关模块 from django.contrib …...

rust way step 1

install rust CARGO_HOME D:\rust\.cargo RUSTUP_HOME D:\rust\.rustup [dependencies] ferris-says "0.2" vscode 安装rust 插件 use ferris_says::say; // from the previous step use std::io::{stdout, BufWriter};fn main() {let stdout stdout();let m…...

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年&#xff0c;语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型&#xff08;LLM&#xff09;有能力解决多种不同的任务&#xff0c;它们也正在成为越来越常用的工具。 这些模型之前基本都局限于文本输入&#xff0c;但现在也正在具备处理视觉输入的能力。如果…...

Postman工具基本使用

一、安装及基本使用 安装及基本使用参见外网文档&#xff1a;全网最全的 postman 工具使用教程_postman使用-CSDN博客 建议版本&#xff1a;11以下&#xff0c;比如10.x.x版本。11版本以后貌似是必须登录使用 二、禁止更新 彻底禁止postman更新 - 简书 host增加&#xff1…...

uni-app三部曲之三: 路由拦截

1.引言 路由拦截&#xff0c;个人理解就是在页面跳转的时候&#xff0c;增加一级拦截器&#xff0c;实现一些自定义的功能&#xff0c;其中最重要的就是判断跳转的页面是否需要登录后查看&#xff0c;如果需要登录后查看且此时系统并未登录&#xff0c;就需要跳转到登录页&…...

专注于国产FPGA芯片研发的异格技术Pre-A+轮融资,博将控股再次投资

近日&#xff0c;苏州异格技术有限公司&#xff08;以下简称“异格技术”&#xff09;宣布成功完成数亿元的Pre-A轮融资&#xff0c;由博将控股在参与Pre-A轮投资后&#xff0c;持续投资。这标志着继2022年获得经纬中国、红点中国、红杉中国等机构数亿元天使轮融资后&#xff0…...

通过Taotoken官方价折扣与活动价降低大模型API使用门槛

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 通过Taotoken官方折扣与活动价降低大模型API使用门槛 对于开发者而言&#xff0c;大模型API的成本是项目落地和持续迭代中必须考量…...

荔枝派Zero V3s新手避坑指南:从源码编译到SPI Flash烧录u-boot的完整流程

荔枝派Zero V3s开发实战&#xff1a;从源码编译到SPI Flash烧录的避坑手册 第一次拿到荔枝派Zero V3s开发板时&#xff0c;那种既兴奋又忐忑的心情至今记忆犹新。作为全志V3s芯片的经典开发平台&#xff0c;它凭借64MB DDR2内存、内置WiFi和丰富的外设接口&#xff0c;成为嵌入…...

YOLO26改进| downsample |网络深层多分支互补鲁棒下采样模块

&#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 本文给大家带来的教程是将YOLO26的下采样替换为DRFD来提取特征。文章在介绍主要的原理后&#xff0c;将手把手教学如何进行模块的代码添加和修…...

新手避坑指南:ICC LAB2 Design Planning 从加载设计到写出DEF的完整流程复盘

ICC LAB2 Design Planning全流程深度解析&#xff1a;从数据加载到DEF输出的实战避坑指南 当你第一次打开ICC工具面对LAB2的Design Planning任务时&#xff0c;是否感觉像被扔进了一个满是按钮的控制室&#xff1f;每个命令似乎都重要&#xff0c;但又不清楚它们如何串联成完整…...

终极指南:10分钟快速上手Ghidra逆向工程工具安装与配置

终极指南&#xff1a;10分钟快速上手Ghidra逆向工程工具安装与配置 【免费下载链接】ghidra_installer Helper scripts to set up OpenJDK 11 and scale Ghidra for 4K on Ubuntu 18.04 / 18.10 项目地址: https://gitcode.com/gh_mirrors/gh/ghidra_installer 还在为复…...

ctf show web 入门46

这道题目是上一题的升级版&#xff0c;过滤条件变得更加苛刻了。我们来分析一下新增的限制以及应对方案。 代码审计与变化 相比之前&#xff0c;正则过滤 preg_match 新增了以下内容&#xff1a; [0-9]&#xff1a;禁止使用任何数字。这意味着 $IFS$9 这种绕过方式失效了。 \$&…...

Helm Git插件:实现K8s Chart的GitOps部署与CI/CD集成

1. 项目概述&#xff1a;为什么我们需要一个Helm Git插件&#xff1f;在Kubernetes生态中&#xff0c;Helm是当之无愧的“包管理器”&#xff0c;它通过Chart的概念&#xff0c;将复杂的K8s应用定义打包、版本化&#xff0c;极大地简化了部署流程。然而&#xff0c;标准的Helm工…...

打造高效命令行天气查询工具:基于KMI/IRM的比利时天气CLI实践

1. 项目概述&#xff1a;一个为终端而生的比利时天气查询工具 如果你和我一样&#xff0c;是个重度命令行用户&#xff0c;同时又对窗外天气是晴是雨有点在意&#xff0c;那你肯定也烦透了为了看个天气预报还得打开浏览器、点开某个天气网站或者解锁手机。这种打断工作流的感觉…...

端到端AI安家助手:基于WhatsApp的多模态智能体系统架构与实践

1. 项目概述&#xff1a;一个为加拿大新移民设计的端到端AI安家助手如果你刚到一个陌生的国家&#xff0c;面对一堆看不懂的表格、复杂的申请流程和紧迫的截止日期&#xff0c;是不是会感到手足无措&#xff1f;这正是许多加拿大新移民面临的真实困境。49th项目就诞生于这种切身…...

BetterGI:解放双手的终极原神自动化助手,每天节省2小时游戏时间

BetterGI&#xff1a;解放双手的终极原神自动化助手&#xff0c;每天节省2小时游戏时间 【免费下载链接】better-genshin-impact &#x1f4e6;BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集/挖矿/锄地 | 一…...