当前位置：首页 > article >正文

Jetson Nano 三个版本(B01 4GB、Orin 4GB、Orin 8GB)本地部署Deepseek等大模型的测评

article 2026/3/4 10:38:37

Jetson Nano三个版本（B01 GB、Orin 4GB、Orin 8GB）本地部署Deepseek等大模型的测评

- 一、为什么要在终端设备部署大模型？
- 二、 Jetson Nano推理大模型时计算资源占用情况分析
- - 为什么测试Jetson Nano?
  - 三款Jetson Nano芯片简介
- 三、大模型推理实验
- - 实验1： Jetson Nano B01 4GB 推理 Deepseek-r1:1.5b
  - 实验2： Jetson Orin Nano 4GB 推理 qwen2:1.5b
  - 实验3： Jetson Orin Nano 8GB 推理 Deepseek-r1:1.5b
  - 实验4： Jetson Orin Nano 8GB 推理 Deepseek-r1:7b
- 四、终端设备部署大模型的思考

一、为什么要在终端设备部署大模型？

一个小故事：春节的时候，有个亲戚问我：以后是不是我们可以实现人手或者一个家庭都有一个机器人？
我思考了一下，想起来前段时间我在Jetson Nano 推理大模型的实验结果。说了一下我的预测 “要实现到人手一个机器人的时候，应该会在这个时间节点：在终端设备也可以轻松推理大模型。”

二、 Jetson Nano推理大模型时计算资源占用情况分析

为什么测试Jetson Nano?

第一、Jetson nano是当前AI模型推理芯片了，据我了解，现在终端推理AI模型的主要还是英伟达的Jetson orin 系列，当然还有我们国产的地平线芯片。你可以去调研汽车智驾芯片。举个例子：比亚迪的天神之眼就是英伟达的Jetson和地平线。

英伟达的Jetson nano芯片搭载了NVIDIA CUDA 核心，可使用TensorRT来对模型推理加速。
地平线芯片内置了贝叶斯架构的BPU加速单元，也可以实现深度学习模型的算法加速。

其次、我手头上刚好有三个系列的Jetson nano芯片，分别是Jetson Nano B01 4GB、Jetson Orin Nano 4GB、Jetson Orin Nano 8GB。

三款Jetson Nano芯片简介

Jetson Nano 是Soc，小白请注意Jetson Nano 的 GPU 并不是独立的，（可不是那种4090迷你版），而是与 CPU 共享同一块内存（即统一内存架构，Unified Memory Architecture, UMA）。这种设计在嵌入式设备和移动设备中非常常见，目的是为了节省空间、降低功耗和成本。

Jetson Nano B01 4GB 是 Maxwell 架构，里面搭载了 128 个 NVIDIA CUDA 核心，CPU是ARM A57 4核心，其算力只有0.5TOPS，内存是64bit LPDDR4。
Jetson Orin Nano 4GB 是 Ampere 架构，里面搭载了512 NVIDIA CUDA 核心，CPU是ARM A78 6核心，其算力有20TOPS，内存是64bit LPDDR5。
Jetson Orin Nano 8GB 是 Ampere 架构，里面搭载了1024 NVIDIA CUDA 核心，CPU是ARM A78 6核心，其算力有40TOPS，内存是64bit LPDDR5。

简单点来看：

设备型号	架构	CUDA 核心数	CPU 配置	算力 (TOPS)	内存类型	内存位宽
Jetson Nano B01 4GB	Maxwell	128	ARM A57 4 核心	0.5	LPDDR4	64-bit
Jetson Orin Nano 4GB	Ampere	512	ARM A78 6 核心	20	LPDDR5	64-bit
Jetson Orin Nano 8GB	Ampere	1024	ARM A78 6 核心	40	LPDDR5	64-bit

三、大模型推理实验

很简单，可以直接安装Ollama，我在Ollama环境下拉大模型，然后直接测试。
在这里插入图片描述
在运行大模型的时候，另开一个终端运行：

jtop

即可实时查看资源的使用率。

实验1： Jetson Nano B01 4GB 推理 Deepseek-r1:1.5b

在这里插入图片描述 分析：

GPU 使用情况：
- Jetson Nano B01 的 GPU 频率没有变化，最大频率仅为 76 MHz。
CPU 使用情况：
- 推理任务主要依赖 4 个 CPU 核心，GPU 的贡献有限。
性能表现：
- 由于 GPU 频率低且性能有限，整个推理过程非常卡顿，速度很慢。

我的体验

性能表现：
- Jetson Nano B01 能够运行大模型，但非常卡顿，速度极慢。
总结：
- 设备性能不足，无法流畅运行大模型，不能依赖 GPU 加速，不建议使用。纯 CPU 运行大模型的效果非常差。

实验2： Jetson Orin Nano 4GB 推理 qwen2:1.5b

在这里插入图片描述
分析

GPU 使用情况：
- Jetson Orin Nano 4GB 的 GPU 频率为 71%，最大频率为 624 MHz。
- 在推理大模型时，GPU 的利用率约为 32%。
CPU 使用情况：
- 推理任务主要依赖 6 个 CPU 核心 和 GPU 协同工作。
显存占用：
- 显存占用为 2 GB。
内存占用：
- 内存使用为 3.16/3.2 GB，几乎耗尽。
- 运行大模型后，剩余内存不足以支持其他较大程序的运行。
供电功率：
- 设备运行时的供电功率为 10W。

我的体验

性能表现：
- Jetson Orin Nano 4GB 运行大模型时相对流畅，性能比 Jetson Nano B01 提升显著。
内存瓶颈：
- 由于内存只有 4 GB，运行大模型后，内存几乎耗尽，无法同时运行其他较大应用。
总结：
- 设备能够运行1.5b大模型，但内存容量是明显的短板，限制了多任务处理能力。适合玩一玩，但内存限制较大，不适合需要多任务处理或更大模型的场景。

实验3： Jetson Orin Nano 8GB 推理 Deepseek-r1:1.5b

在这里插入图片描述
分析

GPU 使用情况：
- Jetson Orin Nano 8GB 的 GPU 频率为~ 6%，最大频率为 624 MHz。
- 在推理大模型时，GPU 的利用率约为 72%。
CPU 使用情况：
- 推理任务主要依赖 6 个 CPU 核心 和 GPU 协同工作。
显存占用：
- 显存占用为 1.9 GB。
内存占用：
- 内存使用为 3.5/7.2 GB，还有一大半内存可以使用。
供电功率：
- 设备运行时的供电功率为 15W。

我的体验

性能表现：
- Jetson Orin Nano 8GB 运行1.5b大模型时相对流畅，性能比 Jetson Nano B01 、以及Jetson Orin Nano 4GB 都提升显著。
总结：
- 设备可轻松地跑1.5b大模型，**但不一定适合需要多任务处理或更大模型的场景。**可以用于简单大模型需求的任务。

实验4： Jetson Orin Nano 8GB 推理 Deepseek-r1:7b

在这里插入图片描述
分析：

GPU 使用情况：
- Jetson Orin Nano 8GB 的 GPU 频率达到 98%，最大频率为 624 MHz。
- 在推理大模型时，GPU 的利用率约为 98.9%。
CPU 使用情况：
- 推理任务主要依赖 6 个 CPU 核心 和 GPU 协同工作。
显存占用：
- 显存占用达到 4.9 GB。
内存占用：
- 内存使用为 6.4/7.2 GB，几乎耗尽。
- 运行大模型后，剩余内存不足以支持其他较大程序的运行。
供电功率：
- 设备运行时的供电功率为 15W。
性能表现：
- Jetson Orin Nano 8GB 运行了7b大模型时相对流畅，有点惊讶。
内存瓶颈：
- 由于内存只有 8 GB，运行 7b 大模型后，内存几乎耗尽，无法同时运行其他较大应用。
总结：
- 设备能够运行7b大模型，但跑了大模型之后内存容量是明显的短板，限制了多任务处理能力，不一定能稳定执行任务。

四、终端设备部署大模型的思考

现阶段的终端设备跑大模型整体来说还是比较吃力的。除了内存压力之外，低功率也要做到10W，15W来推理大模型，也就是说对电池供电也是一个挑战，换言之，现阶段，终端搭模型的设备不可能是一个小型产品，它可以是人形机器人、机器狗，新能源汽车，但一定不是手机。
价格分析，我说个大概的数字：Jetson Nano B01 4GB 大概是1K、Jetson Orin Nano 4GB大概需要2K、Jetson Orin Nano 8GB大概需要4K。虽然这些价格也可以买到性价比不错的显卡了，但我觉得整个功率做低了实现的大模型推理，意义是更大的。
最后，训练大模型需要更高性能的显卡，我们需要往这方面去开发；与此同时，我们现阶段也需要投入去研发AI终端的推理芯片，还有，固态电池技术是不是可以在这个发展之中起到一个缓和的作用，届时是不是我们会看到 固态电池+现阶段的终端推理芯片+高效率大模型的产品出现呢？
博客写到最后，脑子有一个有趣的哲学思考：我们人类，一天只需要吃三顿饭，即可保持一整天的大脑思考，运动，对环境的识别，听觉…，如果真有造物者，生命系统何尝不是一个伟大的创造呢？

Jetson Nano三个版本（B01 GB、Orin 4GB、Orin 8GB）本地部署Deepseek等大模型的测评

一、为什么要在终端设备部署大模型？

二、 Jetson Nano推理大模型时计算资源占用情况分析

为什么测试Jetson Nano?

三款Jetson Nano芯片简介

三、大模型推理实验

实验1： Jetson Nano B01 4GB 推理 Deepseek-r1:1.5b

实验2： Jetson Orin Nano 4GB 推理 qwen2:1.5b

实验3： Jetson Orin Nano 8GB 推理 Deepseek-r1:1.5b

实验4： Jetson Orin Nano 8GB 推理 Deepseek-r1:7b

四、终端设备部署大模型的思考

相关文章：