当前位置：首页 > news >正文

NPU 神经网络处理单元

news 2026/2/10 21:42:27

在这里插入图片描述

Ⅰ 什么是 NPU？

当前正处于神经网络和机器学习处理需求爆发的初期。传统的 CPU（中央处理器）/GPU（图形处理器）可以执行类似任务，但专门为神经网络优化的 NPU（神经处理单元）比 CPU/GPU 表现好得多。逐渐地，类似的神经网络任务将由专用的 NPU 单元来完成。

NPU 是一种用于网络应用数据包的专用处理器，采用“数据驱动的并行计算”架构，尤其擅长处理视频和图像等大量多媒体数据。

NPU 也是一种集成电路，但与专用集成电路（ASIC）的单一功能不同，网络处理更加复杂、更具灵活性。通常，可以根据网络计算的特点使用软件或硬件进行特殊编程，以实现网络的特定目的。

NPU 的亮点在于能够运行多个并行线程——通过一些特殊的硬件级优化，NPU 被提升到了另一个层次，例如为一些真正不同的处理核心提供一些易于访问的缓存系统。这些大容量核心比典型的“常规”处理器更简单，因为它们不需要执行多种类型的任务。这一系列的“优化”使 NPU 效率更高，这就是为什么有如此多的研发投入到 ASIC 中的原因。

NPU 的优势之一是它们大部分时间都专注于低精度算法、新的数据流架构或内存计算能力。与 GPU 不同，它们更关注吞吐量而不是延迟。

Ⅱ NPU 的处理器模块

NPU 是专为物联网人工智能设计的，用于加速神经网络运算，解决传统芯片在神经网络运算中效率低下的问题。NPU 处理器包括以下模块：

乘法和加法模块：用于计算矩阵乘法和加法、卷积、点积等功能。NPU 内部有 64 个 MAC（乘法累加器），SNPU 中有 32 个。
激活函数模块：用于通过最高 12 阶参数拟合实现神经网络中的激活函数，NPU 内部有 6 个 MAC，SNPU 中有 3 个。
二维数据操作模块：用于在平面上实现操作，如下采样和平面数据复制等。NPU 内部有 1 个 MAC 和 1 个 SNPU。
解压缩模块：用于对加权数据进行解压缩。为了解决物联网设备内存带宽小的特点，在 NPU 编译器中对神经网络中的权重进行压缩，可以实现 6 - 10 倍的压缩效果，且对精度几乎没有影响。

Ⅲ NPU：手机 AI 的核心载体

众所周知，手机的正常运行离不开 SoC（系统级芯片）芯片，它只有指甲盖大小，却拥有所有的“内脏”。其集成模块共同工作，以支持手机功能的实现。CPU 负责手机应用的流畅切换，GPU 支持游戏画面的快速加载，而 NPU 专门负责 AI 计算和 AI 应用的实现。

这也有必要从华为说起，华为是第一家在手机上使用 NPU（神经网络处理单元）的公司，也是第一家将 NPU 集成到手机 CPU 中的公司。

2017 年，华为推出了自己的架构 NPU。与传统的标量和向量计算模式相比，华为自研架构 NPU 使用 3D Cube 对矩阵计算进行加速。因此，单位时间内计算的数据量更大，单位功耗下的 AI 算力更强，与传统的 CPU 和 GPU 相比实现了一个数量级的提升，实现了更好的能效比。

华为首先在 Mate10 上采用外挂的方式使用寒武纪的 NPU。一年后，华为将寒武纪的 NPU IP 集成到 980 中，又过了一年，华为在 990 上放弃寒武纪，使用自己的达芬奇 NPU。

三星 Galaxy 中的 NPU 也被内置到移动处理器中，以利用先进的神经网络，为 Galaxy S20/S20 +/S20 Ultra 和 Z Flip 提供更高水平的视觉智能。NPU 为场景优化器提供动力，增强了识别照片中内容的能力，并促使相机将其调整到适合拍摄对象的理想设置。它现在也比以前的 Galaxy 型号更准确。它还使前置摄像头能够模糊自拍照的背景并创建背景虚化效果。不仅如此，NPU 还帮助设备上的 AI Bixby Vision。

Ⅳ NPU 与 GPU 的比较

虽然 GPU 在并行计算能力方面具有优势，但它不能单独工作，需要 CPU 的协同处理。神经网络模型的构建和数据流仍然在 CPU 上进行。此外，还存在功耗高和体积大的问题。性能越高，GPU 越大，功耗越高，价格也越贵，这对于一些小型设备和移动设备来说是不可用的。因此，一种体积小、功耗低、计算性能高、计算效率高的专用芯片 NPU 应运而生。

NPU 通过在电路层模拟人类神经元和突触，并使用深度学习指令集直接处理大规模神经元和突触，其中一条指令完成一组神经元的处理。与 CPU 和 GPU 相比，NPU 通过突触权重集成存储和计算，从而提高了运算效率。

CPU 和 GPU 处理器需要使用数千条指令来完成神经元处理。NPU 只需一条或几条指令即可完成，因此在深度学习的处理效率方面具有明显优势。实验结果表明，在相同功耗下，NPU 的性能是 GPU 的 118 倍。

Ⅴ 不同处理单元的特点

以下是不同处理单元的特点：

CPU：70%的晶体管用于构建缓存和部分控制单元。计算单元少，适合逻辑控制操作。
GPU：晶体管主要用于构建计算单元，计算复杂度低，适合大规模并行计算。主要用于大数据、后端服务器、图像处理。
NPU：在电路层模拟神经元，通过突触权重实现存储和计算的集成。一条指令完成一组神经元的处理，提高运算效率。主要用于通信领域、大数据、图像处理。
FPGA：可编程逻辑，计算效率高，更接近底层 IO。通过冗余晶体管和连接可编辑逻辑。本质上无指令，不需要共享内存，比 CPU 和 GPU 计算效率更高。主要用于智能手机、便携式移动设备和汽车。

Ⅵ NPU 的实际应用

NPU 有以下实际应用：

拍照时通过 NPU 进行 AI 场景识别，并用 NPU 计算进行图片修饰。
NPU 判断光源和暗光细节以合成超级夜景。
通过 NPU 实现语音助手操作。
NPU 与 GPU Turbo 一起预先确定下一帧以实现早期渲染，提高游戏的流畅度。
NPU 预先确定触摸以提高后续操作的手感和灵敏度。
NPU 与 Link Turbo 一起判断前后端网络速度需求的差异。
NPU 判断游戏渲染负载以智能调整分辨率。
通过降低游戏期间 AI 的计算负载，让 NPU 实现节能。
NPU 实现 CPU 和 GPU 的动态调度。
NPU 辅助大数据广告推送。
通过 NPU 实现输入法的 AI 智能词组联想功能。

Ⅶ 各类处理单元的解释

以下是各类处理单元的解释：

APU：加速处理单元，是 AMD 用于加速图像处理的芯片产品。
BPU：大脑处理单元，是地平线领先的嵌入式处理器架构。
CPU：中央处理单元，是 PC 核心的主流产品。
DPU：数据流处理单元，是 Wave Computing 提出的一种 AI 架构。
FPU：浮点处理单元，是通用处理器中的浮点模块。
GPU：图形处理单元，具有多线程 SIMD 架构，专为图形处理而设计。
HPU：全息处理单元，是微软的全息计算芯片和设备。
IPU：智能处理单元，是 Deep Mind 投资的 Graphcore 的 AI 处理器产品。
MPU/MCU：微处理器/微控制器单元，通常用于 RISC 计算机架构产品的低计算应用，如 ARM - M 系列处理器。
NPU：神经网络处理单元，是基于神经网络算法和加速的新型处理器的统称，如中国科学院计算技术研究所/寒武纪的“寒武纪”系列。
RPU：无线电处理单元，是 Imagination Technologies 将 Wifi/蓝牙/FM/处理器集成为单个处理器的无线电处理器。
TPU：张量处理单元，是谷歌用于加速人工智能算法的专用处理器。当前一代 TPU 用于推理，第二代用于训练。
VPU：向量处理单元，是英特尔收购的 Movidius 推出的用于加速图像处理和人工智能的专用芯片。
WPU：可穿戴处理，Ineda Systems 推出的可穿戴系统级芯片产品，包括 GPU/MIPS CPU 等 IP。
XPU：百度和赛灵思在 Hotchips 2017 上宣布的 FPGA 智能云加速，包含 256 个核心。
ZPU：Zylin 处理单元，是挪威 Zylin 的 32 位开源处理器。

NPU 神经网络处理单元

相关文章：

NPU 神经网络处理单元

安宝特分享 | AR技术引领：跨国工业远程协作创新模式

Vulkan 开发（五）：Vulkan 逻辑设备

Kafka 解决消息丢失、乱序与重复消费

计算机专业毕业生面试工具推荐：白瓜面试

数字IC开发：布局布线

高空作业未系安全带监测系统安全带穿戴识别预警系统

k8s的配置和存储（ConfigMap、Secret、Hostpath、EmptyDir以及NFS的服务使用）

JS轮播图实现自动轮播、悬浮停止轮播、点击切换，下方指示器与图片联动效果

使用 Kafka 和 MinIO 实现人工智能数据工作流

力扣题86~90

【JavaEE】【多线程】定时器

CI/CD 的原理

进一步认识ICMP协议

NUUO网络视频录像机upload.php任意文件上传漏洞复现

WebGL 3D基础

Docker 部署MongoDb

【Hadoop】hadoop的路径分不清？HDFS路径与本地文件系统路径的区别

倪师学习笔记-天纪-易经八卦

自动驾驶性能分析时，非常有用的两个信息

深度学习在微纳光子学中的应用

多种风格导航菜单 HTML 实现（附源码）

Mac下Android Studio扫描根目录卡死问题记录

Device Mapper 机制

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

Linux离线（zip方式）安装docker

基于 TAPD 进行项目管理

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

GO协程(Goroutine)问题总结

LangFlow技术架构分析