当前位置：首页 > news >正文

深度学习硬件介绍

news 2026/2/9 19:26:00

1. 深度学习电脑选型

1.1 深度学习常用框架

常见的深度学习框架：百度的飞桨框架、Google 的TensorFlow，伯克利亚学院的Caffe，蒙特利尔大学Theano（和TensorFlow非常相似），微软开发的CNTK，Facebook开发的PyTorch。

深度学习框架为开发者提供了一套工具和接口，用于设计、训练和部署深度学习模型。以下是一些中外常用的深度学习框架：

TensorFlow:
- 开发者：Google Brain 团队
- 特点：这是一个非常受欢迎的开源深度学习框架，提供了灵活的、强大的工具和库，支持各种深度学习应用。
- 子项目：TensorFlow Lite (针对移动和嵌入式设备)、TensorFlow.js (用于浏览器和 Node.js)
Keras:
- 开发者：François Chollet
- 特点：一个用于构建和训练深度学习模型的高级接口。它可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 的前端。
PyTorch:
- 开发者：Facebook AI Research (FAIR)
- 特点：一个动态计算图框架，提供了灵活性和速度。它在研究社区中非常受欢迎。
Caffe:
- 开发者：Berkeley Vision and Learning Center (BVLC)
- 特点：主要关注速度和模块化，被广泛用于卷积神经网络和图像处理。
Microsoft Cognitive Toolkit (CNTK):
- 开发者：Microsoft
- 特点：高性能的深度学习框架，支持多 GPU 训练。
MXNet:
- 开发者：Apache Software Foundation
- 特点：一个灵活、高效的深度学习框架，被亚马逊 AWS 采纳为其首选深度学习框架。
PaddlePaddle:
- 开发者：百度
- 特点：一个易于使用、高效、灵活、可扩展的深度学习平台。它是百度用于支持其大规模人工智能应用的核心技术。
MindSpore:
- 开发者：华为
- 特点：华为的全场景 AI 计算框架，专为 AI 应用和算法研发设计，支持云、边缘和设备三种部署模式。

1.2 深度学习硬件选择

硬件怎么选？

CPU：
- 英特尔至强银牌4210R 金牌的5218R或者6320R，
- AMD霄龙7302、7402或者74F3

为什么这两款？

首先，支持ECC自动纠错内存，机器稳定性有保障，
其次，这些CPU支持的内存通道数多，能够带来更好的性能
这些可扩展系列处理器，能够支持更多的PCIE通道，

CPU不用特别好，深度学习主要依靠GPU进行计算，

内存怎么选？
内存的选择要遵循几个定律

GPU显存与内存是一个1:4的配比，比如说2张3090显卡，叠加显存是 48G，那机器的内存建议 192GB。
内存通道，不是说单根内存越大越好（多条小容量内存>少条大容量内存），比如现在要买 128GB 的内存，常规操作会买两根 64GB 的内存，但此处建议上四根 32 GB的内存。
- 好处1：能够带来更多的内存通道，
- 好处2：为了保证双路机器上的内存故障不会影响其中一颗 CPU 的运行，

硬盘怎么选择？
一般是 2+3 的模式，两块固态硬盘做 RAID1 阵列，用作系统引导盘和框架软件的使用。三块大容量的机械硬盘做 RAID5，作为存储数据使用。这种配比可以兼顾存储的性能、安全、性价比。在这里插入图片描述
显卡（GPU） 是深度学习的重要部件，甚至比CPU更重要。做深度学习不用GPU只用CPU显然是不明智的，慢的如乌龟，跑个模型等几天，难熬，但适合摸鱼。

GPU 怎么选？深度学习的核心配置，只需要记住几个关键的参数即可。

显存：显卡的内存，这里决定了写入GPU进行运算的数据多少，和我们搭建模型的大小，

，可以看到 A100 拥有 80G 的最大显存，
在这里插入图片描述
48GB 的显存也有非常多的选择。

上述价格有点贵，预算有限的情况下，可以选择 3090.如果确实需要大显存，实惠的方案是购买 2 张 3090，通过 NVLink 实现双卡显存共享，享受 48GB 和两张卡的算力。

这几个精度浮点都有什么区别？即单、双、半精度浮点有什么区别？
如果对运算的精度要求不高，可以使用半精度浮点运算就可以，这时 Tensor核心就派上了用场，Tensor Core 专门执行矩阵数学运算，适用于深度学习和某些类型的HPC。单精度浮点数指的 FP32，是最常见的数据精度，也是深度学习框架默认的精度。
在这里插入图片描述

总结：深度学习训练，主要注重GPU的单精度和双精度浮点，深度学习推理，注重GPU的半精度。预算有限的话，推荐RTX 3090。若偏向图像处理类的一般是要求GPU具备高清输出接口，推荐RTX8000或者RTX A6000。纯算力的话，推荐A100、V100这一类。

推荐几款机器选型给到大家
戴尔T550、T640塔式服务器，T7920工作站。
在这里插入图片描述
R740、R750xa、R7525、DSS 8440、XE8545等这些机架式服务器。

在这里插入图片描述
联想的塔式服务器有ST558、ST650 V2，工作站有P920，机架式服务器SR670 V2、HG680x等等。

还有浪潮、HPE等品牌的机器。

1.3 GPU 厂商介绍

GPU (Graphics Processing Unit) 市场上有几家主要的生产商，其中 NVIDIA 和 AMD 是最为人们所熟知的。以下是一些主要的 GPU 生产商和他们的一些知名产品型号（截止到 2022 年 1 月）：

NVIDIA:
- GeForce 系列：主要针对消费级游戏市场。如 GeForce RTX 3080, RTX 3070, RTX 3060 Ti 等。
- Quadro 系列：针对专业工作站和企业应用。
- Tesla 和 A100 系列：针对数据中心、深度学习和高性能计算。
- NVIDIA Titan：高端的消费级和研究级GPU。
AMD:
- Radeon RX 系列：主要针对消费级游戏市场。如 Radeon RX 6900 XT, RX 6800 XT, RX 6700 XT 等。
- Radeon Pro 系列：针对专业工作站和企业应用。
- Radeon Instinct 系列：针对数据中心、深度学习和高性能计算。
Intel:
- 虽然 Intel 主要是 CPU 生产商，但它也制造集成 GPU，通常内置在其主流的 Core 和 Xeon 系列处理器中。
- 最近，Intel 宣布了其独立 GPU 产品线 Intel Xe，包括用于消费、企业和数据中心的解决方案。

除了这些主要生产商外，还有一些其他公司，如 ARM 和 Imagination Technologies，它们设计 GPU 架构并授权给其他硬件生产商使用。

科普

1. RTX 什么意思
“RTX” 通常与 NVIDIA 的图形卡产品线相关，尤其是它们的高端图形卡系列。“RTX” 的全称是 “Ray Tracing Texel eXtreme”。主要特点是以下几点：

光线追踪 (Ray Tracing): 这是 RTX 系列的主要特点之一。光线追踪是一种为场景生成逼真光照效果的技术，可以为图形提供更真实的光和阴影效果。NVIDIA 在其 RTX 系列中集成了专门的硬件，称为 “RT Cores”，专门用于加速光线追踪计算。
Tensor Cores: 这些是专门为深度学习和人工智能计算而设计的硬件单元。在图形渲染中，它们也被用来加速特定的任务，如 DLSS (Deep Learning Super Sampling)。
DLSS (Deep Learning Super Sampling): 这是 NVIDIA 的一项专利技术，旨在通过使用深度学习来提高游戏的帧率和图像质量。

简而言之，RTX 主要是 NVIDIA 的一个品牌名称，代表其最新的图形卡技术，特别是与光线追踪和深度学习相关的功能。

2. ECC自动纠错内存，机器稳定性有保障

是的，您是对的。ECC 是 “Error-Correcting Code” 的缩写，中文常称为“纠错码”。ECC 内存是一种可以自动检测并修复单点错误的内存类型。这意味着，如果内存中的某个位发生了错误（例如，由于宇宙射线或其他原因），ECC 内存可以自动纠正它。

以下是使用 ECC 内存的一些主要优势：

提高系统稳定性：由于 ECC 内存可以自动纠正错误，因此减少了因内存错误导致的系统崩溃或数据损坏的风险。
数据完整性：在某些关键应用中，例如数据库、科学计算或金融交易，数据完整性是至关重要的。ECC 内存可以帮助确保数据不会因内存错误而被损坏。
适合长时间运行的系统：对于需要长时间连续运行的系统，如服务器或数据中心，使用 ECC 内存可以减少由于内存错误导致的不必要的停机时间。

然而，ECC 内存也有一些缺点。首先，它们通常比非 ECC 内存更昂贵。其次，由于额外的纠错硬件，ECC 内存可能会略微降低性能。

总的来说，对于那些需要高度稳定性和数据完整性的应用或环境，ECC 内存是一个很好的选择。

3. CPU支持的内存通道数多，能够带来更好的性能

CPU 支持的内存通道数可以影响系统的内存带宽和性能。简单来说，多通道内存架构允许 CPU 同时从多个内存模块中读取或写入数据，从而增加数据传输速率。以下是多通道内存配置的一些优势：

增加内存带宽：多通道内存配置可以显著增加系统的内存带宽。例如，双通道内存配置的理论带宽是单通道配置的两倍，三通道的是三倍，依此类推。
提高系统性能：对于内存带宽敏感的应用程序和任务，多通道内存配置可以提供更好的性能。这包括某些图形任务、大型数据库操作、科学计算和其他高性能计算任务。
更好的并发性：在多任务环境中，多通道内存可以更有效地处理并发的内存访问请求。

然而，需要注意的是，不是所有应用都会从多通道内存中受益。有些应用可能主要受到 CPU 或 GPU 性能、存储速度或其他因素的限制，而不是内存带宽。

为了充分利用多通道内存的优势，用户还需要确保：

使用正确的内存模块并按照主板手册的推荐方式安装。
确保 BIOS/UEFI 设置正确，以启用多通道模式。

总之，多通道内存确实可以提供更好的性能，但具体的性能提升取决于应用的类型和其他系统组件的配置。

4. 可扩展系列处理器，能够支持更多的PCIE通道

“可扩展系列处理器” 通常指的是为高端桌面平台、工作站和数据中心设计的处理器。这些处理器具有更高的核心和线程数，以及更多的 PCIE 通道和其他高级功能，以支持更高的计算和 I/O 性能需求。

PCIE (Peripheral Component Interconnect Express) 是一个高速串行计算机扩展总线标准，用于连接主板上的处理器与各种外部设备，如显卡、固态硬盘、网络卡等。

以下是可扩展系列处理器支持更多 PCIE 通道的一些优势：

更多的设备：更多的 PCIE 通道意味着系统可以支持更多的 PCIE 设备，这对于多 GPU 配置、高性能存储解决方案或其他 I/O 密集型应用非常有用。
增加的带宽：每个 PCIE 通道都提供了一定的数据传输带宽。更多的通道可以提供更高的总体带宽，这对于高带宽需求的应用（如 4K 和 8K 视频编辑、大型数据集处理等）非常有益。
灵活的系统设计：对于 OEM 和系统集成商，更多的 PCIE 通道提供了更大的灵活性，以设计满足特定客户需求的定制解决方案。
减少性能瓶颈：在 I/O 密集型任务中，充足的 PCIe 带宽可以确保数据流畅地在处理器和外部设备之间流动，从而减少性能瓶颈。

总之，可扩展系列处理器通常为高端和企业级市场提供高级功能，其中更多的 PCIE 通道只是许多优势之一。然而，对于大多数消费者和日常用途，标准的桌面处理器和其关联的 PCIE 通道通常已经足够了。

5. Ti是什么寓意

在 NVIDIA 的 GPU 命名中，“Ti” 是 “Titanium” 的缩写。在化学元素周期表中，“Ti” 是钛（Titanium）的符号。NVIDIA 使用 “Ti” 来表示某一系列图形卡中的高性能版本。

例如，当比较 “GeForce RTX 3060” 和 “GeForce RTX 3060 Ti” 时，后者通常具有更多的 CUDA 核心、更高的时钟速度或其他性能增强功能，从而提供更好的性能。但与此同时，“Ti” 版本的卡通常也会有更高的价格。

所以，在 NVIDIA 的命名约定中，“Ti” 通常意味着更高的性能和可能的更高价格。这可以帮助消费者更容易地区分和选择在同一系列中不同性能级别的图形卡。

6. CUDA 核心

CUDA 核心是 NVIDIA 的 GPU 中的并行处理单元，负责执行浮点运算。CUDA 是 “Compute Unified Device Architecture” 的缩写，是 NVIDIA 开发的并行计算平台和应用程序接口 (API)。通过 CUDA，开发者可以利用 NVIDIA 的 GPU 来执行通用的计算任务。

以下是关于 CUDA 核心的一些关键点：

并行处理：CUDA 核心的主要优势是其数量。高端 NVIDIA GPU 可能有数千个 CUDA 核心，允许它们同时处理大量的并行任务。这对于图形渲染和其他并行计算任务（如某些科学计算和深度学习任务）非常有用。
性能指标：在比较不同 NVIDIA GPU 时，CUDA 核心的数量经常被用作性能的一个指标。但是，仅仅考虑 CUDA 核心的数量可能不足以给出完整的性能画像，因为时钟速度、内存带宽和其他因素也会影响性能。
编程和开发：NVIDIA 提供了 CUDA C/C++ 和其他语言的编程模型，允许开发者直接为 GPU 编写代码。通过这些工具，开发者可以编写利用大量 CUDA 核心进行高度并行计算的代码。
应用领域：CUDA 核心不仅用于图形渲染，还被广泛应用于科学计算、金融建模、深度学习、图像和视频处理等许多其他领域。
版本和架构：随着 GPU 架构的进化，CUDA 核心的设计和功能也在变化。例如，从 Fermi 到 Kepler、Maxwell、Pascal、Turing 和最新的 Ampere，每一个新架构都带来了性能提升和新功能。

总的来说，CUDA 核心是 NVIDIA GPU 中的处理单元，允许 GPU 执行大量的并行操作。通过 CUDA 编程模型，开发者可以充分利用这些核心来加速各种计算密集型任务。

你真的需要这么一块阵列卡

如何从硬件上保证数据安全？以下面这个 阵列卡 为例，它可以给硬盘组建磁盘阵列，其中用的比较多的是 RAID1 和 RAID5 。
在这里插入图片描述

深度学习硬件介绍

目录

1. 深度学习电脑选型

1.1 深度学习常用框架

1.2 深度学习硬件选择

1.3 GPU 厂商介绍

科普

你真的需要这么一块阵列卡

相关文章：

深度学习硬件介绍

利用向导创建MFC

MySQL 8.0 OCP认证精讲视频、环境和题库之五事务、缓存

ACL配置

微信小程序修改van-popup的背景颜色

SpringCloud-Nacos

动态规划12（Leetcode221最大正方形）

【Git】bad signature 0x00000000 index file corrupt. fatal: index file corrupt

GO 语言的函数？？

机器学习基础之《回归与聚类算法（3）—线性回归优化：岭回归》

DirectX3D 正交投影学习记录

数据挖掘十大算法--Apriori算法

[蓝桥杯 2022 省 B] 统计子矩阵

解决在部署springboot项目的docker中执行备份与之相连接的mysql容器命令

正文Delphi XE Android下让TMemo不自动弹出键盘

[1Panel]开源，现代化，新一代的 Linux 服务器运维管理面板

PG集合查询

目标检测应用场景和发展趋势

Confluence 自定义博文列表

chrome历史版本下载

【WiFi帧结构】

java 实现excel文件转pdf | 无水印 | 无限制

条件运算符

如何为服务器生成TLS证书

C++中string流知识详解和示例

华硕a豆14 Air香氛版，美学与科技的馨香融合

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释

Java并发编程实战 Day 11：并发设计模式

boost::filesystem::path文件路径使用详解和示例

数据分析六部曲？