深度学习硬件介绍
目录
- 1. 深度学习电脑选型
- 1.1 深度学习常用框架
- 1.2 深度学习硬件选择
- 1.3 GPU 厂商介绍
- 科普
- 你真的需要这么一块阵列卡
1. 深度学习电脑选型
1.1 深度学习常用框架
常见的深度学习框架:百度的飞桨框架、Google
的TensorFlow
,伯克利亚学院的Caffe
,蒙特利尔大学Theano
(和TensorFlow
非常相似),微软开发的CNTK
,Facebook
开发的PyTorch
。
深度学习框架为开发者提供了一套工具和接口,用于设计、训练和部署深度学习模型。以下是一些中外常用的深度学习框架:
-
TensorFlow:
- 开发者:Google Brain 团队
- 特点:这是一个非常受欢迎的开源深度学习框架,提供了灵活的、强大的工具和库,支持各种深度学习应用。
- 子项目:TensorFlow Lite (针对移动和嵌入式设备)、TensorFlow.js (用于浏览器和 Node.js)
-
Keras:
- 开发者:François Chollet
- 特点:一个用于构建和训练深度学习模型的高级接口。它可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 的前端。
-
PyTorch:
- 开发者:Facebook AI Research (FAIR)
- 特点:一个动态计算图框架,提供了灵活性和速度。它在研究社区中非常受欢迎。
-
Caffe:
- 开发者:Berkeley Vision and Learning Center (BVLC)
- 特点:主要关注速度和模块化,被广泛用于卷积神经网络和图像处理。
-
Microsoft Cognitive Toolkit (CNTK):
- 开发者:Microsoft
- 特点:高性能的深度学习框架,支持多 GPU 训练。
-
MXNet:
- 开发者:Apache Software Foundation
- 特点:一个灵活、高效的深度学习框架,被亚马逊 AWS 采纳为其首选深度学习框架。
-
PaddlePaddle:
- 开发者:百度
- 特点:一个易于使用、高效、灵活、可扩展的深度学习平台。它是百度用于支持其大规模人工智能应用的核心技术。
-
MindSpore:
- 开发者:华为
- 特点:华为的全场景 AI 计算框架,专为 AI 应用和算法研发设计,支持云、边缘和设备三种部署模式。
1.2 深度学习硬件选择
硬件怎么选?
CPU:
- 英特尔至强银牌
4210R
金牌的5218R
或者6320R
, AMD
霄龙7302
、7402
或者74F3
- 英特尔至强银牌
为什么这两款?
- 首先,支持
ECC
自动纠错内存,机器稳定性有保障, - 其次,这些
CPU
支持的内存通道数多,能够带来更好的性能 - 这些可扩展系列处理器,能够支持更多的
PCIE
通道,
CPU
不用特别好,深度学习主要依靠GPU
进行计算,
内存怎么选?
内存的选择要遵循几个定律
GPU显存
与内存是一个1:4
的配比,比如说2张3090显卡,叠加显存是48G
,那机器的内存建议192GB
。- 内存通道,不是说单根内存越大越好(多条小容量内存>少条大容量内存),比如现在要买
128GB
的内存,常规操作会买两根64GB
的内存,但此处建议上四根32 GB
的内存。- 好处1:能够带来更多的内存通道,
- 好处2:为了保证双路机器上的内存故障不会影响其中一颗
CPU
的运行,
硬盘
怎么选择?
一般是 2+3
的模式,两块固态硬盘做 RAID1
阵列,用作系统引导盘和框架软件的使用。三块大容量的机械硬盘做 RAID5
,作为存储数据使用。这种配比可以兼顾存储的性能、安全、性价比。
显卡(GPU)
是深度学习的重要部件,甚至比CPU
更重要。做深度学习不用GPU
只用CPU
显然是不明智的,慢的如乌龟,跑个模型等几天,难熬,但适合摸鱼。
GPU 怎么选?深度学习的核心配置
,只需要记住几个关键的参数即可。
- 显存:显卡的内存,这里决定了写入
GPU
进行运算的数据多少,和我们搭建模型的大小,
,可以看到 A100
拥有 80G
的最大显存,
48GB
的显存也有非常多的选择。
上述价格有点贵,预算有限的情况下,可以选择 3090
.如果确实需要大显存,实惠的方案是购买 2
张 3090
,通过 NVLink
实现双卡显存共享,享受 48GB
和两张卡的算力。
这几个精度浮点都有什么区别? 即单、双、半精度浮点有什么区别?
如果对运算的精度要求不高,可以使用半精度浮点运算就可以,这时 Tensor
核心就派上了用场,Tensor Core
专门执行矩阵数学运算,适用于深度学习和某些类型的HPC
。单精度浮点数指的 FP32
,是最常见的数据精度,也是深度学习框架默认的精度。
总结:深度学习训练,主要注重GPU
的单精度和双精度浮点,深度学习推理,注重GPU
的半精度。预算有限的话,推荐RTX 3090
。若偏向图像处理类的一般是要求GPU
具备高清输出接口,推荐RTX8000
或者RTX A6000
。纯算力的话,推荐A100
、V100
这一类。
推荐几款机器选型给到大家
戴尔T550
、T640塔式服务器
,T7920工作站
。
R740
、R750xa
、R7525
、DSS 8440
、XE8545
等这些机架式服务器。
联想的塔式服务器有ST558
、ST650 V2
,工作站有P920
,机架式服务器SR670 V2
、HG680x
等等。
还有浪潮、HPE
等品牌的机器。
1.3 GPU 厂商介绍
GPU (Graphics Processing Unit) 市场上有几家主要的生产商,其中 NVIDIA
和 AMD
是最为人们所熟知的。以下是一些主要的 GPU 生产商和他们的一些知名产品型号(截止到 2022 年 1 月):
-
NVIDIA:
- GeForce 系列:主要针对消费级游戏市场。如 GeForce RTX 3080, RTX 3070, RTX 3060 Ti 等。
- Quadro 系列:针对专业工作站和企业应用。
- Tesla 和 A100 系列:针对数据中心、深度学习和高性能计算。
- NVIDIA Titan:高端的消费级和研究级GPU。
-
AMD:
- Radeon RX 系列:主要针对消费级游戏市场。如 Radeon RX 6900 XT, RX 6800 XT, RX 6700 XT 等。
- Radeon Pro 系列:针对专业工作站和企业应用。
- Radeon Instinct 系列:针对数据中心、深度学习和高性能计算。
-
Intel:
- 虽然 Intel 主要是 CPU 生产商,但它也制造集成 GPU,通常内置在其主流的 Core 和 Xeon 系列处理器中。
- 最近,Intel 宣布了其独立 GPU 产品线 Intel Xe,包括用于消费、企业和数据中心的解决方案。
除了这些主要生产商外,还有一些其他公司,如 ARM 和 Imagination Technologies,它们设计 GPU 架构并授权给其他硬件生产商使用。
科普
1. RTX
什么意思
“RTX” 通常与 NVIDIA 的图形卡产品线相关,尤其是它们的高端图形卡系列。“RTX” 的全称是 “Ray Tracing Texel eXtreme”。主要特点是以下几点:
-
光线追踪 (Ray Tracing): 这是 RTX 系列的主要特点之一。光线追踪是一种为场景生成逼真光照效果的技术,可以为图形提供更真实的光和阴影效果。NVIDIA 在其 RTX 系列中集成了专门的硬件,称为 “RT Cores”,专门用于加速光线追踪计算。
-
Tensor Cores: 这些是专门为深度学习和人工智能计算而设计的硬件单元。在图形渲染中,它们也被用来加速特定的任务,如 DLSS (Deep Learning Super Sampling)。
-
DLSS (Deep Learning Super Sampling): 这是 NVIDIA 的一项专利技术,旨在通过使用深度学习来提高游戏的帧率和图像质量。
简而言之,RTX 主要是 NVIDIA 的一个品牌名称,代表其最新的图形卡技术,特别是与光线追踪和深度学习相关的功能。
2. ECC
自动纠错内存,机器稳定性有保障
是的,您是对的。ECC
是 “Error-Correcting Code” 的缩写,中文常称为“纠错码”。ECC 内存是一种可以自动检测并修复单点错误的内存类型。这意味着,如果内存中的某个位发生了错误(例如,由于宇宙射线或其他原因),ECC 内存可以自动纠正它。
以下是使用 ECC 内存的一些主要优势:
-
提高系统稳定性:由于 ECC 内存可以自动纠正错误,因此减少了因内存错误导致的系统崩溃或数据损坏的风险。
-
数据完整性:在某些关键应用中,例如数据库、科学计算或金融交易,数据完整性是至关重要的。ECC 内存可以帮助确保数据不会因内存错误而被损坏。
-
适合长时间运行的系统:对于需要长时间连续运行的系统,如服务器或数据中心,使用 ECC 内存可以减少由于内存错误导致的不必要的停机时间。
然而,ECC 内存也有一些缺点。首先,它们通常比非 ECC 内存更昂贵。其次,由于额外的纠错硬件,ECC 内存可能会略微降低性能。
总的来说,对于那些需要高度稳定性和数据完整性的应用或环境,ECC 内存是一个很好的选择。
3. CPU
支持的内存通道数多,能够带来更好的性能
CPU 支持的内存通道数可以影响系统的内存带宽和性能。简单来说,多通道内存架构允许 CPU 同时从多个内存模块中读取或写入数据,从而增加数据传输速率。以下是多通道内存配置的一些优势:
-
增加内存带宽:多通道内存配置可以显著增加系统的内存带宽。例如,双通道内存配置的理论带宽是单通道配置的两倍,三通道的是三倍,依此类推。
-
提高系统性能:对于内存带宽敏感的应用程序和任务,多通道内存配置可以提供更好的性能。这包括某些图形任务、大型数据库操作、科学计算和其他高性能计算任务。
-
更好的并发性:在多任务环境中,多通道内存可以更有效地处理并发的内存访问请求。
然而,需要注意的是,不是所有应用都会从多通道内存中受益。有些应用可能主要受到 CPU 或 GPU 性能、存储速度或其他因素的限制,而不是内存带宽。
为了充分利用多通道内存的优势,用户还需要确保:
- 使用正确的内存模块并按照主板手册的推荐方式安装。
- 确保 BIOS/UEFI 设置正确,以启用多通道模式。
总之,多通道内存确实可以提供更好的性能,但具体的性能提升取决于应用的类型和其他系统组件的配置。
4. 可扩展系列处理器,能够支持更多的PCIE通道
“可扩展系列处理器” 通常指的是为高端桌面平台、工作站和数据中心设计的处理器。这些处理器具有更高的核心和线程数,以及更多的 PCIE 通道和其他高级功能,以支持更高的计算和 I/O 性能需求。
PCIE (Peripheral Component Interconnect Express) 是一个高速串行计算机扩展总线标准,用于连接主板上的处理器与各种外部设备,如显卡、固态硬盘、网络卡等。
以下是可扩展系列处理器支持更多 PCIE 通道的一些优势:
-
更多的设备:更多的 PCIE 通道意味着系统可以支持更多的 PCIE 设备,这对于多 GPU 配置、高性能存储解决方案或其他 I/O 密集型应用非常有用。
-
增加的带宽:每个 PCIE 通道都提供了一定的数据传输带宽。更多的通道可以提供更高的总体带宽,这对于高带宽需求的应用(如 4K 和 8K 视频编辑、大型数据集处理等)非常有益。
-
灵活的系统设计:对于 OEM 和系统集成商,更多的 PCIE 通道提供了更大的灵活性,以设计满足特定客户需求的定制解决方案。
-
减少性能瓶颈:在 I/O 密集型任务中,充足的 PCIe 带宽可以确保数据流畅地在处理器和外部设备之间流动,从而减少性能瓶颈。
总之,可扩展系列处理器通常为高端和企业级市场提供高级功能,其中更多的 PCIE 通道只是许多优势之一。然而,对于大多数消费者和日常用途,标准的桌面处理器和其关联的 PCIE 通道通常已经足够了。
5. Ti是什么寓意
在 NVIDIA 的 GPU 命名中,“Ti” 是 “Titanium” 的缩写。在化学元素周期表中,“Ti” 是钛(Titanium)的符号。NVIDIA 使用 “Ti” 来表示某一系列图形卡中的高性能版本。
例如,当比较 “GeForce RTX 3060” 和 “GeForce RTX 3060 Ti” 时,后者通常具有更多的 CUDA 核心、更高的时钟速度或其他性能增强功能,从而提供更好的性能。但与此同时,“Ti” 版本的卡通常也会有更高的价格。
所以,在 NVIDIA 的命名约定中,“Ti” 通常意味着更高的性能和可能的更高价格。这可以帮助消费者更容易地区分和选择在同一系列中不同性能级别的图形卡。
6. CUDA 核心
CUDA 核心是 NVIDIA 的 GPU 中的并行处理单元,负责执行浮点运算。CUDA 是 “Compute Unified Device Architecture” 的缩写,是 NVIDIA 开发的并行计算平台和应用程序接口 (API)。通过 CUDA,开发者可以利用 NVIDIA 的 GPU 来执行通用的计算任务。
以下是关于 CUDA 核心的一些关键点:
-
并行处理:CUDA 核心的主要优势是其数量。高端 NVIDIA GPU 可能有数千个 CUDA 核心,允许它们同时处理大量的并行任务。这对于图形渲染和其他并行计算任务(如某些科学计算和深度学习任务)非常有用。
-
性能指标:在比较不同 NVIDIA GPU 时,CUDA 核心的数量经常被用作性能的一个指标。但是,仅仅考虑 CUDA 核心的数量可能不足以给出完整的性能画像,因为时钟速度、内存带宽和其他因素也会影响性能。
-
编程和开发:NVIDIA 提供了 CUDA C/C++ 和其他语言的编程模型,允许开发者直接为 GPU 编写代码。通过这些工具,开发者可以编写利用大量 CUDA 核心进行高度并行计算的代码。
-
应用领域:CUDA 核心不仅用于图形渲染,还被广泛应用于科学计算、金融建模、深度学习、图像和视频处理等许多其他领域。
-
版本和架构:随着 GPU 架构的进化,CUDA 核心的设计和功能也在变化。例如,从 Fermi 到 Kepler、Maxwell、Pascal、Turing 和最新的 Ampere,每一个新架构都带来了性能提升和新功能。
总的来说,CUDA 核心是 NVIDIA GPU 中的处理单元,允许 GPU 执行大量的并行操作。通过 CUDA 编程模型,开发者可以充分利用这些核心来加速各种计算密集型任务。
你真的需要这么一块阵列卡
如何从硬件上保证数据安全?以下面这个 阵列卡
为例,它可以给硬盘组建磁盘阵列,其中用的比较多的是 RAID1
和 RAID5
。
相关文章:

深度学习硬件介绍
目录 1. 深度学习电脑选型1.1 深度学习常用框架1.2 深度学习硬件选择1.3 GPU 厂商介绍科普 你真的需要这么一块阵列卡 1. 深度学习电脑选型 1.1 深度学习常用框架 常见的深度学习框架:百度的飞桨框架、Google 的TensorFlow,伯克利亚学院的Caffe&#x…...

利用向导创建MFC
目录 1、项目的创建: 2、项目的管理 : 3、分析以及生成的项目代码 : (1)、查看CFrame中的消息映射宏 (2)、自动生成事件 (3)、在CFrame中添加对应的鼠标处理函数 …...

MySQL 8.0 OCP认证精讲视频、环境和题库之五 事务、缓存
redo log buffer: 缓存与事务有关的redo log ,用来对mysql进行crash恢复,不可禁用; 日志缓冲区是存储要写入磁盘上日志文件的数据的内存区域。日志缓冲区大小由innodb_Log_buffer_size变量定义。 默认大小为16MB。日志缓冲区的内容会定…...

ACL配置
目录 1.使用基本ACL配置交换telnet访问的权限 2.使用高级ACL配置流分类实现限制互访某一台服务器 3.使用二层ACL配置流分类拒绝指定报文通过 4.通过流策略实现策略路由(重定向到不同的下一跳) 5.通过流策略实现不同网段间限制互访 6.通过流策略实现限速功能 7.通过流策略…...

微信小程序修改van-popup的背景颜色
效果图: van-popup背景颜色渐变 使用深度修改样式不生效,直接在 custom-style里面修改即可; <van-popup position"bottom"custom-style"height:25%;background:linear-gradient(95deg, #F8FCFF -0.03%, #EDF5FF 64.44…...

SpringCloud-Nacos
一、介绍 (1)作为服务注册中心和配置中心 (2)等价于:EurekaConfigBus (3)nacos集成了ribbon,支持负载均衡 二、安装 (1)官网 (2) …...
动态规划12(Leetcode221最大正方形)
代码: class Solution {public int maximalSquare(char[][] matrix) {int m matrix.length;int n matrix[0].length;int[][]area new int[m][n];area[0][0] matrix[0][0];int max 0;for(int i0;i<m;i){area[i][0] matrix[i][0]1? 1:0;max Math.max(area…...

【Git】bad signature 0x00000000 index file corrupt. fatal: index file corrupt
问题描述 电脑写代码时蓝屏。重启后 git commit 出错。 error: bad signature 0x00000000 fatal: index file corrupt原因分析 当电脑发生蓝屏或异常关机时,Git 的索引文件可能损坏。 解决方案 删除损坏的索引文件。 rm -Force .git/index回退到上一个可用的版…...

GO 语言的函数??
函数是什么? 学过编程的 xdm 对于函数自然不会陌生,那么函数是什么呢? 函数是一段可以重用的代码块,可以被多次调用,我们可以通过使用函数,提高咱们代码代码的模块化,提高程序的可读性和可维护…...

机器学习基础之《回归与聚类算法(3)—线性回归优化:岭回归》
一、什么是岭回归 其实岭回归就是带L2正则化的线性回归 岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上L2正则化的限制,从而达到解决过拟合的效果 二、API 1、sklearn.linear_model.Ridge(alpha1.0, fit_interceptTrue…...

DirectX3D 正交投影学习记录
所谓正交投影变换,就是已知盒状可视空间内任意点坐标(x,y,z),求解垂直投影到xy平面的对应点坐标。 按照这个定义,xyz坐标系本身就是正交坐标系,盒状可视空间内任意点的坐标(x,y,z)投影到(x,y)平面,只要简单地丢弃z坐标…...

数据挖掘十大算法--Apriori算法
一、Apriori 算法概述 Apriori 算法是一种用于关联规则挖掘的经典算法。它用于在大规模数据集中发现频繁项集,进而生成关联规则。关联规则揭示了数据集中项之间的关联关系,常被用于市场篮分析、推荐系统等应用。 以下是 Apriori 算法的基本概述&#x…...
[蓝桥杯 2022 省 B] 统计子矩阵
题目描述 给定一个 NM 的矩阵 A,请你统计有多少个子矩阵 (最小 11, 最大 NM) 满足子矩阵中所有数的和不超过给定的整数 K。 输入格式 第一行包含三个整数 N, M和 K。 之后 N 行每行包含 M 个整数, 代表矩阵 A。 输出格式 一个整数代表答案。 输入输出样例 输入 #1 3…...
解决在部署springboot项目的docker中执行备份与之相连接的mysql容器命令
文章目录 问题描述解决思路问题解决容器构建mysql客户端安装容器与主机的交互docker中执行 mysqldump 命令解决mysql8密码验证问题解决密码插件警告 问题描述 由于,使用1panel可视化的面板来部署springboot项目,可以很方便地安装和使用mysql,…...
正文Delphi XE Android下让TMemo不自动弹出键盘
用TMemo来显示一段说明文字,可一点Memo,就弹出键盘,找了半天控制键盘的属性,没找到。最后将readOnly设置为True搞定。 如果需要一个form都不显示keyboard,那么可以利用全局变量 VKAutoShowMode来控制,这个全局变量可以有下面三个值…...

[1Panel]开源,现代化,新一代的 Linux 服务器运维管理面板
测评介绍 本期测评试用一下1Panel这款面板。1Panel是国内飞致云旗下开源产品。整个界面简洁清爽,后端使用GO开发,前端使用VUE的Element-Plus作为UI框架,整个面板的管理都是基于docker的,想法很先进。官方还提供了视频的使用教程&…...

PG集合查询
1.运算符 1.1 union并集 连接上下语句 union distinct连接并且去重 all不去重 1.2 intersect交集 上下交集 distinct连接并且去重 all不去重 1.3 except除外 上面除了下面 distinc去重 all不去重...

目标检测应用场景和发展趋势
参考: 目标检测的未来是什么? - 知乎 (zhihu.com)https://www.zhihu.com/question/394900756/answer/32489649815大应用场景 1 行人检测: 遮挡问题:行人之间的互动和遮挡是非常常见的,这给行人检测带来了挑战。非刚性…...

Confluence 自定义博文列表
1. 概述 Confluence 自有博文列表无法实现列表自定义功能,实现该需求可采用页面中引用博文宏标签控制的方式 2. 实现方式 功能入口: Confluence →指定空间→创建页面 功能说明: (1)页面引用博文宏 (…...
chrome历史版本下载
chrome历史版本下载 windows Google Chrome all versions on Windows linux版本 Google Chrome 64bit Linux版_chrome浏览器,chrome插件,谷歌浏览器下载,谈笑有鸿儒...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录
ASP.NET Core 是一个跨平台的开源框架,用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录,以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...
Leetcode 3576. Transform Array to All Equal Elements
Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现 题目链接:3576. Transform Array to All Equal Elements 1. 解题思路 这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。 至于每一种情况是否可以达到…...

YSYX学习记录(八)
C语言,练习0: 先创建一个文件夹,我用的是物理机: 安装build-essential 练习1: 我注释掉了 #include <stdio.h> 出现下面错误 在你的文本编辑器中打开ex1文件,随机修改或删除一部分,之后…...

家政维修平台实战20:权限设计
目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色…...
HTML前端开发:JavaScript 常用事件详解
作为前端开发的核心,JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例: 1. onclick - 点击事件 当元素被单击时触发(左键点击) button.onclick function() {alert("按钮被点击了!&…...
Unit 1 深度强化学习简介
Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
JavaScript基础-API 和 Web API
在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...

免费PDF转图片工具
免费PDF转图片工具 一款简单易用的PDF转图片工具,可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件,也不需要在线上传文件,保护您的隐私。 工具截图 主要特点 🚀 快速转换:本地转换,无需等待上…...