当前位置: 首页 > news >正文

算力基础篇:从零开始了解算力

什么是算力

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。

图1:信息处理过程
图1:信息处理过程

随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。当前行业中讨论的算力,狭义上可理解为CPU、GPU等芯片的计算能力,广义上可理解为芯片技术的计算能力,内存、硬盘等存储技术的存力,以及操作系统、数据库等软件技术的算法的三者集合。

算力的分类

随着数字经济时代的到来,算力发展迎来高潮,广泛应用于各个领域,其中包括但不限于日常消费领域、人工智能领域、半导体技术领域。不同应用场景对算力的需求各异,需要不同类型的算力支撑。目前算力主要分为通用算力、智能算力和超算算力。未来还会出现比传统计算更高效、更快速的新一代算力,例如量子算力等。

通用算力

通用算力主要以CPU为代表,即CPU芯片执行计算任务时所表现出的计算能力。不同架构的CPU计算能力不同,因为CPU算力受核心数量、主频、缓存大小等多种因素影响。目前可以根据DMIPS指标来衡量CPU性能。该指标表示CPU每秒能执行多少百万条Dhrystone指令。

分类

特点

引领者

优劣势

x86

复杂指令集、单核能力强

Intel、AMD、海光、兆芯

软件生态好,占有率高;

指令集实现复杂,功耗高

ARM

精简指令集、追求多核、低功耗

安谋、高通、Amazon

授权厂商多,能效比高;软件生态劣于x86

MIPS

精简指令集、低功耗

龙芯

软件生态弱、市占率正在下降

Power

单核能力强、高可靠性、高成本

IBM

IBM掌控技术,应用于金融领域

RISC-V

精简指令集

RISC-V基金会、阿里巴巴、兆易创新

完全开放开源、模块化、可扩展

Alpha

精简指令集、速度快

申威

软件生态弱,市占率小

通用算力计算量小,但能够提供高效、灵活、通用的计算能力。因为CPU的架构属于少量的高性能核心结构,即核心数量少,但核心频率高,更加擅长处理复杂的逻辑判断和串行计算的单线程任务,如操作系统的管理、应用程序的执行以及各类后台服务等。而这样的设计在面对大规模并行计算任务时则显得力不从心。

图2:CPU架构图
图2:CPU架构图

智能算力

智能算力主要以GPU、FPGA、ASIC芯片为代表。每种类型的芯片具有各自的特点和优势。

  • GPU(Graphics Processing Unit,图形处理器):GPU在设计之初用于图形渲染,即同时处理大量简单的计算任务。不同于CPU的少量高性能核心架构,GPU拥有大量的核心数但较小的控制单元和缓存,能够完成高度并行的计算任务。GPU主要应用在机器学习的训练阶段,因为机器学习的操作并不依赖于复杂指令,而是大规模的并行计算。

  • 图3:CPU和GPU的架构对比
    图3:CPU和GPU的架构对比
  • FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列):FPGA是在PAL、GAL 等可编程器件的基础上进一步发展的产物。FPGA是半定制集成电路,具有可重配置的逻辑结构。其内部的电路不是硬刻蚀的,而是可以通过HDL(硬件描述语言)编程来重新配置。这种可编程灵活性使其可以完成人工神经网络的特定计算模式,轻松升级硬件以适应AI场景中新的应用需求。除此以外,FPGA的每个组件功能在重新配置阶段都可以定制,因此在运行时无需指令,可显著降低功耗并提高整体性能。

    图4:FPGA和ASIC制作流程图
    图4:FPGA和ASIC制作流程图
  • ASIC(Application-Specific Integrated Circuit,应用特定集成电路):ASIC是专为满足特定需求而设计的全定制集成电路芯片。ASIC的优势在于其能够针对特定任务进行深度优化,从而实现更高的性能和更低的功耗。一旦量产,其单位成本会显著降低,尤其适合于大规模生产和应用。然而,ASIC设计周期长、成本高,一旦设计完成,很难进行修改或升级以适应新的应用需求。因此,在选择使用ASIC还是FPGA时,需要根据具体的应用场景和需求进行权衡。对于需要高性能、低功耗且应用场景相对固定的系统,ASIC可能是更好的选择;而对于需要快速适应新技术和市场需求变化的应用场景,FPGA则更具优势。

GPU、FPGA、ASIC能力对比表格:

GPUFPGAASIC
并行计算能力强大灵活配置高效但定制
灵活性较低(专用于图形和计算)高(可编程)低(定制后固定)
功耗适中
成本中等高(设计和制造)
整体性能中等(因可重置而消耗芯片资源)非常高(高度定制针对性强 )
应用领域图形处理、机器学习等实时计算、原型设计等特定应用场景(如数据中心)

超算算力

超算即超级计算,又称高性能计算 (HPC),利用并行工作的多台计算机系统的集中式计算资源,通过专用的操作系统来处理极端复杂的或数据密集型的问题。超算算力则是由这些超级计算机等高性能计算集群所提供的算力,主要应用于尖端科研、国防军工等大科学、大工程、大系统中,是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。目前,美国的Frontier以 1.206 EFlop/s的HPL性能位居全球超级计算机Top500榜第一,达到了E级计算。

中国信息通信研究院结合业内实践和设想,提出了超算参考架构,由计算系统、存储系统、网络系统、管理系统、安全系统五部分构成。

  • 计算系统:由CPU和异构加速卡计算节点共同组成。

  • 存储系统:采用分布式存储,可提供PB级别以上的容量来进行数据和算据存储。

  • 网络系统:分为存储网络、业务网络以及监控网络等多个网络平面,实现超算系统间各个硬件设备以及子系统间的通信互联。

  • 管理系统:包括资源与业务监控、告警监控、可视化等功能。

  • 安全系统:由防火墙、负载均衡、堡垒机、抗DDoS、日志审计、漏洞扫描、DNS服务器等设备组成。

    图5:超算核心硬件架构
    图5:超算核心硬件架构

新一代算力

自人工智能加速应用后,算力需求激增,人们很难保证在未来经典计算能一直满足指数级的算力增长并应用于重大计算问题。于是在全球科技竞争加剧、数字经济快速发展以及新兴技术的推动下出现了以量子计算为代表的新一代算力。

量子计算运用量子态的叠加性,使得量子比特拥有更强的信息编码能力,并可实现多个量子比特的量子纠缠,性能上限远超经典计算。量子计算机使用亚原子粒子的物理学领域来执行复杂的并行计算,从而取代了当今计算机系统中更简单的晶体管。传统计算机中的字符,要么打开,要么关闭,要么是 1,要么是 0。而在量子比特计算中,计算单元是可以打开,关闭或之间的任何值。量子比特的“叠加态”能力,为计算方程增加了强大的功能,使量子计算机在某种数学运算中更胜一筹。

图6:经典比特与量子比特
图6:经典比特与量子比特

目前阿里巴巴、Google、Honeywell、IBM 、IonQ 和 Xanadu 等少数几家公司都运营着量子计算机,但仍存在退相干、噪声与误差、可扩展性等问题,处于硬件开发的早期阶段。根据专家预测,想要进入量子计算机真正有用的高保真时代,还得需要几十年。

数据中心算力组成

数据中心的计算能力主要依赖于服务器。目前CPU类型的服务器几乎部署在所有的数据中心中,而高性能算力GPU等更多的使用在AI应用场景中,小规模部署于部分数据中心中。然而随着机器学习、人工智能、无人驾驶、工业仿真等新兴技术领域的崛起,传统数据中心遭遇通用CPU在处理海量计算、 海量数据时越来越多的性能瓶颈。 在数据中心加快步伐部署48核以及64核心等更高核心CPU来应对激增的算力需求的同时,为了应对计算多元化的需求,越来越多的场景开始引入加速芯片,如前文提到的GPU、 FPGA、 ASIC 等。这些加速硬件承担了大部分的新算力需求。

然而实际上的数据中心是一个汇集大量服务器、存储设备及网络设备的基础设施,数据中心算力是服务器、存储及网络设备合力作用的结果,计算、存储及网络传输能力相互协同才能促使数据中心算力水平的提升。单独讨论服务器的算力水平并不能反映数据中心的实际算力水平。

图7:数据中心网络承载数据处理流程
图7:数据中心网络承载数据处理流程

总之,数据中心是人工智能、物联网、区块链等应用服务的重要载体。数据中心算力水平的提升将会在很大程度上推动全社会总体算力供给,满足各行业数字化转型过程中的算力需求。

数据中心网络设备

以实际情况来说,数据中心的算力水平不仅取决于服务器的算力,同时还会在很大程度上受到网络设备的影响,如果网络设备算力水平无法满足要求,很有可能引发“木桶效应”,拉低整个数据中心的实际算力水平。

星融元CX-N系列交换机可以帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络。

  • 超低时延:所搭载的交换芯片具备业界领先的超低时延能力,最低时延达到400ns左右。

  • 高可靠性:通过MC-LAG、EVPN Multihoming、ECMP构建无环路、高可靠、可独立升级的数据中心网络。

  • RoCEv2能力:全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。

  • RESTful API:支持REST架构的第三方平台和应用都能自动化地管理、调度星融元数据中心网络。

    图8:AI场景组网
    图8:AI场景组网

不论是在AI智算还是HPC高性能计算场景下,CX-N交换机都达到了媲美InfiniBand专用交换机的性能,以下是场景测试数据表:

表一:AIGC场景性能测试结果

带宽

时延

备注

E2E网卡直连

392.95Gb/s

1.95us

E2E跨交换机

392.96Gb/s

2.51us

交换机时延560ns

NCCL网卡直连

371.27GB/s

/

NCCL跨交换机

368.99GB/s

/

CX-N交换机端口利用率95%。

表二:HPC应用测试(对比IB交换机)

HPC应用测试

CX-N交换机

MSB7000

HPC应用

Test1[sec]

Test2[sec]

Test1[sec]

avg[sec]

Test1[sec]

Test2[sec]

Test3[sec]

avg[sec]

WRF

1140.35

1134.64

1128.35

1134.44

1106.72

1099.36

1112.68

1106.25

LAMMPS

341.25

347.19

342.61

343.69

330.47

335.58

332.46

332.83

参考文献:

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgqvv2nAYowLyGBA.pdf

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgk4DrjQYo76ziRQ.pdf

相关文章:

算力基础篇:从零开始了解算力

什么是算力 算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服…...

Redis 万字入门教程

0. 前言 文章已经收录到 GitHub 个人博客项目,欢迎 Star: https://github.com/chenyl8848/chenyl8848.github.io或者访问网站,进行在线浏览: https://chenyl8848.github.io/1. NoSQL 1.1 NoSQL 介绍 NoSQL(Not Only SQL )&…...

LeetCode :LCR 173. 点名

​ ​ 🔥个人主页:guoguoqiang. 🔥专栏:leetcode刷题 ​ ​ LeetCode :LCR 173. 点名 这个题就是缺失的数字,我们可以通过三种方式来解决这个问题。 1.可以通过位异或的方式来找到这个数(相同的数异或为…...

Gin框架操作指南06:POST绑定(下)

官方文档地址(中文):https://gin-gonic.com/zh-cn/docs/ 注:没用过Gin的读者强烈建议先阅读第一节:Gin操作指南:开山篇。 本节继续演示POST绑定,包括将request-body绑定到不同的结构体中&#x…...

LLaMA、llama.cpp和Ollama区别

LLaMA:LLaMA是由Meta(Facebook的母公司)开源的大型语言模型,它提供了不同规模的模型,包括1B、3B、11B和90B等参数规模的版本。LLaMA模型支持多语言对话,并在多个基准数据集上进行了评估,展现出与…...

NDK开发

NDK介绍 app为什么会把代码放到so中 a) C语言历史悠久,有很多现成的代码可用 b) C代码执行效率比Java高 c) Java代码很容易被反编译,而且反编译以后的逻辑很清晰 为什么要学习NDK开发 在安卓的so开发中,其他基本与C/C开发一致&#xff…...

docker overlay 占用空间太大,迁移到 /data/

将 Docker 的 overlay 存储驱动迁移到 /data/ 目录下,可以通过以下步骤完成: 1. 停止 Docker 服务 首先,停止 Docker 服务以确保没有容器在运行,并且数据不会被写入到当前的存储位置。 sudo systemctl stop docker2. 备份现有数…...

Windows性能监控与调优:让电脑运行如飞

一、性能监控 1. 使用任务管理器深入监控 打开任务管理器 我们可以通过按下Ctrl Shift Esc快捷键来打开任务管理器。 或者右键点击任务栏空白处,选择“任务管理器”。 查看性能 在任务管理器中,点击“性能”标签页。 我们可以看到“概览”标签&#x…...

前端响应式布局

1.什么是响应式布局? 响应式布局是一种使网页在不同设备(如手机、平板和桌面)上均能良好显示的设计理念。 2.响应式布局的原理? 通过灵活的网格布局、CSS 媒体查询和弹性单位等技术,实现内容自适应屏幕尺寸变化。 3.响…...

力扣MySQL 1581

先把两张表连接,amount为null 的正是我们需要的,再按customer_id聚合 select Visits.visit_id,customer_id ,Transactions.visit_id ,transaction_id ,amount from Visits left join Transactions on Visits.visit_idTransactions.visit_id 正确代码&…...

就是这个样的粗爆,手搓一个计算器:科学计算器

作为程序员&#xff0c;没有合适的工具&#xff0c;就得手搓一个&#xff0c;PC端&#xff0c;移动端均可适用。废话不多说&#xff0c;直接上代码。 HTML: <div class"calculator"><div class"display-wrapper"><div class"display…...

wordpress使用popup弹窗插件的对比

您在寻找最好的 WordPress 弹出插件吗&#xff1f;大多数网站利用某种形状或形式的弹出窗口来将访问者指向他们希望他们去的地方。例如&#xff0c;这可能用于结帐、电子邮件订阅或用于生成潜在客户。 表现 弹出插件会减慢您的网站速度。当插件使用 WordPress 跟踪弹出窗口的…...

开源OpenStack

1.查询HCS基于OpenStack哪个版本开发 2.九大核心组件 OpenStack可以对接FC也可以对接KVM主机&#xff1b;&#xff08;OpenStack 对接华为FusionCompute&#xff0c;一个集群对应 openstack 一台计算主机&#xff09;-引申出nova compute 2.1nova nova两个核心组件nova contro…...

基于Spring Boot+vue技术的导游系统设计与实现

论文下载【免费】基于SpringBootvue技术的导游系统设计与实现资源-CSDN文库 摘 要 本研究背景主要聚焦于当前旅游业信息化、智能化的发展趋势。随着移动互联网的普及和人们出行方式的多样化&#xff0c;导游系统作为旅游服务的重要组成部分&#xff0c;亟需进行技术革新以提…...

软件测试 —— 灰度测试及测试流程!

软件测试中的灰度测试是一种结合了黑盒测试和白盒测试特点的测试方法&#xff0c;旨在通过逐步扩大测试范围来评估新系统或新功能在真实环境中的性能和稳定性。灰度测试是软件开发过程中的一个重要环节&#xff0c;它有助于在全面发布前发现并修复潜在问题&#xff0c;同时收集…...

中科星图GVE(案例)——AI实现光伏面板提取

目录 简介 函数 gve.Services.AI.solarExtraction(image) 代码 结果 知识星球 机器学习 简介 光伏面板提取是一种将光伏面板从图像或视频中准确地分割出来的任务&#xff0c;可以通过使用深度学习算法来实现。 以下是一种基于深度学习的光伏面板提取的实现步骤&#x…...

一种压缩QRCode矩阵以用于存储的方法

通常QRCode由服务器生成&#xff0c;以图片格式发送到客户端&#xff0c;由客户端直接展示&#xff0c;也可以由客户端使用javascript或其他内置的SDK直接生成。 0、需求 QRCode生成过程中往往是先生成矩阵&#xff0c;然后使用矩阵生成图片&#xff0c;矩阵就是由01组成的一…...

鸿蒙HarmonyOS开发:系统服务

拨打电话 call.makeCall 跳转到拨号界面&#xff0c;并显示待拨出的号码。使用callback异步回调。 makeCall(phoneNumber: string, callback: AsyncCallback<void>): voidimport { call } from kit.TelephonyKit;import { BusinessError } from kit.BasicServicesKit;c…...

【Go】GO语言知识总结浅析

Go语言是一种现代化的编程语言&#xff0c;由Google于2007年设计并于2009年发布。它旨在使编程变得简单、高效&#xff0c;并且可以在多核处理器上轻松构建高性能应用。Go语言的编程思想、发展历史、版本特点、运行原理、数据类型、应用场景&#xff0c;以及在web开发、网络编程…...

GWO-Transformer-LSTM灰狼算法优化深度学习多变量回归预测(Maltab)

GWO-Transformer-LSTM灰狼算法优化深度学习多变量回归预测&#xff08;Maltab&#xff09; 目录 GWO-Transformer-LSTM灰狼算法优化深度学习多变量回归预测&#xff08;Maltab&#xff09;效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现灰狼算法OOA-Transf…...

上市公司企业供应链抵抗力数据集(2012-2023年)

一、测算方式&#xff1a;参考《财经研究》张树山&#xff08;2024&#xff09;老师的做法&#xff0c;供应链抵抗力&#xff08;Resis&#xff09;体现了供应链运行状态的稳定性&#xff0c;即在应对外部扰动时&#xff0c;供应链仍能维持循环畅通。本文从稳固供应链关系来筛选…...

javaWeb项目-ssm+jsp-XX牙科诊所管理系统功能介绍

本项目源码&#xff08;点击下方链接下载&#xff09;&#xff1a;java-ssmjsp私人牙科诊所管理系统实现源码(项目源码-说明文档)资源-CSDN文库 项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&…...

tcp_rmem中有三个值4896 131072 6291456是什么意思,有什么作用?

在 TCP 中&#xff0c;tcp_rmem参数的三个值分别具有以下含义和作用&#xff1a; 一、含义 “4896”&#xff1a; 通常代表 TCP 接收缓冲区的最小大小。这是接收端为接收数据预先分配的最小内存空间。当网络中数据量较小时&#xff0c;这个最小缓冲区可以确保有足够的空间来存储…...

转行AI产品经理:高薪诱惑,年薪90万不是梦!

近期有很多社招的小伙伴都在看转行的机会&#xff0c;同时马上要到了秋招的季节&#xff0c;校招生们都在积极选择第一份工作。所有人想要进入一个有前景、高薪高潜力的黄金赛道。 2024年如果大家看新机会&#xff0c;重点给大家推荐AI领域的岗位。先看一组数据&#xff1a; …...

javaWeb项目-ssm+jsp股票交易管理系统功能介绍

本项目源码&#xff08;点击下方链接下载&#xff09;&#xff1a;java-ssmjsp股票交易管理系统实现源码(项目源码-说明文档)资源-CSDN文库 项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff…...

CentOS上安装SSL证书教程

在 CentOS 上&#xff0c;apt-get 是不可用的&#xff0c;因为 CentOS 使用的是 yum 或 dnf 包管理器。你可以通过 yum 或 dnf 安装 certbot 和 python3-certbot-nginx。以下是详细的步骤&#xff1a; 1. 启用 EPEL&#xff08;Extra Packages for Enterprise Linux&#xff0…...

单目相机和双目相机定位

1、单目相机 1.1模型 单目相机成像模型为小孔成像&#xff0c;涉及的坐标系包括世界坐标系、相机坐标系、图像坐标系以及像素坐标系。坐标系之间的转换关系如下&#xff1a; 1.2参数求解 张正友相机标定方法、设定世界坐标系精确求解 2、双目相机 2.1、模型 一般双目立体视…...

【Cadence27】HDL拷贝工程➕Allegro导出DXF和3D文件STP

【转载】Cadence Design Entry HDL 使用教程 【Cadence01】Cadence PCB Edit相对延迟与绝对延迟的显示问题 【Cadence02】Allegro引脚焊盘Pin设置为透明 【Cadence03】cadence不小心删掉钢网层怎么办&#xff1f; 【Cadence04】一般情况下Allegro PCB设计时的约束规则设置&a…...

拓扑学与集合论的关系

目录 1. 关于拓扑学的概念 2. 集合论和拓扑学的关系 3. 拓扑空间 1. 关于拓扑学的概念 汉译的“拓扑学”对应的英文是“topology”&#xff0c;更贴近其本义的翻译有“地志学”、“位相学”、等等&#xff0c;其原本词义是表示“研究位置分布的学科”。“topo-”表示…...

设计模式——代理模式(6)

一、写在前面 结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式&#xff0c;前者采用继承机制来组织接口和类&#xff0c;后者釆用组合或聚合来组合对象。由于组合关系或聚合关系比继承关系耦合度低&#xff0c;满足“合成复用原则…...