多元算力如何满足万千本土化场景需求,解析第四代至强核心加速器设计
作者 | 宋慧
出品 | CSDN 云计算
2023 年初,英特尔重磅发布了企业级芯片领域重要的产品——第四代英特尔® 至强® 可扩展处理器。当时报道中,我们就重点提到了其中重要的七大内置加速器,这也是英特尔为千行百业多种创新场景去提供算力支持的底气。
在第四代至强处理器发布后,英特尔的技术团队也马不停蹄,继续在用户的真实场景里探索、优化加速器的最佳实例。近期,英特尔工程师团队详细对媒体分享了其中几个加速器在实践中的设计思路,以及目前在国内用户系统中实际应用的案例。
首先,除了第四代至强处理器发布时推出的七大加速器,之后英特尔还推出了集成 vRAN Boost 的第四代英特尔至强可扩展处理器,这通用芯片将物理层加速功能完全集成到至强系统芯片(SoC)中,无需外置加速卡。英特尔 vRAN Boost 使得运营商能够在通用虚拟化平台上整合所有基站层,这种虚拟基站,采用通用的处理器实现基站功能,将带来可观的性价比提升,所以英特尔 vRAN Boost 也是继七大加速器之后,第四代至强处理器的新增助力。
这里,我们再列一下七大加速器的详细资料:
- 英特尔® 高级矩阵扩展(英特尔® AMX):可大幅提高深度学习训练和推理性能,性能可提升至 10 倍,非常适合自然语言处理、推荐系统和图像识别等工作负载。
- 英特尔® 动态负载均衡器(英特尔® DLB):实现了在多个 CPU 内核 / 线程上高效地分配网络处理,根据系统负载的变化而动态地在多个 CPU 内核上分配网络数据以进行处理,并能够还原在多个 CPU 内核上同时处理网络数据包的顺序,显著提升网络工作负载的系统级处理性能,时延降低 96%。
- 英特尔® 数据流加速器(英特尔® DSA):专为卸载常见的、会导致数据中心规模部署开销的数据移动任务所设计,能够帮助加速 CPU、内存和缓存,以及所有附加的内存、存储和网络设备之间的数据移动,可将存储、网络和数据密集型工作负载的性能提升至 1.7 倍。
- 英特尔® 存内分析加速器(英特尔® IAA):可在提高查询吞吐量的同时减少内存占用,非常适合内存数据库、开源数据库以及 RocksDB 和 ClickHouse 等数据存储工作,性能可提升至 3 倍。
- 英特尔® 数据保护与压缩加速技术(英特尔® QAT):作为内置加速器,其可通过卸载加密、解密和压缩释放处理器内核,从而让系统能够支持更多客户端运行或实现降低能耗的目的。得益于英特尔® QAT 加速器,第四代英特尔® 至强® 可扩展处理器已成为为单一数据流压缩并加密数据性能最高的 CPU。
- 英特尔® 安全技术:通过英特尔 软件防护扩展(英特尔® SGX)和英特尔® 全内存机密技术(英特尔® TME)对工作负载进行保护;借助英特尔® 密码操作硬件加速(英特尔® Crypto Acceleration)加速加密运算;利用英特尔® 内存故障管理技术(英特尔® MRT)实现预测性安全保护;并通过英特尔® 平台固件弹性技术(英特尔® PFR)完成平台安全启动。
- 英特尔® 至强® CPU Max 系列:集成高带宽内存,能够在无需变更代码的情况下为科学计算工作负载加速。
其中,英特尔® 高级矩阵扩展(以下简称 AMX),是创新性地第一次在 CPU 平台上应用了用于矩阵运算的单元。以往如果要做大数据、人工智能等数据密集型的业务,CPU 上的计算单元(如 AVX-512)运算单元为向量型,第四代至强 CPU 引入了硬件矩阵的积存器 Tiles,同时还有配合硬件寄存器的运算单元,最终实现每一个 CPU 指令都可以进行矩阵运算。AMX 计算单元支持两种数据精度,分别是 8bit 的整形数据与 16bit 的浮点数据(BF16)。最终在 AI 训练和推理中,AMX 就可以支持不同数据精度如 BF16、INT8,去高效完成 AI 任务。
具体应用案例,则是用在阿里的地址标准化研究,以及其中的语义分析中。英特尔与阿里合作采用了第四代至强的 AMX(INT8 数据类型的精度),同时有软件运算时层级融合技术,以及英特尔开发的高性能运算优化库,最终相比基于第三代 Ice Lake 的整机,性能提升到原来的 2.48 倍。另外,还有阿里手淘首页搜索业务、部署于腾讯云的太极机器学习平台支撑的搜索业务等,得益于AMX,性能均获得了 2-3 倍的提升。
另外,针对大数据、内存分析类型数据库等数据场景,则有英特尔® 存内分析加速器(英特尔® IAA,以下简称 IAA)可以应用。IAA 从底层操作系统到虚拟化层形成了完整的软件栈,以用户态 QPL 库去操作 IAA 硬件,并针对 Clickhouse、MongoDB 做优化,最终可以用于数据压缩、解压、查询、过滤等工作负载。例如,以往 Clickhouse 常用 LZ4软件压缩算法,而英特尔采用 IAA Deflate 硬件加速,查询性能提升40%,同时压缩率提升 42%,最终帮助用户提升性能,节省磁盘、带宽、内存的成本和使用。
以上仅是少数应用案例,英特尔的七大加速器针对各类行业、技术应用场景的优化设计还有许多,一篇文章无法全面概述。而所有这些设计和追求,最终是为了实现更高效率、更低成本和能耗的数字化转型及创新应用落地。这种软硬协同、优化加速的设计思路,值得开发者多多关注参考,CSDN 将持续报道数字化转型的核心技术。
相关文章:

多元算力如何满足万千本土化场景需求,解析第四代至强核心加速器设计
作者 | 宋慧 出品 | CSDN 云计算 2023 年初,英特尔重磅发布了企业级芯片领域重要的产品——第四代英特尔 至强 可扩展处理器。当时报道中,我们就重点提到了其中重要的七大内置加速器,这也是英特尔为千行百业多种创新场景去提供算力支持的底气…...
SPI主模式切换为从模式
一、SPI主模式切换为从模式在SPI总线上,要将主设备转换为从设备或者将从设备转换为主设备,需要通过改变SPI控制寄存器的配置来实现。下面分别介绍SPI主模式切换为从模式的步骤:配置从设备的SPI控制寄存器首先需要配置从设备的SPI控制寄存器。…...

IMX6ULL学习笔记(21)——MMDC接口使用(DDR3测试)
一、MMDC简介 MMDC 接口与 STM32 的 FSMC 接口类似,只不过 MMDC 接口专用于外接 DDR,并且 MMDC 外部引脚不复用。MMDC 是一个多模的 DDR 控制器,可以连接 16 位宽的 DDR3/DDR3L、16 位宽的 LPDDR2。 MMDC 是一个可配置、高性能的 DDR 控制器。…...
机器学习——无监督学习
机器学习的分类一般分为下面几种类别:监督学习( supervised Learning )无监督学习( Unsupervised Learning )强化学习( Reinforcement Learning,增强学习)半监督学习( Semi-supervised Learning )深度学习(Deep Learning)Python Scikit-learn. http: // …...

python+opencv生成较真实的车牌号码图片
本文参考github代码:https://github.com/loveandhope/license-plate-generator 效果: 一、代码目录结构: background目录下存放各种背景图片 font目录下存放车牌中文、字符的ttf字体 images目录下存放蓝色底牌、新能源绿色底牌、污渍&#…...
3.26周报
周报 代码行数: 周一 581 周二 601 周三 615 周四 591 周五 570 周六 561 周日 577 遇到的问题: 项目启动很慢,要将近5分钟才能开启项目,对开发造成很大困扰。 断点打在奇怪的地方,造成启动缓慢。断点…...
从0开始学python -69
Python math 模块 Python math 模块提供了许多对浮点数的数学运算函数。 math 模块下的函数,返回值均为浮点数,除非另有明确说明。 如果你需要计算复数,请使用 cmath 模块中的同名函数。 要使用 math 函数必须先导入: import…...
HashMap中HashCode的实现原理
代码 static final int hash(Object key) {int h;return (key null) ? 0 : (h key.hashCode()) ^ (h >>> 16);}1. h >>> 16 是什么,有什么用? h是hashcode。h >>> 16是用来取出h的高16,(>>>是无符号右移) 如下展…...

Redis —Set、ZSet介绍和应用场景
Set 概念 Redis的set是一个不重复、无序并唯一的键值集合。(方便管理无序集合)它支持交集、并集、差集等等 set和list区别 List 可以存储重复元素,Set 只能存储非重复元素;List 是按照元素的先后顺序存储元素的,而…...

【产品人卫朋】内容运营:文章点击量少的可怜,该怎么做?
今天来谈谈内容运营这个话题。 随着自媒体进入视播时代,也就是短视频的时代。 无论你打开任何一个短视频应用,每一个主题下面都会有成千上万个视频。 最为致命的是,大家停留的时间也越来越短了。 如果你不能在2秒的时间内吸引眼球,…...

【K8S系列】深入解析无状态服务
目录 序言 1. 无服务介绍 1.1 优点 1.2 使用场景 1.3 资源类型 1.4 总结 2 使用介绍 2.1 Deployment 使用场景: 2.2 ReplicaSet 使用场景 2.3 pod Pod 资源定义示例 2.4 service 创建一个Deployment: 创建一个Service: 总结…...
Node基础--命令窗口
1.Windows命令行窗口(叫做:小黑屏、cmd窗口、终端、shell) (1).如何打开命令行窗口 开始菜单 -- 运行 --- cmd --- enter win R -- cmd --- enter (2).cmd窗口常用指令 dir 列出当前目录下的所有文件 cd 目录名 进入到指定的目录 md 目录名 …...
一些有趣的项目
一个支持交互的展示卷积过程的可视化工具 https://github.com/pwwang/cnn-convoluter 一款简单易用基于 Python scikit 的推荐系统https://github.com/NicolasHug/Surprise 一个封装了 7 种启发式算法的 Python 代码库。分别是:差分进化算法、遗传算法、粒子群算法…...

教你精通JavaSE语法之第六章、数组的使用
一、数组的定义与使用 😁1.1数组的概念📌数组:可以看成是相同类型元素的一个集合。在内存中是一段连续的空间,可以同来存储同种数据类型的多个值。但是数组容器在存储数据的时候,需要结合隐式转换考虑。比如࿱…...

基于51单片机AT89C51的小型音乐喷泉控制系统设计
wx供重浩:创享日记 对话框发送:单片机小喷泉 获取完整无水印论文报告(内含电路原理图和程序) 根据目前音乐喷泉的发展现状,介绍了一个以AT89C51单片机为核心的小型音乐喷泉控制系统。给出了一个简洁的单片机控制电路&a…...

【Nacos】Nacos原理详解(注册中心,配置中心)
文章目录一、背景二、CAP理论三、什么是NacosNacos 服务注册需要具备的能力:Nacos的实现原理:四、Nacos原理Nacos 服务注册与订阅的完整流程服务领域模型五、注册中心原理六、配置中心原理七、Nacos 的关键特性包括:八、 面试分析一、背景 服务注册中心…...

蓝桥杯刷题冲刺 | 倒计时11天
作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录1.质因子2.蓝桥王国1.质因子 题目 链接: 1545. 质因子 - AcWing题库 给定一个整数 N…...

【新】(2023Q2模拟题JAVA)华为OD机试 - 时间格式化
最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧本篇题解:时间格式化 题目 运维工程师…...

MySQL函数
函数 MySQL函数与其存储过程类似,是一系列完成某种功能的SQL语句。函数一旦定义后,与过程一样是存储在MySQL的服务器上。调用函数就是一次性执行这些语句。所以函数可以降低语句重复。 MySQL本身提供了内置函数,这些函数的存在给我们日常的开…...

【Linux系统】开发工具(下) {调试器gdb,自动化构建工具make/Makefile,多文件编译,代码管理平台git}
【Linux系统】开发工具(上) {软件包管理器yum,更新yum源,文本编辑器vim,vim的三种基本模式,vim指令集,代码编译器gcc/g} 四、Linux调试器:gdb 4.1 debug模式 程序的编译模式有两种,debug模式和…...
Python|GIF 解析与构建(5):手搓截屏和帧率控制
目录 Python|GIF 解析与构建(5):手搓截屏和帧率控制 一、引言 二、技术实现:手搓截屏模块 2.1 核心原理 2.2 代码解析:ScreenshotData类 2.2.1 截图函数:capture_screen 三、技术实现&…...

为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?
在建筑行业,项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升,传统的管理模式已经难以满足现代工程的需求。过去,许多企业依赖手工记录、口头沟通和分散的信息管理,导致效率低下、成本失控、风险频发。例如&#…...
2024年赣州旅游投资集团社会招聘笔试真
2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

【第二十一章 SDIO接口(SDIO)】
第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...
python如何将word的doc另存为docx
将 DOCX 文件另存为 DOCX 格式(Python 实现) 在 Python 中,你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是,.doc 是旧的 Word 格式,而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践
6月5日,2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席,并作《智能体在安全领域的应用实践》主题演讲,分享了在智能体在安全领域的突破性实践。他指出,百度通过将安全能力…...

EtherNet/IP转DeviceNet协议网关详解
一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...