当前位置：首页 > news >正文

NUMA架构及在极速网络IO场景下的优化实践

news 2026/5/12 3:09:12

NUMA技术原理

NUMA架构概述

随着多核CPU的普及，传统的对称多处理器（SMP）架构逐渐暴露出性能瓶颈。为了应对这一问题，非一致性内存访问（NUMA, Non-Uniform Memory Access）架构应运而生。NUMA架构是一种内存架构模型，旨在解决SMP架构下多核处理器扩展带来的内存访问延迟问题。

NUMA架构的结构

在NUMA架构中，物理内存被划分为多个NUMA节点（Node），每个节点包含一组CPU核心、本地内存、以及可能的其他资源（如PCIe总线系统）。节点之间通过高速互连（如QPI、HyperTransport等）进行通信。每个节点内的CPU核心可以直接访问本节点的本地内存，访问速度较快，而访问其他节点的远程内存则需要通过互连结构，速度相对较慢。

NUMA架构的特点

非一致性内存访问：不同CPU核心访问不同节点内存的速度不同，访问本地节点内存最快，访问远程节点内存较慢。
节点独立性：每个NUMA节点相对独立，拥有自己的CPU核心、内存和可能的I/O资源。
可扩展性：NUMA架构支持系统的水平扩展，可以通过添加更多节点来增加处理能力和内存容量。

NUMA架构的优势

提高内存访问速度：通过允许每个CPU核心快速访问本地内存，减少了内存访问延迟。
提高系统整体性能：NUMA架构能够显著降低内存访问冲突，提高系统并行处理能力。
增强系统可扩展性：支持系统的水平扩展，无需对现有硬件或软件架构进行重大改动。

NUMA架构与多核CPU的关系

在NUMA架构中，多核CPU被划分到不同的NUMA节点中。每个节点内的CPU核心可以高效地访问本地内存，而访问远程内存则相对较慢。这种设计使得多核CPU在处理大规模数据集时能够保持较高的性能，同时避免了SMP架构下的内存访问瓶颈。

NUMA架构在极速网络IO场景下的优化策略

在极速网络IO场景下，系统需要处理大量的网络数据包，这对内存访问速度和处理器性能提出了极高的要求。NUMA架构通过优化内存访问和处理器资源分配，可以在这种场景下显著提高系统性能。

1. 内存亲和性优化

内存亲和性是指将进程或线程绑定到特定的NUMA节点上，以减少跨节点内存访问的延迟。在极速网络IO场景下，可以通过以下步骤实现内存亲和性优化：

步骤一：确定网络设备的NUMA节点

首先，需要确定网络设备（如网卡）所属的NUMA节点。这可以通过读取系统文件来完成，例如：

cat /sys/class/net/eth0/device/numa_node

假设输出为0，表示eth0网卡属于NUMA节点0。

步骤二：绑定进程到特定节点

使用numactl工具将处理网络数据包的进程绑定到与网卡相同的NUMA节点上。例如：

numactl --cpunodebind=0 --membind=0 ./network_processing_app

这样，network_processing_app进程将只在NUMA节点0的CPU核心上运行，并访问该节点的本地内存。

步骤三：验证设置

使用numactl --show命令可以查看当前进程的NUMA资源分配情况，确保设置生效。

2. CPU资源优化

为了避免CPU资源竞争，提高处理器利用率，可以采取以下措施：

合理分配CPU核心

根据网络IO的负载情况，合理分配CPU核心给不同的进程或线程。例如，可以使用taskset命令将进程绑定到特定的CPU核心上：

taskset -c 0-3 ./network_processing_app

这将network_processing_app进程绑定到NUMA节点0的前四个CPU核心上。

启用超线程技术

如果处理器支持超线程技术，可以启用它以增加可用的逻辑CPU核心数。超线程技术允许单个物理核心同时处理多个线程，从而提高并行处理能力。

避免过载

监控CPU使用率，避免单个节点上的CPU过载。可以通过负载均衡策略将负载分散到多个节点上，确保每个节点的CPU资源得到充分利用。

3. 网络数据包处理优化

为了优化网络数据包的处理，可以采取以下措施：

使用多队列网卡

多队列网卡可以将网络数据包分散到多个接收队列上，从而提高数据包的处理速度。确保操作系统和网卡驱动程序支持多队列功能，并配置相应的参数。

启用RSS（Receive Side Scaling）

RSS可以将接收到的网络数据包分散到多个CPU核心上进行处理，从而提高处理效率。在Linux系统中，可以通过配置/sys/class/net/ethX/queues/rx-X/rps_cpus来启用RSS。例如：

echo f - > /sys/class/net/eth0/queues/rx-0/rps_cpus
echo f - > /sys/class/net/eth0/queues/rx-1/rps_cpus
# 重复上述命令，为所有接收队列配置rps_cpus

优化中断处理

减少中断处理的时间开销，可以提高网络IO的处理速度。可以通过调整中断亲和性、使用MSI-X中断等技术来优化中断处理。例如，将中断绑定到特定的CPU核心上：

echo 1 > /proc/irq/X/smp_affinity

其中X是网卡的中断号，1表示将中断绑定到CPU核心0上。

4. 应用层优化

在应用层，可以采取以下措施来优化网络IO性能：

使用非阻塞IO模型

在高并发场景下，使用非阻塞IO模型可以减少线程或进程的数量，降低上下文切换的开销。例如，在Linux系统中可以使用epoll、kqueue等非阻塞IO机制。

IO多路复用

使用IO多路复用技术可以高效地处理多个网络连接。例如，在C语言中可以使用epoll来监听多个网络连接：

#include <sys/epoll.h>
#include <unistd.h>
#include <fcntl.h>int main() {int epoll_fd = epoll_create1(0);struct epoll_event events[MAX_EVENTS];struct epoll_event ev;int socket_fd = socket(AF_INET, SOCK_STREAM, 0);// 配置socket_fd为非阻塞模式fcntl(socket_fd, F_SETFL, O_NONBLOCK);ev.events = EPOLLIN;ev.data.fd = socket_fd;epoll_ctl(epoll_fd, EPOLL_CTL_ADD, socket_fd, &ev);while (1) {int n = epoll_wait(epoll_fd, events, MAX_EVENTS, -1);for (int i = 0; i < n; i++) {if (events[i].data.fd == socket_fd) {// 处理网络数据包}}}close(epoll_fd);close(socket_fd);return 0;
}

批量处理

将多个网络数据包合并成一批进行处理，可以减少系统调用的次数，提高处理效率。例如，在处理TCP连接时，可以将多个ACK包合并成一个响应包发送出去。

网络IO极速优化

场景描述

假设有一个高性能计算集群，每个节点配备多核处理器和大容量内存，节点之间通过高速网络互连。集群中的节点需要处理大量的网络数据包，并进行实时计算。

优化步骤

步骤一：确定网络设备的NUMA节点

使用以下命令查看网络设备的NUMA节点：

cat /sys/class/net/eth0/device/numa_node

假设输出为0，表示eth0网卡属于NUMA节点0。

步骤二：绑定进程到特定节点

将处理网络数据包的进程绑定到NUMA节点0上：

numactl --cpunodebind=0 --membind=0 ./network_processing_app

步骤三：启用多队列网卡和RSS

配置网卡的多队列和RSS功能：

ethtool -L eth0 combined 8
echo f - > /sys/class/net/eth0/queues/rx-0/rps_cpus
echo f - > /sys/class/net/eth0/queues/rx-1/rps_cpus
# 重复上述命令，为所有接收队列配置rps_cpus

步骤四：优化中断处理

将中断绑定到特定的CPU核心上：

echo 1 > /proc/irq/X/smp_affinity

其中X是网卡的中断号，1表示将中断绑定到CPU核心0上。

步骤五：应用层优化

在应用程序中使用非阻塞IO模型和IO多路复用技术。例如，在C语言中使用epoll来监听多个网络连接：

#include <sys/epoll.h>
#include <unistd.h>
#include <fcntl.h>int main() {int epoll_fd = epoll_create1(0);struct epoll_event events[MAX_EVENTS];struct epoll_event ev;int socket_fd = socket(AF_INET, SOCK_STREAM, 0);// 配置socket_fd为非阻塞模式fcntl(socket_fd, F_SETFL, O_NONBLOCK);ev.events = EPOLLIN;ev.data.fd = socket_fd;epoll_ctl(epoll_fd, EPOLL_CTL_ADD, socket_fd, &ev);while (1) {int n = epoll_wait(epoll_fd, events, MAX_EVENTS, -1);for (int i = 0; i < n; i++) {if (events[i].data.fd == socket_fd) {// 处理网络数据包}}}close(epoll_fd);close(socket_fd);return 0;
}

通过上述优化步骤，可以显著提高NUMA架构在极速网络IO场景下的性能。内存亲和性优化减少了跨节点内存访问的延迟，CPU资源优化提高了处理器利用率，网络数据包处理优化和应用层优化则进一步提升了系统的整体性能。

打个结

NUMA架构通过划分物理内存为多个节点，并允许每个节点内的CPU核心高效访问本地内存，从而解决了SMP架构下多核处理器扩展带来的内存访问瓶颈。在极速网络IO场景下，通过内存亲和性优化、CPU资源优化、网络数据包处理优化和应用层优化等策略，可以显著提高NUMA架构的性能。这些优化策略不仅适用于高性能计算集群，也适用于需要处理大量网络数据包的任何场景。通过合理的配置和优化，NUMA架构能够充分发挥多核处理器的优势，提高系统的整体性能和可扩展性。

NUMA架构及在极速网络IO场景下的优化实践

NUMA技术原理 NUMA架构概述随着多核CPU的普及，传统的对称多处理器（SMP）架构逐渐暴露出性能瓶颈。为了应对这一问题，非一致性内存访问（NUMA, Non-Uniform Memory Access）架构应运而生。NUMA架构是一种内存…...

编程日记 2024/11/28 20:12:30

Brain.js 用于浏览器的 GPU 加速神经网络

Brain.js 是一个强大的 JavaScript 库，它允许开发者在浏览器和 Node.js 环境中构建和训练神经网络。这个库的目的是简化机器学习模型的集成过程，使得即使是没有深厚机器学习背景的开发者也能快速上手。概述 Brain.js 提供了易于使用的 API&#xff…...

编程日记 2024/11/28 20:10:28

Linux——用户级缓存区及模拟实现fopen、fweite、fclose

linux基础io重定向-CSDN博客文章目录目录文章目录什么是缓冲区为什么要有缓冲区二、编写自己的fopen、fwrite、fclose 1.引入函数 2、引入FILE 3.模拟封装 1、fopen 2、fwrite 3、fclose 4、fflush 总结前言用快递站讲述缓冲区收件区（类比输…...

编程日记 2024/11/28 20:04:23

视觉感知与处理：解密计算机视觉的未来

文章目录前言1. 计算机视觉的概述2. 计算机视觉的应用3. 运动感知与光流4. 人类视觉感知4.1 大脑中的视觉处理4.2 视觉缺陷与对比4.3 分辨率4.4 视觉错觉5. 图像采集与处理6. 图像处理流程7. 二值图像处理与分割8. 3D 机器视觉系统8.1 主动3D视觉8.2 立体视觉9. 商业机器视觉系…...

编程日记 2024/11/28 20:03:22

【大数据学习 | Spark-Core】广播变量和累加器

1. 共享变量 Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，相当于mapreduce中的counter；而广播变量用来高效分发较大的对象&#xff0c…...

编程日记 2024/11/28 20:01:20

postgresql按照年月日统计历史数据

1.按照日 SELECT a.time,COALESCE(b.counts,0) as counts from ( SELECT to_char ( b, YYYY-MM-DD ) AS time FROM generate_series ( to_timestamp ( 2024-06-01, YYYY-MM-DD hh24:mi:ss ), to_timestamp ( 2024-06-30, YYYY-MM-DD hh24:mi:ss ), 1 days ) AS b GROUP BY tim…...

编程日记 2024/11/28 19:59:18

pywin32库 -- 读取word文档中的图形

文章目录前置操作解析body中的图形解析页眉中的图形前置操作基于pywin32打开、关闭word应用程序； import pythoncom from win32com.client import Dispatch, GetActiveObjectdef get_word_instance():""" 获取word进程实例"""py…...

编程日记 2024/11/28 19:58:17

GitLab使用示例

以下是从新建分支开始，配置 GitLab CI/CD 的完整详细流程，涵盖每个步骤、配置文件路径和具体示例。 1. 新建分支并克隆项目 1.1 在 GitLab 上创建新分支登录 GitLab，进入目标项目页面。依次点击 Repository > Branches。点击右上角 Ne…...

编程日记 2024/11/28 19:56:16

uniapp echarts tooltip formation 不识别html

需求： echarts 的tooltip 的域名太长，导致超出屏幕想要让他换行思路一： 用formation自定义样式实现换行但是： uniapp 生成微信小程序， echart种的tooltip 的formation 识别不了html ，自定义样式没办…...

编程日记 2024/11/28 19:55:15

3D扫描对文博行业有哪些影响？

三维扫描技术对文博行业产生了深远的影响，主要体现在以下几个方面： 一、高精度建模与数字化保护三维扫描技术通过高精度扫描设备，能够捕捉到文物的每一个细节，包括形状、纹理、颜色等，从而生成逼真的3D模型。这些模…...

编程日记 2024/11/28 19:53:13

面试（十一）

目录一.IO多路复用二.为什么有IO多路复用机制? 三.IO多路复用的三种实现方式 3.1 select select 函数接口 select 使用示例 select 缺点 3.2 poll poll函数接口 poll使用示例 poll缺点 3.3 epoll epoll函数接口 epoll使用示例 epoll缺点四. 进程和线程的区别…...

编程日记 2024/11/28 19:52:12

React-useState的使用

useState 是 React 提供的一个 Hook，允许你在函数组件中添加和管理状态（state）。在类组件中，状态管理通常是通过 this.state 和 this.setState 来实现的，而在函数组件中，useState 提供了类似的功能。基本…...

编程日记 2024/11/28 19:51:11

设计模式之破环单例模式和阻止破坏

目录 1. 序列化和反序列化2. 反射这里单例模式就不多说了 23种设计模式之单例模式 1. 序列化和反序列化这里用饿汉式来做例子 LazySingleton import java.io.Serializable;public class LazySingleton implements Serializable {private static LazySingleton lazySinglet…...

编程日记 2024/11/28 19:50:10

11.19c++面向对象+单例模式

编写如下类: class File{ FILE* fp }; 1:构造函数，打开一个指定的文件 2:write函数向文件中写入数据 3：read函数，从文件中读取数据，以string类型返回代码实现： #include <iostream>using namespace std;class…...

编程日记 2024/11/28 19:48:07

一文了解TensorFlow是什么

TensorFlow是一个开源的机器学习框架，由Google开发并维护。它提供了一个灵活且高效的环境，用于构建和训练各种机器学习模型。 TensorFlow的基本概念包括： 张量（Tensor）：TensorFlow中的核心数据结构&#x…...

编程日记 2024/11/28 19:47:06

如何做好一份技术文档?

打造出色技术文档的艺术在当今技术驱动的世界中，技术文档扮演着至关重要的角色。它不仅是工程师和开发人员之间交流的桥梁，更是产品和技术成功的隐形推手。一份优秀的技术文档宛如一张精准的航海图，能够引导读者穿越技术的迷雾，…...

编程日记 2024/11/28 19:45:02

Linux和Ubuntu的关系

Linux和Ubuntu的关系： 1. Linux本身是内核，Ubuntu系统是基于Linux内核的操作系统。 2. Linux内核操作系统的构成： 内核、shell、文件系统、应用程序 -应用程序：文本编辑器等 -文件系统：文件存放在存储设备上的组织方…...

编程日记 2024/11/28 19:38:56

软件工程之静态建模

静态模型：有助于设计包、类名、属性和方法特征标记（但不是方法体）的定义，例如UML类图。用例的关系： 扩展关系： 扩展关系允许一个用例（可选）扩展另一个用例（基用例&…...

编程日记 2024/11/28 19:35:53

PICO VR串流调试Unity程序

在平时写Unity的VR程序的时候，需要调试自己写的代码，但是有的时候会发现场景过于复杂，不是HMD一体机能运行的，或者为了能够更方便的调试，不需要每次都将程序部署到眼睛里，这样非常浪费时间，对于…...

编程日记 2024/11/28 19:33:51

自媒体图文视频自动生成软件｜03｜页面和结构介绍

代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 视频图片生成器一个基于 Python 和 Web 的工具，用于生成带有文字和语音的视频以及图片。支持多种尺寸、…...

编程日记 2024/11/28 19:27:45

InjectFix实战解析：在Unity IL2CPP环境下实现C#热修复的权衡与策略

1. InjectFix在IL2CPP环境下的核心价值当你的Unity手游在应用商店上线后突然出现致命Bug，传统解决方案往往需要重新打包、提交审核、等待上架，这个过程可能耗时数天。而InjectFix提供的C#热修复能力，可以在不更新客户端的情况下快速修复线上…...

编程新知 2026/5/12 2:32:47

Go 里什么时候可以“panic”？

“Don’t panic.” —— Go 谚语但……如果我真的想 panic 呢？在 Go 的世界里，panic() 就像厨房里的灭火器：平时你不会用它炒菜，但如果油锅着火了，你肯定得拉它一把。今天我们就来聊聊：Go 里什么时候 pani…...

编程新知 2026/5/12 1:52:29

Cursor-Buddy：基于AI的Web界面语音交互与视觉引导助手

1. 项目概述与核心价值最近在捣鼓一个挺有意思的开源项目，叫cursor-buddy。简单来说，它是一个能“住”在你鼠标光标里的AI助手，专门为Web应用设计。想象一下，你在浏览一个复杂的后台管理系统或者一个数据看板，突然想找…...

编程新知 2026/5/12 0:42:37

3分钟掌握B站缓存视频转换：m4s-converter终极使用指南

3分钟掌握B站缓存视频转换：m4s-converter终极使用指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的困扰&a…...

编程新知 2026/5/11 23:53:52

别再死记硬背了！用Python+Graphviz把离散数学的图论和关系画出来（附代码）

用PythonGraphviz将离散数学中的抽象概念可视化离散数学是计算机科学的基础课程之一，但其中的图论、二元关系等概念往往因为高度抽象而让学习者感到困惑。传统的死记硬背方式不仅效率低下，也难以真正理解这些概念的本质。本文将介绍如何利用Python的net…...

编程新知 2026/5/11 21:08:23

微通道液冷散热：六类强化结构深度解析

🎓作者简介：科技自媒体优质创作者 🌐个人主页：莱歌数字-CSDN博客 💌公众号：莱歌数字（B站同名） 📱个人微信：yanshanYH 211、985硕士，从业16年从…...

编程新知 2026/5/11 20:22:00

【技术解析】方差分析：从统计表解读到业务决策的实战指南

1. 方差分析：从统计表到业务决策的实战指南第一次接触方差分析时，我也被那些统计术语和公式搞得晕头转向。直到有一次，产品经理拿着A/B测试数据问我："新版页面真的比旧版好吗？好多少？"我才意识到…...

编程新知 2026/5/11 19:26:40

Cookie AutoDelete技术架构解析：深入理解Redux驱动的浏览器扩展实现

Cookie AutoDelete技术架构解析：深入理解Redux驱动的浏览器扩展实现【免费下载链接】Cookie-AutoDelete Firefox and Chrome WebExtension that deletes cookies and other browsing site data as soon as the tab closes, domain changes, browser restarts, or a…...

编程新知 2026/5/11 18:46:41

3个理由告诉你：为什么这款轻量级内存管理工具Mem Reduct能让你的Windows电脑飞起来？

3个理由告诉你：为什么这款轻量级内存管理工具Mem Reduct能让你的Windows电脑飞起来？ 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitc…...

编程新知 2026/5/11 18:19:39

Windows系统mmcndmgr.dll文件丢失无法启动程序解决

在使用电脑系统时经常会出现丢失找不到某些文件的情况，由于很多常用软件都是采用 Microsoft Visual Studio 编写的，所以这类软件的运行需要依赖微软Visual C运行库，比如像 QQ、迅雷、Adobe 软件等等，如果没有安装VC运行库或者安装…...

编程新知 2026/5/11 18:17:22

NUMA技术原理

NUMA架构概述

NUMA架构的结构

NUMA架构的特点

NUMA架构的优势

NUMA架构与多核CPU的关系

NUMA架构在极速网络IO场景下的优化策略

1. 内存亲和性优化

步骤一：确定网络设备的NUMA节点

步骤二：绑定进程到特定节点

步骤三：验证设置

2. CPU资源优化

合理分配CPU核心

启用超线程技术

避免过载

3. 网络数据包处理优化

使用多队列网卡

启用RSS（Receive Side Scaling）

优化中断处理

4. 应用层优化

使用非阻塞IO模型

IO多路复用

批量处理

网络IO极速优化

场景描述

优化步骤

步骤一：确定网络设备的NUMA节点

步骤二：绑定进程到特定节点

步骤三：启用多队列网卡和RSS

步骤四：优化中断处理

步骤五：应用层优化

打个结

相关文章：