当前位置：首页 > news >正文

通信方式、点对点通信、集合通信

news 2026/2/10 10:59:08

文章目录

- 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！
- 通信实现方式：机器内通信、机器间通信
- 通信实现方式：通讯协调
- 通信实现方式：机器内通信：PCIe
- 通信实现方式：机器内通信：NVLink
- 通信实现方式：机器间通信：RDMA（直连模式）
- 通信协调：软件篇
- 通信协调：软件篇：MPI
- MPI：集合通信
- MPI：进程启动与收发数据顺序：broadcast
- MPI：进程启动与收发数据顺序：gather
- 通信协调：软件篇：NCCL
- 点对点通信、集合式通信
- 分布式训练系统
- 集中式通信方式：一对多 broadcast
- 集中式通信方式：一对多 scatter
- 集中式通信方式：多对一 reduce
- 集中式通信方式：多对一 gather
- 集中式通信方式：多对多 all reduce
- 集中式通信方式：多对多 all gather
- 集中式通信方式：多对多 reduce scatter
- 集中式通信方式：多对多 all to all

从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！

通信实现方式：机器内通信、机器间通信

计算机通网络通讯中最重要的两个衡量指标是：带宽、延迟

在这里插入图片描述

内存共享：比如多个应用共享手机里面的同一块内存
PCIe：最明显的方式就是 gpu 与 cpu 之间的通信，大部分都通过之间的PCIe插槽进行的
NVLink（直连模式）：GPU 与 GPU 之间进行一个互通

在这里插入图片描述
Q：不同机柜之间的GPU的访问，不是通过NVSwitch进行全互联的吗。那这个机器间的通信，都传输什么信息呢？通讯、互传数据、等待和同步相关的问题，这些信息是走什么传输的呢？
---- 如果是NVLink通信的话，它应该还是属于机器内通信，而不是机器间通讯（TCP/IP、RDMA）

蓝色的线：通过网线进行连接
AI集群里面，可能更多的用到 RDMA 的网络模型通信

通信实现方式：通讯协调

在这里插入图片描述

通信实现方式：机器内通信：PCIe

在这里插入图片描述

通信实现方式：机器内通信：NVLink

在这里插入图片描述

通信实现方式：机器间通信：RDMA（直连模式）

在这里插入图片描述

（1）左边的图是TCP/IP，右边的是RDMA
（2）左边的几个蓝色方框，在传递的时候需要经过好几次的用户的内存拷贝，对大数据执行起来会非常的缓慢，数据量越大的时候，这个延迟是很难去接受的！
（3）而RDMA新的协议，就是用户直接跳过kernel层，直接传到远端的服务器，数据绕过CPU，直接通过RDMA设备，对远端的虚拟内存直接进行访问读和写；

（4）既然是机器间通信，那么不同机器间是通过以太网连接的
（5）Q：RDMA是通过网线连接的吗？
在这里插入图片描述

通信协调：软件篇

在这里插入图片描述

通信协调：软件篇：MPI

在这里插入图片描述

OSI只是一个模型概念，并不提供具体的实现方法。实际上的网络的标准是TCP/IP

在这里插入图片描述

MPI：集合通信

在这里插入图片描述

在这里插入图片描述

MPI：进程启动与收发数据顺序：broadcast

在这里插入图片描述

MPI：进程启动与收发数据顺序：gather

在这里插入图片描述

优化通信框架的性能，那不就是用到了之前学习到的二叉树的结构了

在这里插入图片描述

通信协调：软件篇：NCCL

在这里插入图片描述
（1）对网络拓扑进行一个感知，topo是长什么样子的，回环是怎么组织的
（2）对网络拓扑进行一个搜索，找到一个最好的通信的策略
（3）使能CUDA的kernel 对数据进行通信

在这里插入图片描述

点对点通信、集合式通信

在这里插入图片描述

在这里插入图片描述

分布式训练系统

在这里插入图片描述

对模型进行切分，每个服务器又需要相互通信，把一个大的网络模型切分成很多小的网络模型，每个小的网络模型之间是相互依赖的，需要就需要跨节点对数据进行同步
涉及到同步，中间的过程就需要通信，跨节点的通信，跨网络的通信，跨卡的通信；

集中式通信方式：一对多 broadcast

（1）把 NPU0 的数据同步到其他 3 份里面
在这里插入图片描述

集中式通信方式：一对多 scatter

在这里插入图片描述

集中式通信方式：多对一 reduce

在这里插入图片描述

集中式通信方式：多对一 gather

在这里插入图片描述

集中式通信方式：多对多 all reduce

在这里插入图片描述

在这里插入图片描述

集中式通信方式：多对多 all gather

在这里插入图片描述

集中式通信方式：多对多 reduce scatter

在这里插入图片描述

集中式通信方式：多对多 all to all

在这里插入图片描述
假设每个NPU上面都有一个A的数据，A的数据在计算完之后，希望进行通讯，都变成一块卡的数据，再进行聚类处理

相关文章：

通信方式、点对点通信、集合通信

文章目录从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！通信实现方式：机器内通信、机器间通信通信实现方式：通讯协调通信实现方式：机器内通信：PCIe通信实现方式：机器内通信：NVLink通信实现…...

编程日记 2025/2/4 10:16:23

TCP编程

1.socket函数 int socket(int domain, int type, int protocol); 头文件：include<sys/types.h>，include<sys/socket.h> 参数 int domain AF_INET: IPv4 Internet protocols AF_INET6: IPv6 Internet protocols AF_UNIX, AF_LOCAL : Local…...

编程日记 2025/2/4 10:14:21

OpenAI 实战进阶教程 - 第七节: 与数据库集成 - 生成 SQL 查询与优化

内容目标学习如何使用 OpenAI 辅助生成和优化多表 SQL 查询了解如何获取数据库结构信息并与 OpenAI 结合使用实操步骤 1. 创建 SQLite 数据库示例创建数据库及表结构： import sqlite3# 连接 SQLite 数据库（如果不存在则创建） conn sq…...

编程日记 2025/2/4 10:13:20

Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码

Apache Iceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。 Iceberg作为数据湖，以支持其机器学习平台中的特征存储。Iceberg的分层结构、快照…...

编程日记 2025/2/4 10:07:14

QT交叉编译环境搭建（Cmake和qmake）

介绍一共有两种方法（基于qmake和cmake）： 1.直接调用虚拟机中的交叉编译工具编译 2.在QT中新建编译套件kits camke和qmake的区别：CMake 和 qmake 都是自动化构建工具，用于简化构建过程，管理编译设置&…...

编程日记 2025/2/4 10:06:13

Turing Complete-成对的麻烦

这一关是4个输入，当输入中1的个数大于等于2时，输出1。那么首先用个与门来检测4个输入中，1的个数是否大于等于2，当大于等于2时，至少会有一个与门输出1，所以再用两级或门讲6个与门的输出取或，得…...

编程日记 2025/2/4 9:59:02

寒假刷题Day20

一、80. 删除有序数组中的重复项 II class Solution { public:int removeDuplicates(vector<int>& nums) {int n nums.size();int stackSize 2;for(int i 2; i < n; i){if(nums[i] ! nums[stackSize - 2]){nums[stackSize] nums[i];}}return min(stackSize, …...

编程日记 2025/2/4 9:56:56

deepseek 本地化部署和小模型微调

安装ollama 因为本人gpu卡的机器系统是centos 7, 直接使用ollama会报所以ollama使用镜像方式进行部署， 拉取镜像ollama/ollama 启动命令 docker run -d --privileged -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama 查看ollama 是否启动…...

编程日记 2025/2/4 9:46:48

【Java异步编程】基于任务类型创建不同的线程池

文章目录一. 按照任务类型对线程池进行分类1. IO密集型任务的线程数2. CPU密集型任务的线程数3. 混合型任务的线程数二. 线程数越多越好吗三. Redis 单线程的高效性使用线程池的好处主要有以下三点： 降低资源消耗：线程是稀缺资源，如果无限…...

编程日记 2025/2/4 9:45:47

makailio-alias_db模块详解

ALIAS_DB 模块作者 Daniel-Constantin Mierla micondagmail.com Elena-Ramona Modroiu ramonaasipto.com 编辑 Daniel-Constantin Mierla micondagmail.com 版权 © 2005 Voice Sistem SRL © 2008 asipto.com 目录管理员指南概述依赖 2.1 Kamailio 模块 2.2 外…...

编程日记 2025/2/4 9:44:45

文字显示省略号

多行文本溢出显示省略号...

编程日记 2025/2/4 9:43:44

[LeetCode] 字符串完整版 — 双指针法 | KMP

字符串基础知识双指针法344# 反转字符串541# 反转字符串II54K 替换数字151# 反转字符串中的单词55K 右旋字符串 KMP 字符串匹配算法28# 找出字符串中第一个匹配项的下标#459 重复的子字符串基础知识字符串的结尾：空终止字符00 char* name "hello"; …...

编程日记 2025/2/4 9:41:42

从零开始部署Dify：后端与前端服务完整指南

从零开始部署Dify：后端与前端服务完整指南一、环境准备1. 系统要求2. 项目结构二、后端服务部署1. 中间件启动（Docker Compose）2. 后端环境配置3. 依赖安装与数据库迁移4. 服务启动三、前端界面搭建1. 环境配置2. 服务启动四、常见问题排…...

编程日记 2025/2/4 9:40:41

springboot中路径默认配置与重定向/转发所存在的域对象

Spring Boot 是一种简化 Spring 应用开发的框架，它提供了多种默认配置和方便的开发特性。在 Web 开发中，路径配置和请求的重定向/转发是常见操作。本文将详细介绍 Spring Boot 中的路径默认配置，并解释重定向和转发过程中存在的域对象。一、…...

编程日记 2025/2/4 9:37:38

二叉树——429，515，116

今天继续做关于二叉树层序遍历的相关题目，一共有三道题，思路都借鉴于最基础的二叉树的层序遍历。 LeetCode429.N叉树的层序遍历这道题不再是二叉树了，变成了N叉树，也就是该树每一个节点的子节点数量不确定，可能为2&a…...

编程日记 2025/2/4 9:36:37

Leetcode 3444. Minimum Increments for Target Multiples in an Array

Leetcode 3444. Minimum Increments for Target Multiples in an Array 1. 解题思路2. 代码实现题目链接：3444. Minimum Increments for Target Multiples in an Array 1. 解题思路这一题我的思路上就是一个深度优先遍历，考察target数组当中的每一个…...

编程日记 2025/2/4 9:29:30

分享半导体Fab 缺陷查看系统，平替klarity defect系统

分享半导体Fab 缺陷查看系统，平替klarity defect系统；开发了半年有余。查看Defect Map，Defect image，分析Defect size，defect count trend. 不用再采用klarity defect系统（license 太贵） 也可以…...

编程日记 2025/2/4 9:27:28

Java基础——分层解耦——IOC和DI入门

目录三层架构 Controller Service Dao 编辑调用过程面向接口编程分层解耦耦合内聚软件设计原则控制反转依赖注入 Bean对象如何将类产生的对象交给IOC容器管理？ 容器怎样才能提供依赖的bean对象呢？ 三层架构 Controller 控制…...

编程日记 2025/2/4 9:26:27

DeepSeek-R1 本地部署教程（超简版）

文章目录一、DeepSeek相关网站二、DeepSeek-R1硬件要求三、本地部署DeepSeek-R11. 安装Ollama1.1 Windows1.2 Linux1.3 macOS 2. 下载和运行DeepSeek模型3. 列出本地已下载的模型四、Ollama命令大全五、常见问题解决附：DeepSeek模型资源一、DeepSeek相关网站官…...

编程日记 2025/2/4 9:25:26

Vue3学习笔记-模板语法和属性绑定-2

一、文本插值使用{ {val}}放入变量，在JS代码中可以设置变量的值 <template><p>{{msg}}</p> </template> <script> export default {data(){return {msg: 文本插值}} } </script> 文本值可以是字符串，可以是布尔…...

编程日记 2025/2/4 9:17:18

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2026/2/5 20:33:43

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2026/1/31 2:37:22

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

目录一、👨‍🎓网站题目二、✍️网站描述三、📚网站介绍四、🌐网站效果五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目七、🎁更多干货一、👨‍&#x1f…...

编程新知 2026/2/7 22:17:30

基于 TAPD 进行项目管理

起因自己写了个小工具，仓库用的Github。之前在用markdown进行需求管理，现在随着功能的增加，感觉有点难以管理了，所以用TAPD这个工具进行需求、Bug管理。操作流程注册 TAPD，需要提供一个企业名新建一个项目&#…...

编程新知 2026/1/24 14:15:44

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境系统：Ubuntu 24.04 LTS (WSL2)架构：x86_64 (GNU/Linux)Rust 版本：rustc 1.87.0 (2025-05-09)Cargo 版本：cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

编程新知 2026/1/26 14:15:48

【JavaSE】多线程基础学习笔记

多线程基础 -线程相关概念程序（Program） 是为完成特定任务、用某种语言编写的一组指令的集合简单的说:就是我们写的代码进程进程是指运行中的程序，比如我们使用QQ，就启动了一个进程，操作系统就会为该进程分配内存…...

编程新知 2025/9/12 0:57:34

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

本文介绍了一种名为AnomalyAny的创新框架，该方法利用Stable Diffusion的强大生成能力，仅需单个正常样本和文本描述，即可生成逼真且多样化的异常样本，有效解决了视觉异常检测中异常样本稀缺的难题，为工业质检、医疗影像…...

编程新知 2026/2/5 4:18:48

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来，一直在光谱成像领域深度钻研和发展，始终致力于研发高性能、高可靠性的光谱成像相机，为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...

编程新知 2025/12/31 17:08:10

ubuntu22.04有线网络无法连接，图标也没了

今天突然无法有线网络无法连接任何设备，并且图标都没了错误案例往上一顿搜索，试了很多博客都不行，比如 Ubuntu22.04右上角网络图标消失最后解决的办法下载网卡驱动，重新安装操作步骤查看自己网卡的型号 lspci | gre…...

编程新知 2026/2/6 13:01:28