当前位置：首页 > news >正文

NCCL、HCCL、通信、优化

news 2026/2/11 5:09:22

文章目录

- 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！
- 通信实现方式：机器内通信、机器间通信
- 通信实现方式：通讯协调
- 通信实现方式：机器内通信：PCIe
- 通信实现方式：机器内通信：NVLink
- 通信实现方式：机器间通信：RDMA（直连模式）
- 通信协调：软件篇
- 通信协调：软件篇：MPI
- 通信协调：软件篇：NCCL
- 点对点通信、集合式通信

从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！

通信实现方式：机器内通信、机器间通信

计算机通网络通讯中最重要的两个衡量指标是：带宽、延迟

在这里插入图片描述

内存共享：比如多个应用共享手机里面的同一块内存
PCIe：最明显的方式就是 gpu 与 cpu 之间的通信，大部分都通过之间的PCIe插槽进行的
NVLink（直连模式）：GPU 与 GPU 之间进行一个互通

在这里插入图片描述
Q：不同机柜之间的GPU的访问，不是通过NVSwitch进行全互联的吗。那这个机器间的通信，都传输什么信息呢？通讯、互传数据、等待和同步相关的问题，这些信息是走什么传输的呢？
---- 如果是NVLink通信的话，它应该还是属于机器内通信，而不是机器间通讯（TCP/IP、RDMA）

蓝色的线：通过网线进行连接
AI集群里面，可能更多的用到 RDMA 的网络模型通信

通信实现方式：通讯协调

在这里插入图片描述

通信实现方式：机器内通信：PCIe

在这里插入图片描述

通信实现方式：机器内通信：NVLink

在这里插入图片描述

通信实现方式：机器间通信：RDMA（直连模式）

在这里插入图片描述

（1）左边的图是TCP/IP，右边的是RDMA
（2）左边的几个蓝色方框，在传递的时候需要经过好几次的用户的内存拷贝，对大数据执行起来会非常的缓慢，数据量越大的时候，这个延迟是很难去接受的！
（3）而RDMA新的协议，就是用户直接跳过kernel层，直接传到远端的服务器，数据绕过CPU，直接通过RDMA设备，对远端的虚拟内存直接进行访问读和写；

（4）既然是机器间通信，那么不同机器间是通过以太网连接的
（5）Q：RDMA是通过网线连接的吗？
在这里插入图片描述

通信协调：软件篇

在这里插入图片描述

通信协调：软件篇：MPI

在这里插入图片描述

通信协调：软件篇：NCCL

在这里插入图片描述
（1）对网络拓扑进行一个感知，topo是长什么样子的，回环是怎么组织的
（2）对网络拓扑进行一个搜索，找到一个最好的通信的策略
（3）使能CUDA的kernel 对数据进行通信

在这里插入图片描述

点对点通信、集合式通信

在这里插入图片描述

NCCL、HCCL、通信、优化

文章目录从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！通信实现方式：机器内通信、机器间通信通信实现方式：通讯协调通信实现方式：机器内通信：PCIe通信实现方式：机器内通信：NVLink通信实现…...

编程日记 2025/2/3 18:23:17

unity学习21：Application类与文件存储的位置

目录 1 unity是一个跨平台的引擎 1.1 使用 Application类，去读写文件 1.2 路径特点 1.2.1 相对位置/相对路径： 1.2.2 固定位置/绝对路径： 1.3 测试方法，仍然挂一个C#脚本在gb上 2 游戏数据文件夹路径（只读&…...

编程日记 2025/2/3 18:22:14

17 一个高并发的系统架构如何设计

高并发系统的理解第一:我们设计高并发系统的前提是该系统要高可用，起码整体上的高可用。第二:高并发系统需要面对很大的流量冲击，包括瞬时的流量和黑客攻击等第三:高并发系统常见的需要考虑的问题，如内存不足的问题，服务抖动的…...

编程日记 2025/2/3 18:21:13

Spring Boot 实例解析：配置文件

SpringBoot 的热部署： Spring 为开发者提供了一个名为 spring-boot-devtools 的模块来使用 SpringBoot 应用支持热部署，提高开发者的效率，无需手动重启 SpringBoot 应用引入依赖： <dependency> <groupId>org.springfr…...

编程日记 2025/2/3 18:16:05

pytorch图神经网络处理图结构数据

人工智能例子汇总：AI常见的算法和例子-CSDN博客图神经网络（Graph Neural Networks，GNNs）是一类能够处理图结构数据的深度学习模型。图结构数据由节点（vertices）和边（edges）组成&a…...

编程日记 2025/2/3 18:09:54

计算机网络一点事（23）

传输层端口作用：标识主机特定进程，TCP，UDP协议端口号分类：服务器：0-1023，熟知 1024-49151 登记客户端：49152-65535 功能：实现端到端，进程到进程的通信&#xff0c…...

编程日记 2025/2/3 18:08:53

（9）下：学习与验证 linux 里的 epoll 对象里的 EPOLLIN、 EPOLLHUP 与 EPOLLRDHUP 的不同。小例子的实验

（4）本实验代码的蓝本，是伊圣雨老师里的课本里的代码，略加改动而来的。以下是服务器端的代码： 每当收到客户端的报文时，就测试一下对应的 epoll 事件里的事件标志，不读取报文内容，…...

编程日记 2025/2/3 18:01:46

DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别？

deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b有啥区别？码笔记mabiji.com分享：1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型，671B是基础大模型，它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本…...

编程日记 2025/2/3 17:56:38

一、html笔记

（一）前端概述 1、定义前端是Web应用程序的前台部分，运行在PC端、移动端等浏览器上，展现给用户浏览的网页。通过HTML、CSS、JavaScript等技术实现，是用户能够直接看到和操作的界面部分。上网就是下载html文档，浏览器是一个解释器，运行从服务器下载的html文件，解析html、…...

编程日记 2025/2/3 17:54:35

AI大模型开发原理篇-2：语言模型雏形之词袋模型

基本概念词袋模型（Bag of Words，简称 BOW）是自然语言处理和信息检索等领域中一种简单而常用的文本表示方法，它将文本看作是一组单词的集合，并忽略文本中的语法、词序等信息，仅关注每个词的出现频率。文本…...

编程日记 2025/2/3 17:51:32

基于微信小程序的实习记录系统设计与实现（LW+源码+讲解）

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2025/2/3 17:50:31

【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui

note DeepSeek-R1-Distill-Qwen-7B 的测试效果很惊艳，CoT 过程可圈可点，25 年应该值得探索更多端侧的硬件机会。文章目录 note一、下载 Ollama二、下载 Docker三、下载模型四、部署 open webui 一、下载 Ollama 访问 Ollama 的官方网站 https://ollam…...

编程日记 2025/2/3 17:49:30

【Elasticsearch】 Intervals Query

Elasticsearch Intervals Query 返回基于匹配术语的顺序和接近度的文档。 intervals 查询使用匹配规则，这些规则由一小组定义构建而成。这些规则然后应用于指定 field 中的术语。这些定义生成覆盖文本中术语的最小间隔序列。这些间隔可以进一步由父源组合和过滤…...

编程日记 2025/2/3 17:48:28

DeepSeek技术深度解析：从不同技术角度的全面探讨

DeepSeek技术深度解析：从不同技术角度的全面探讨引言 DeepSeek是一个集成了多种先进技术的平台，旨在通过深度学习和其他前沿技术来解决复杂的问题。本文将从算法、架构、数据处理以及应用等不同技术角度对DeepSeek进行详细分析。一、算法层面深度学…...

编程日记 2025/2/3 17:47:26

Docker 部署 Starrocks 教程

Docker 部署 Starrocks 教程 StarRocks 是一款高性能的分布式分析型数据库，主要用于 OLAP（在线分析处理）场景。它最初是由百度的开源团队开发的，旨在为大数据分析提供一个高效、低延迟的解决方案。StarRocks 支持实时数据分析&am…...

编程日记 2025/2/3 17:45:23

【LLM-agent】(task6)构建教程编写智能体

note 构建教程编写智能体文章目录 note一、功能需求二、相关代码（1）定义生成教程的目录 Action 类（2）定义生成教程内容的 Action 类（3）定义教程编写智能体（4）交互式操作调用教程编…...

编程日记 2025/2/3 17:43:20

29.Word：公司本财年的年度报告【13】

目录 NO1.2.3.4 NO5.6.7 NO8.9.10 NO1.2.3.4 另存为F12：考生文件夹：Word.docx选中绿色标记的标题文本→样式对话框→单击右键→点击样式对话框→单击右键→修改→所有脚本→颜色/字体/名称→边框：0.5磅、黑色、单线条：点…...

编程日记 2025/2/3 17:42:16

一、 rect.rs源码 // Copyright 2013 The Servo Project Developers. See the COPYRIGHT // file at the top-level directory of this distribution. // // Licensed under the Apache License, Version 2.0 <LICENSE-APACHE or // http://www.apache.org/licenses/LICENS…...

编程日记 2025/2/3 17:40:05

文章目录

从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！

通信实现方式：机器内通信、机器间通信

通信实现方式：通讯协调

通信实现方式：机器内通信：PCIe

通信实现方式：机器内通信：NVLink

通信实现方式：机器间通信：RDMA（直连模式）

通信协调：软件篇

通信协调：软件篇：MPI

通信协调：软件篇：NCCL

点对点通信、集合式通信

相关文章：