当前位置: 首页 > article >正文

ops-rand:AI 训练中的随机数生成

AI 训练离不开随机数。权重初始化要随机、Dropout 要随机、数据打乱要随机、噪声注入要随机。每一次随机操作的背后都有一组随机数生成器在工作。CANN 的 ops-rand 仓库提供了 NPU 上的随机数生成算子——Dropout、随机 Shuffle、随机初始化、正态分布采样等。这些操作在训练中平均每步调用几十次如果在 CPU 上生成再拷到 NPU开销不可忽视。AI 为什么需要随机数模型训练的每个阶段都用到了随机数权重初始化。Xavier 初始化或 Kaiming 初始化——每层权重用服从特定分布均匀分布或正态分布的随机数填充。初始化太差模型可能不收敛。Dropout。训练时每条数据随机丢弃一部分神经元——每个神经元被保留的概率是 p。需要生成跟激活 Tensor 形状相同的二值掩码。数据打乱。每个 epoch 把训练数据打乱一次。虽然这个操作通常 CPU 上做但 NPU 上的 shuffle 算子可以避免 CPU ↔ NPU 的数据搬运。噪声注入。差分隐私训练、对抗训练等场景需要在梯度上叠加随机噪声。ops-rand 提供的算子覆盖了上述所有场景Uniform、Normal、BernoulliDropout 掩码、Multinomial采样。昇腾NPU如何生成随机 Tensorops-rand 的随机数生成在 NPU 内部完成。流程CPU 设置 Seed 和随机数生成算法默认 PhiloxSeed 传给 NPU 的随机数生成器硬件单元随机数生成器并行生成大量随机数——每个 AI Core 有独立的生成器实例生成的随机数直接写入目标 Tensor 的显存地址整个过程 CPU 只需要传一个 Seed8 字节。几 MB 的随机 Tensor 直接在 NPU 显存中生成不经过 CPU 内存。# ops-rand 的使用示例importcann# 在 NPU 上生成正态分布随机 Tensorweightcann.randn([4096,4096],dtypefloat16,seed42)# 生成均匀分布noisecann.rand([4096],dtypefloat32,seed123,low-0.01,high0.01)# 生成 Dropout 掩码maskcann.bernoulli([8,4096],p0.1,seed7)ops-rand 的算子内部调用 CANN Runtime 的随机数生成指令不走 AI Core 的计算单元。随机数生成的带宽约 80 GB/s受显存带宽限制在训练中跟正常算子并行执行。Seed 管理Seed 管理是分布式训练中容易被忽视的细节。单卡训练中每步调用一个 seed 递增的生成器——seedstep确保每步的随机数不同。多卡训练中如果所有卡用同一个 seed每张卡在权重初始化时生成完全相同的随机权重——失去了分布式初始化的意义。HCCL 的通信域初始化时会给每张卡分配一个 rankops-rand 的推荐做法是每张卡的 seed base_seed rank * 1000 step这样每张卡的随机序列不同由 rank 区分但训练可复现只要 base_seed 固定。rankdist.get_rank()base_seed42step0forepochinrange(epochs):forbatchindataloader:seedbase_seedrank*1000step maskcann.bernoulli([8,4096],p0.1,seedseed)# 训练...step1大模型训练中的随机机制大模型训练中随机数的主要消耗者是 Dropout。LLaMA-13B 训练时每步需要做约 40 次 Dropout每 Decoder Block 一次每次 Dropout 的掩码 Tensor 大小跟当前 Batch 的激活 Tensor 一致。Batch4、序列长度 4096、隐藏维度 4096 时一次 Dropout 的掩码是[4, 4096, 4096]的 bool Tensor——约 64MB。40 次 Dropout 总共需要 2.5GB 的随机数。ops-rand 在 NPU 上生成这个 2.5GB 随机数的时间约 30ms80 GB/s 带宽。如果在 CPU 上生成再拷到 NPUCPU 生成约 80ms数据搬运约 20ms合计 100ms。ops-rand 直接在 NPU 上生成节省了 70% 的时间。ops-rand 仓库训练框架集成指南随机数生成器的硬件实现ops-rand 在 NPU 上的随机数生成器用 Philox 算法——一种密码学安全的伪随机数生成器。Philox 用 AES-like 的轮函数把 Seed 和 Counter 加密成随机输出。每个 AI Core 有独立的 Philox 实例。生成随机 Tensor 时每个 Core 负责自己那部分元素的随机数生成——不需要跨 Core 同步。Seed 相同、Counter 不同时不同 Core 的随机序列不相关。Philox 的硬件实现在 NPU 上是一个小型的 AES 加密引擎。它不占用 AI Core 的计算流水线跟模型推理并行执行。Dropout 的掩码生成可以在计算的前向传播开始前就完成。分布式训练中的 Seed 管理实践在分布式训练中Seed 管理的常见实践importnumpyasnpimportrandomimporttorch# 所有进程共用一个 base_seedbase_seed42random.seed(base_seedrank)np.random.seed(base_seedrank)torch.manual_seed(base_seedrank)torch.cuda.manual_seed(base_seedrank)# GPU 场景# CANN 场景cann.manual_seed(base_seedrank)每张卡用base_seed rank确保不同卡产生不同的随机序列。训练可复现通过固定base_seed实现——相同 base_seed 下多次训练产生相同的初始权重和 Dropout 模式。总结ops-rand 是 AI 训练中容易被忽略但不可或缺的组件。它在 NPU 上直接生成随机 Tensor避免了 CPU 生成 数据搬运的开销。Philox 算法的硬件实现提供了高质量的随机序列Dropout 掩码、权重初始化、噪声注入等场景都能直接从 ops-rand 获得性能收益。在分布式训练中正确的 Seed 管理策略确保训练的随机性同时保持可复现性——ops-rand 的 Seed 设计支持了多卡场景下的差异化随机序列生成。参考仓库ops-rand 随机数算子库torchtitan-npu 训练参考v

相关文章:

ops-rand:AI 训练中的随机数生成

AI 训练离不开随机数。权重初始化要随机、Dropout 要随机、数据打乱要随机、噪声注入要随机。每一次随机操作的背后,都有一组随机数生成器在工作。 CANN 的 ops-rand 仓库提供了 NPU 上的随机数生成算子——Dropout、随机 Shuffle、随机初始化、正态分布采样等。这…...

AzurLaneAutoScript深度解析:如何构建智能化的碧蓝航线自动化解决方案

AzurLaneAutoScript深度解析:如何构建智能化的碧蓝航线自动化解决方案 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript…...

戴尔G15散热终极控制:开源TCC-G15高效替代方案完全指南

戴尔G15散热终极控制:开源TCC-G15高效替代方案完全指南 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 对于戴尔G15笔记本用户而言,过热…...

[qemu+kvm]: vfio调用流程

透传pcie设备全流程: QEMU测:vfio_realize->-> vfio_get_group->open("/dev/vfio/group id")-> 进入内核态->vfio_group_fops_open //分配group, filep->private_data group;注意:/dev/vfio/group …...

2026数字营销岗位需要具备的能力有哪些

数字营销这几年变化很快,到了2026年,岗位要求已经不再只是“会投放、会写文案、会做表格”这么简单了。很多职场人都能明显感觉到:过去靠经验拍脑袋做营销,越来越难;未来真正有竞争力的人,往往是那些既懂业…...

终极QRazyBox指南:免费在线修复损坏二维码的完整教程

终极QRazyBox指南:免费在线修复损坏二维码的完整教程 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 你是否遇到过重要二维码因为打印模糊、水渍污损或物理磨损而无法扫描的困扰&a…...

AI大模型推理并行策略:DP、TP、PP、SP、EP的基本原理

在做大模型推理部署的时候,经常会碰到模型参数量太大,一块GPU的显存装不下,或者单块GPU的算力跟不上推理速度的情况,这时候就需要用并行策略来解决这些问题。 因为计算的流程不一样,推理和训练用到的并行策略在实现上也不一样。 这篇文章就是帮大家快速搞懂常见并行策略…...

美联储加息降息,如何牵动美黄金价格?

在国际金融市场中,美联储的加息、降息政策,是影响美黄金价格最核心的因素之一。很多普通投资者看不懂复杂术语,小编将从机会成本、美元强弱、市场预期三个关键点,让大家轻松看懂金价涨跌逻辑。黄金本身是无息资产,不会…...

终极解决方案:在Chrome浏览器中实现密码无缝同步

终极解决方案:在Chrome浏览器中实现密码无缝同步 【免费下载链接】ChromeKeePass Chrome extensions for automatically filling credentials from KeePass 项目地址: https://gitcode.com/gh_mirrors/ch/ChromeKeePass 你是否厌倦了每次登录网站时都要手动从…...

OpenRPA完全指南:免费开源的企业级RPA自动化终极方案

OpenRPA完全指南:免费开源的企业级RPA自动化终极方案 【免费下载链接】openrpa Free Open Source Enterprise Grade RPA 项目地址: https://gitcode.com/gh_mirrors/op/openrpa OpenRPA是一款免费开源的企业级RPA(机器人流程自动化)软…...

13个 AI Agent 的基础概念

1、AgentAgent依靠大语言模型作为核心,同时拥有任务规划、信息记忆以及工具调用三大能力,能够自行拆分繁杂任务,反复执行操作,接收实时反馈并一步步推进流程直至任务收尾。它跳出了单纯输出文字的局限,不再只会被动听从…...

计算机网络知识点全面总结(有这一篇就够了!!!)

计算机网络知识点全面总结(有这一篇就够了!!!) 一、计算机网络概述 1.1 计算机网络的分类 按照网络的作用范围:广域网(WAN)、城域网(MAN)、局域网&#xff…...

为OpenClaw智能体工作流配置Taotoken作为统一模型服务源

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为OpenClaw智能体工作流配置Taotoken作为统一模型服务源 在构建基于智能体(Agent)的自动化工作流时&#x…...

从 AI 工具到音乐生态:可酷加速布局,构建数字音乐全新基础设施

当数字音乐行业从流量竞争迈入生态竞争的新阶段,单一产品的功能边界已难以支撑企业长期增长,完善的生态协同能力逐渐成为企业突围的核心竞争力,也成为定义行业未来格局的关键变量。在此背景下,可酷公司近日对外披露其全新发展战略…...

Robo 3T:原生跨平台MongoDB管理工具的架构解析与技术实践

Robo 3T:原生跨平台MongoDB管理工具的架构解析与技术实践 【免费下载链接】robomongo Native cross-platform MongoDB management tool 项目地址: https://gitcode.com/gh_mirrors/ro/robomongo Robo 3T作为一款原生跨平台的MongoDB管理工具,为开…...

收藏 | LangChain vs LlamaIndex:大模型应用开发框架深度解析,小白也能轻松入门!

本文深入对比了LangChain和LlamaIndex两大框架的核心定位、功能模块及适用场景。LangChain是一个通用的LLM应用编排框架,通过LangGraph支持复杂Agent流程;LlamaIndex则专注于数据索引和检索,提供丰富的数据连接器和索引类型。文章还介绍了如何…...

以 AIGC 贯通设计 — 生产 — 营销:集之互动推动服装电商供应链进入全域协同新阶段

在快时尚主导、高频上新成为标配、流量窗口以周甚至以天计算的今天,服装电商的核心竞争力早已从单一的产品力、营销力,转向全链路供应链效率的竞争。当前行业普遍面临的痛点不再是某一环节的短板,而是全链路割裂:设计端与市场需求…...

2026年主流一键生成论文工具全攻略(含免费额度说明)

以下是当前学术圈口碑 TOP 的6 款 AI 写论文工具,覆盖从选题、开题到降重、答辩的论文全流程,剔除冗余工具,每款均附分步骤实操指南场景适配技巧,重点突出中文论文适配性,新手也能快速上手,效率翻倍。一、全…...

AIoT网关50+AI算法硬核加持,AIoT边缘计算赋能千行百业

在物联网与人工智能深度融合的时代,边缘侧的智能感知与决策能力成为行业数字化转型的核心。计讯物联TG465系列5G AIoT边缘计算机,以50成熟视觉AI算法为核心,搭载工业级强悍硬件,打造"AIIoT深度融合"的多模态智能体&…...

Diablo Edit2:5分钟掌握暗黑破坏神2终极角色编辑器

Diablo Edit2:5分钟掌握暗黑破坏神2终极角色编辑器 【免费下载链接】diablo_edit Diablo II Character editor. 项目地址: https://gitcode.com/gh_mirrors/di/diablo_edit 你是否厌倦了在暗黑破坏神2中反复刷装备的无尽循环?是否因为技能点分配失…...

Sunshine游戏串流终极指南:5大优化策略实现300%性能提升

Sunshine游戏串流终极指南:5大优化策略实现300%性能提升 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine作为一款开源自托管的游戏串流服务器,为Mo…...

通过TaotokenCLI工具一键配置多开发环境提升团队协作效率

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过Taotoken CLI工具一键配置多开发环境提升团队协作效率 在团队协作开发中,一个常见的挑战是确保所有成员都能快速、…...

备考执业兽医考试哪里有免费资料可以领?

备战执业兽医考试,是不是还在四处搜罗备考资料?网上资源杂乱老旧、版本参差不齐,要么内容不全,要么找不到重点,浪费大把时间还没头绪。不用再盲目翻找、费心整理了!给大家推荐一个能免费领执业兽医全科资料…...

荷兰电商/教育/客服三大场景语音部署手册,含NL方言变体(Flemish Randstad)适配清单

更多请点击: https://codechina.net 第一章:荷兰语音技术生态与NL方言变体战略定位 荷兰语音技术生态正经历从标准荷兰语(Algemeen Nederlands, AN)向多维方言适应能力演进的关键阶段。NL方言变体——包括弗里斯兰语(…...

告别本科论文 “从零焦虑”:okbiye AI 写作如何用 “全流程定制” 终结熬夜改稿循环

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 本科论文写到崩溃,是每个毕业生都懂的痛。 我见过凌晨三点的宿舍走廊,有人对着 Word 文档掉眼泪;也见过…...

二年级下册语文看图写话作文:长大以后做什么

二年级下册语文《长大以后做什么》看图写话,重点是:长大想做什么职业为什么想做以后会怎么努力老师最喜欢“有梦想 有原因 有行动”的内容。我用夸克网盘分享了「二年级下册语文作文」,链接:https://pan.quark.cn/s/3ee38f2d976…...

FLUX.1-dev-Controlnet-Union:一站式多模态图像控制解决方案,让AI生成更精准可控

FLUX.1-dev-Controlnet-Union:一站式多模态图像控制解决方案,让AI生成更精准可控 【免费下载链接】FLUX.1-dev-Controlnet-Union 项目地址: https://ai.gitcode.com/hf_mirrors/InstantX/FLUX.1-dev-Controlnet-Union 你是否曾经在AI图像生成中遇…...

5分钟打造你的桌面股票看板:TrafficMonitor股票插件完整指南

5分钟打造你的桌面股票看板:TrafficMonitor股票插件完整指南 【免费下载链接】TrafficMonitorPlugins 用于TrafficMonitor的插件 项目地址: https://gitcode.com/gh_mirrors/tr/TrafficMonitorPlugins 还在为错过重要股票行情而烦恼吗?想在工作时…...

终极SPT-AKI存档编辑器:如何轻松掌控你的逃离塔科夫离线游戏进度

终极SPT-AKI存档编辑器:如何轻松掌控你的逃离塔科夫离线游戏进度 【免费下载链接】SPT-AKI-Profile-Editor Программа для редактирования профиля игрока на сервере SPT-AKI 项目地址: https://gitcode.com/gh…...

万店精灵上货软件引领电商时代

万店精灵上货软件:http://www.wandianjingling.com/q/r/FV02331,1688,淘宝,抖音,拼多多,微信小店,京东,天猫,快手 都可以上国外:TikTok Shop、Temu、Shopee2&…...