当前位置: 首页 > article >正文

CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

DeepSeek-V3 MXFP8/HiF8 低精度预训练优化实践样例【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train概述本样例针对DeepSeek-V3 裁剪模型基于MindSpeed 框架在 8 卡 Atlas A5 上完成完成8K序列MXFP8/HiF8 低精度预训练优。MXFP8/HiF8 低精度预训练介绍可参见HiF8精度与性能双优面向大模型训练的低精度优化实践。硬件要求产品型号Atlas A5 950DT 系列最少卡数8 张 A5构建环境手动安装相关依赖。安装PyTorch# 下载并安装PyTorch框架 wget https://download.pytorch.org/whl/cpu/torch-2.7.1%2Bcpu-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch-2.7.1cpu-cp310-cp310-manylinux_2_28_aarch64.whl # 下载并安装torch_npu插件 wget https://gitcode.com/Ascend/pytorch/releases/download/v7.3.0-pytorch2.7.1/torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl #源码准备。# 请根据实际路径进行替换当前支持A5的商发cann包暂时未发布发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh # 创建代码目录工程 cd /home mkdir train_code cd train_code # 下载 MindSpeed git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master # checkout commit from MindSpeed master pip3 install -r requirements.txt pip3 install -e . cd .. # 下载 MindSpeed-LLM git clone https://gitcode.com/ascend/MindSpeed-LLM.git # 从github下载 Megatron-LM请确保网络能访问 git clone https://github.com/NVIDIA/Megatron-LM.git cd Megatron-LM git checkout core_v0.12.1 cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master mkdir logs pip3 install -r requirements.txt # 安装其余依赖库 # 下载 cann-recipes仓对应的脚本 cd ../ git clone https://gitcode.com/cann/cann-recipes-train.git cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_hif8.sh ./MindSpeed-LLM cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_mxfp8.sh ./MindSpeed-LLM数据集准备首先创建数据集路径mkdir -p ./tests/assets/enwiki下载enwiki 的parquet数据到./tests/assets/enwiki路径下面可以使用下面的命令下载数据集cd ./tests/assets/ git clone https://huggingface.co/datasets/lsb/enwiki20230101/tree/main/data cd ../..数据集转换示例可以参考修脚本data_convert_deepseek3_pretrain.sh修改原始数据集路径模型配置文件路径和目标输出路径cd ./MindSpeed-LLM bash examples/mcore/deepseek3/data_convert_deepseek3_pretrain.sh模型权重准备本样例使用的 DeepSeek-V3 模型权重准备方法如下# 从魔塔社区下载模型的基础文件存放至样例的 ./assets/hf/DeepSeek-V3 目录下不加载权重实验也需要执行这步操作 mkdir -p /data/models/DeepSeek-V3 pip install modelscope # 下载DeepSeek-V3完整模型文件 但是不包括权重当前是裁剪模型可以不下载权重 modelscope download --model deepseek-ai/DeepSeek-V3 --local_dir /data/models/DeepSeek-V3权重转换拉起示例可以参考MindSpeed-LLM中转换脚本修改原始权重路径以及保持的路径以及对应的切分裁剪策略# 转换为mcore权重 bash examples/mcore/deepseek3/ckpt_convert_deepseek3_hf2mcore.shpretrain执行cd /home/train_code/MindSpeed-LLM export GLOO_SOCKET_IFNAMEeth0 export HCCL_HOST_SOCKET_PORT_RANGEauto # 请根据实际路径进行替换当前支持A5的商发cann包暂时未发布发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh export HCCL_TOPO_FILE_PATH/etc/superpod_1d_noroce.json export HCCL_CONNECT_TIMEOUT200 export HCCL_EXEC_TIMEOUT200 # 示例执行 MXPF8 量化训练2层1moe1dense裁剪模型 bash ./run_pretrain_dsk3_A5_8P_mxfp8.sh # 示例执行 HiF8 量化训练2层1moe1dense裁剪模型 bash ./run_pretrain_dsk3_A5_8P_hif8.sh【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

DeepSeek-V3 MXFP8/HiF8 低精度预训练优化实践样例 【免费下载链接】cann-recipes-train 本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-train 概述 本样例针对De…...

太赫兹MIMO混合预编码与相位噪声抑制技术

1. 太赫兹混合预编码MIMO系统概述在无线通信领域,太赫兹频段(90-300GHz)因其巨大的连续带宽资源成为6G通信的关键技术方向。然而,这一频段面临严重的路径损耗和硬件实现挑战,特别是相位噪声问题。大规模MIMO技术通过部…...

XUnity翻译器:3步实现游戏自动汉化的完整指南

XUnity翻译器:3步实现游戏自动汉化的完整指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏中的生涩文本而烦恼吗?是否曾经因为语言障碍而错过精彩的游戏剧情&…...

ARM虚拟处理器模型在无线设备开发中的关键作用

1. ARM虚拟处理器模型在无线市场中的核心价值 现代无线设备(如智能手机)的设计复杂度正呈指数级增长。以2023年旗舰手机为例,其SoC通常集成: 3-4个ARM Cortex-X/A系列高性能CPU核心 4-6个ARM Cortex-A系列能效核心 1-2个专用DS…...

Kitty CLI工具集:基于场景与剧本的终端自动化实践

1. 项目概述:一个面向开发者的现代化终端工具集如果你和我一样,每天的工作都离不开终端,那你一定对“效率”这个词有切肤之痛。从SSH连接到服务器,到管理本地多个项目环境,再到执行复杂的命令行操作,一个趁…...

AI驱动的内容管理平台架构解析:从内容图谱到智能工作流

1. 项目概述:当内容管理遇上AI,Contentrain/AI的定位与价值最近在和一些做独立产品、内容站点的朋友聊天,发现一个挺普遍的现象:大家花在内容创作和整理上的时间,远超过产品功能开发本身。从博客文章、产品文档&#x…...

Torch-Pruning:基于DepGraph的PyTorch结构化剪枝实战指南

1. 项目概述与核心价值如果你正在为部署一个庞大的深度学习模型而发愁,看着动辄几十GB的显存占用和缓慢的推理速度感到束手无策,那么“模型剪枝”这个技术你一定不陌生。但传统的剪枝工具往往只支持有限的网络结构,一旦遇到复杂的模块连接、残…...

Rust终端光标控制库cursory:提升CLI/TUI应用交互体验

1. 项目概述:一个为开发者打造的终端光标样式库如果你和我一样,每天有超过一半的时间是在终端里度过的,那你一定对那个闪烁的光标再熟悉不过了。无论是写代码、跑脚本还是调试程序,光标就是我们在命令行世界里的“鼠标指针”。但你…...

Alfred AskGPT:在任意输入框调用ChatGPT的原位AI助手配置指南

1. 项目概述如果你和我一样,是个重度依赖键盘和效率工具来工作的Mac用户,那你肯定对Alfred不陌生。它就像是我们电脑上的“瑞士军刀”,一个快捷键呼出,就能快速搜索、打开应用、执行脚本,把我们从繁琐的鼠标点击中解放…...

集成学习在药物虚拟筛选中的应用:构建稳健AI预测模型

1. 项目概述:一个面向药物发现的智能虚拟筛选工具最近在药物研发的早期阶段,我花了不少时间研究如何提升虚拟筛选的效率和精度。传统的基于分子对接的筛选方法虽然经典,但计算成本高,对大规模化合物库的筛选往往力不从心。这时候&…...

Datadog Cursor插件:用自然语言对话查询监控数据的完整指南

1. 项目概述:在IDE里用自然语言查询Datadog如果你和我一样,日常开发离不开Datadog来监控应用状态,同时又重度依赖Cursor这类AI驱动的IDE来提升效率,那么最近Datadog官方推出的这个Cursor插件,绝对值得你花十分钟了解一…...

命令行办公自动化:officecli-skills技能库实战指南

1. 项目概述:一个为命令行注入办公能力的技能库如果你和我一样,每天的工作流都离不开终端,同时又需要频繁处理文档、表格和演示文稿,那么你肯定也经历过那种在图形界面和命令行之间反复横跳的割裂感。officecli/officecli-skills这…...

Photon引擎:基于Vite与Rust工具链的极速Web开发体验

1. 项目概述:一个为现代Web开发提速的“光子”引擎最近在GitHub上看到一个挺有意思的项目,叫portel-dev/photon。光看名字“光子”,你可能会联想到速度、轻量、能量这些概念。没错,这个项目给我的第一印象就是如此。它不是另一个臃…...

华为CANN通信远端内存API

HcclChannelGetRemoteMems 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT&#xf…...

AI赋能密度泛函理论:量子张量学习与机器学习泛函实践

1. 项目概述:当AI遇见量子化学“AI赋能密度泛函理论:量子张量学习与机器学习泛函”,这个标题听起来很学术,但它的内核其实非常“工程化”。简单来说,我们正在尝试用当下最火的机器学习方法,去解决一个困扰了…...

CANN/pyasc算子编程接口

asc.language.adv.get_special_mdl_config 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.ad…...

CANN/Hunyuan3D昇腾适配

在昇腾训练平台上适配Hunyuan3D 2.0 模型的推理 【免费下载链接】cann-recipes-spatial-intelligence 本项目针对空间智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-spatial-intelligence Hu…...

抖音批量下载神器:3分钟掌握无水印视频下载全攻略

抖音批量下载神器:3分钟掌握无水印视频下载全攻略 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …...

SEO地理优化利器:hreflang与JSON-LD实战指南

1. 项目概述:一个被低估的SEO地理优化利器 如果你做过外贸独立站、本地服务或者任何有地域性需求的线上业务,肯定遇到过这个头疼的问题:明明内容不错,关键词也做了,但流量就是集中在某个国家或地区,目标市…...

Animal-AI环境:用强化学习复现动物认知实验,评估AI智能水平

1. 项目概述:当AI走进“动物世界”如果你对强化学习(Reinforcement Learning, RL)和认知科学(Cognitive Science)的交叉领域感兴趣,那么Animal-AI环境绝对是一个值得你投入时间研究的宝藏项目。简单来说&am…...

算法模拟与生命智能:从架构差异看AI的本质与局限

1. 算法模拟与生命智能:一场关于“智能”本质的对话最近和几位做计算神经科学和哲学的朋友聊天,话题又绕回到了那个老生常谈但又无比核心的问题:我们正在构建的“人工智能”,到底在多大程度上接近真正的“智能”?或者说…...

我用AI重构了一个遗留系统,代码量减少了70%,老板惊呆了

一、当“惊喜”成为测试团队的“惊吓”会议室里,老板盯着屏幕上的数字,瞳孔微微放大——那个维护了八年、代码量超过50万行的核心交易系统,经过AI辅助重构后,仅剩15万行。编译通过,核心业务流程跑通,演示环…...

基于MCP协议的GitLab AI助手:重塑DevOps工作流的智能连接器

1. 项目概述:当AI助手遇上GitLab,一个MCP服务器如何重塑你的DevOps工作流如果你和我一样,每天的工作都离不开GitLab——从代码提交、MR评审,到CI/CD流水线监控和问题追踪,那么你肯定也经历过在多个工具和界面间反复横跳…...

超导量子比特与腔体共振控制技术解析

1. 超导量子比特与腔体共振控制协议概述 在超导量子计算领域,实现量子比特与谐振腔之间的高效耦合控制是构建可扩展量子处理器的关键技术。Jaynes-Cummings模型作为描述量子比特与谐振腔相互作用的基础理论框架,为理解这种耦合提供了清晰的物理图像。当量…...

构建防误删体系:从 rm -rf 灾难到生产环境数据安全实践

1. 项目概述:一个关于“删除生产环境”的警示性开源项目在软件开发和运维的圈子里,流传着一些“都市传说”级别的灾难性命令,而rm -rf /无疑是其中最令人闻风丧胆的一个。这个命令一旦在错误的路径下执行,意味着对根目录进行递归强…...

杰理之添加AD通道的接口【篇】

#define AD_CH_IO_VBAT_PORT IO_PORTB_02 //选择一个有ADC功能IO口采集vbat电压,电压不能超过 vddio adc_add_sample_ch(adc_io2ch(AD_CH_IO_VBAT_PORT)); adc_set_sample_period(adc_io2ch(AD_CH_IO_VBAT_PORT), PMU_CH_SAMPLE_PERIOD);...

杰理之设置IO状态的方法【篇】

u32 port PORTA;//指定IO u32 pin PORT_PIN_2; gpio_hw_set_direction(port, pin, 1);//0:out, 1:in gpio_hw_set_die(port, pin, 0); gpio_hw_set_dieh(port, pin, 0); gpio_hw_set_pull_up(port, pin, GPIO_PULLUP_10K); gpio_hw_set_pull_down(port, pin, GPIO_PULLDOWN_1…...

杰理之打开OTA打印以及uboot打印的方法【篇】

//uboot and ota.bin串口tx // 如果是USB口 设置为 USBDP/USBDM #ifndef CONFIG_UBOOT_DEBUG_PIN #define CONFIG_UBOOT_DEBUG_PIN PA01 #endif...

PyTorch 自动微分原理:反向传播与计算图构建

PyTorch 自动微分原理:反向传播与计算图构建 1. 技术分析 1.1 自动微分定义 自动微分(Automatic Differentiation)是计算函数导数的技术,PyTorch 通过计算图实现: import torchx torch.tensor(2.0, requires_gradTrue…...

在多轮对话应用中体验Taotoken路由策略的稳定性

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在多轮对话应用中体验Taotoken路由策略的稳定性 在多轮对话应用,例如聊天机器人或需要保持长上下文的智能助手中&#…...