当前位置：首页 > article >正文

CANN/AMCT大模型MXQUANT量化

article 2026/5/9 17:16:35

AMCT大模型MXQUANT量化【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct1 量化前提1.1 安装依赖本sample依赖包可参考requirements.txt需要注意的是torch_npu包版本需要与Python、torch包版本相匹配需要安装CANN包1.2 模型和数据集准备本sample以Llama2-7bqwen2-7bqwen3-8b模型pileval数据wikitext2数据集为示例, 数据为在线加载模型需要用户自己下载并在执行脚本时指定模型路径。注意量化数据类型组合mxfp8_e4m3fn * mxfp8_e4m3fn只支持量化原始数据类型为torch.bfloat16请注意修改src/utils.py文件中获取模型的数据类型。1.3 简易量化配置本sample中使用的量化配置已经内置在工具中可以通过下述方式获取并使用mxfp8_e4m3fn * mxfp8_e4m3fn全量化配置from amct_pytorch import MXFP8_QUANT_CFGmxfp4_e2m1仅权重量化配置cfg { batch_num: 1, quant_cfg: { weights: { type: mxfp4_e2m1, symmetric: True, strategy: group, group_size: 32 }, }, algorithm: {mxquant}, skip_layers: {lm_head} }如果需要修改详细配置请参考资料构造需要的量化配置dict。mxquant算法支持仅权重量化和全量化支持的量化类型以及量化配置字段类型说明取值范围注意事项batch_numuint32量化使用的batch数量1/skip_layersstr跳过量化的层/跳过量化层支持模糊匹配当配置字符串为层名字串或与层名一致时跳过该层量化不生成量化配置。字符串必须包含数字或字母weights.typestr量化后权重类型mxfp8_e4m3fn/mxfp4_e2m1/weights.symmetricbool对称量化TRUE只支持对称量化weights.strategystr量化粒度group/inputs.typestr量化后激活类型mxfp8_e4m3fn全量化场景不支持配置权重量化类型mxfp4_e2m1inputs.symmetricbool对称量化TRUE只支持对称量化inputs.strategystr量化粒度group/algorithmdict量化使用的算法配置{mxquant}/2 量化示例2.1 使用接口方式调用step 1.请在当前目录执行如下命令运行示例程序用户需根据实际情况修改示例程序中的模型和数据集路径python3 src/run_llama2_samples.py --model_path/data/Llama2_7b_hf/python3 src/run_qwen_samples.py --model_path/data/Qwen2-7b/python3 src/run_qwen_samples.py --model_path/data/Qwen3-8b/若出现如下信息则说明量化成功Test time taken: 1.0 min 59.24865388870239 s Score: 5.477707其中Score为量化模型PPL具体数值参考下表模型校准集数据集量化前PPLmxfp8_e4m3fn*mxfp8_e4m3fn量化后PPLLLAMA2-7Bpilevalwikitext25.4725.523QWEN2-7Bpilevalwikitext27.1377.197QWEN3-8Bpilevalwikitext29.7159.934推理成功后在当前目录会生成量化日志文件./amct_log/amct_pytorch.log【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/AMCT大模型MXQUANT量化

相关文章：

CANN/AMCT大模型MXQUANT量化

AI治理新范式：基于计算资源的实时监管与执行机制

镜像视界（浙江）科技有限公司数字孪生与视频孪生行业地位及核心优势白皮书

Sublime Text集成AI编程助手：Nano Bots插件深度配置与实战

CANN/tensorflow精度调优配置

RePKG深度解析：3步解锁Wallpaper Engine壁纸资源的专业指南

ClawLayer：网络抽象层如何解耦应用与底层通信复杂性

CANN/pyasc带转置数据加载API文档

CANN稀疏矩阵算子库

CANN Triton NPU推理后端

树莓派4B上Kali Linux安装RTL8812AU驱动的完整指南（含国内源优化）

AI算力治理：从技术原理到产业实践，如何管控AI时代的核心资源

医疗生成式AI伦理挑战与TREGAI评估清单：从原则到实践

基于Transformer的序列标注实战：从NER到魔法咒语识别

深入PyTorch源码：torch.nn.utils.clip_grad_norm_是如何计算并‘裁剪’梯度的？

保姆级教程：用Python 3.9和OpenXLab CLI/SDK下载AI数据集（附ImageNet-21k实战）

AI驱动城市碳排放报告成熟度模型：从数据治理到智能决策

ChatGPT与CAQDAS融合：人机协同定性分析工作流实战指南

医疗AI公平性：从算法偏见根源到全链路治理的实践指南

多模态模型UniMRG：生成式理解与跨模态语义关联

边缘计算AI安全防护体系：从架构设计到工程实践

本地大模型Web界面部署指南：基于Hermes WebUI的实践

为ChatGPT-on-Wechat机器人扩展API能力：Apilot插件安装与实战指南

Fathom-DeepResearch：大语言模型的长程信息检索与知识合成技术

Argo CD实战指南：基于GitOps的Kubernetes持续交付核心原理与生产级部署

SALE框架：基于拍卖机制的异构LLM任务分配优化

AI赋能数字孪生安全：从威胁检测到主动防御的实战解析

机器学习结合提丢斯-波得定则预测系外行星与宜居带候选体

梯度下降算法：机器学习优化的核心原理与实践

Swift测试技能库：模块化设计、异步测试与SwiftUI集成实践