当前位置：首页 > article >正文

CANN/amct DeepSeek-V3.2量化

article 2026/5/9 16:14:04

NPU DeepSeek-V3.2 量化训练及推理【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amctDeepSeek团队发布了最新的模型DeepSeek-V3.2可利用稀疏架构DeepSeek Sparse Attention(DSA)来提高长序列的计算效率降低推理成本。长上下文场景和其新颖的DSA结构共同对推理优化系统提出了新诉求。量化策略相对于BF16推理Int8量化可以有效降低端到端时延提升系统吞吐。目前本sample已经支持W8A8C8/W4A8C8量化量化架构如下其中MLA量化位置如下MLAProlog除Q_b_proj使用W8A8其他Linear均不量化KVCache量化到C8Sparse Flash AttentionKVCache Int8存储BF16计算IndexerProlog除Q_b_proj使用W8A8其他Linear均不量化Indexer Q使用A8量化Indexer Cache使用C8量化Lightning Indexer: BatchMatmtul使用Int8计算MoE路由专家使用W8A8/W4A8量化共享专家使用W8A8量化MLAEpilogO_proj使用W8A8量化LM_Head暂不量化。注 W8A8W8指权重使用静态Per-Channel Int8量化A8指数据使用动态Per-Token Int8量化 A8C8A8表示Lightning Indexer中的Q使用动态Per-Token-Head Int8量化Indexer Cache使用动态Per-Token-Head Int8量化 MLAEpilogO_proj使用W8A8量化 KVCache C8表示KVCache 使用动态Per-Token-Head-Tile-128 Int8量化量化目的本sample量化位置与Ascend硬件性能强耦合对性能瓶颈处做了竞争力的量化部署友好在当前W8A8C8量化策略下线性层的量化覆盖率较低MLA线性层中只对q_b_proj和w_o_proj进行了量化Indexer模块只量化了wq_b_proj。主要原因是IndexerProlog融合算子设计成weights_proj模块的输出格式为fp16且不做量化因此MLA输入关联的Linear统一不做量化好处是可将同一份BF16数据输入IndexerProlog和MLAProlog。其次MLAProlog KVCache的量化策略使用了动态存8算16。在超长序列情况下W8A8C8量化精度接近无损同时权重内存占用优化2倍。MLA C8算16获取内存收益可以打高吞吐量。另一方面LightningIndexer的A8C8获取计算收益降低LI计算时延TTFT和TPOT也同步优化。W4A8C8量化版本针对DeepSeek-V3.2使用基于学习的量化算法优化Clamp参数缓解W4A8离群值量化困难的问题实现了较优的量化模型精度。同时W4A8C8版本比W8A8C8节约MoE权重显存2x因此在大EP场景下利用W4A8 MoEGMM算子同一张卡可以装下更多的专家节约资源优化计算访存比实现单机部署。【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/amct DeepSeek-V3.2量化

相关文章：

CANN/amct DeepSeek-V3.2量化

从零构建GitHub Pages静态博客：Jekyll选型、部署与优化全指南

别急着重启！Redis突然连不上的5分钟排查手册（附CentOS 7实战命令）

从RTL到可执行：手把手拆解基于FPGA的硬件仿真器前端三步骤（Analyze, Elaboration, Synthesis）

ru-text：为AI编码助手注入俄语文本质量灵魂的规则引擎

CANN/shmem SIMT远程内存访问示例

为AI智能体构建持久化记忆：Stratum架构设计与工程实践

Hyper-V虚拟机网络配置避坑指南：从‘网络不可达’到流畅上网，手把手教你配置CentOS/Ubuntu静态IP和DNS

CANN / cann-recipes-infer: NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化

Ubuntu 20.04 + ROS2 Foxy 环境下，手把手搞定 Swarm-SLAM 多机器人协同建图环境（附常见编译报错解决）

给RK3568的Linux 4.19内核打RT-Preempt补丁，我踩过的那些坑都帮你填好了

CANN/CATCCOS预提交代码检查指南

llocal框架：本地化AI应用开发实战与RAG实现指南

CANN Pi0.5昇腾训推实践

别再为‘Target uses ARM-Compiler which is not available’抓狂了！一份给STM32/Keil开发者的编译器环境修复指南

CANN多流分析模板

CANN/runtime Profiling数据采集接口

复盘红日Vulnstack1：除了MSF和CS，我们还能用哪些“冷门”工具链完成内网横向？

cann/sip FFT逆短时傅里叶变换

拆解ADAS域控成本密码：聊聊MCU端AutoSAR CP软件如何从DV、产测到量产一步步省钱

3步解锁网易云音乐NCM加密：ncmdumpGUI本地转换完全指南

极简AI助手noclaw：C语言实现，内存仅324KB，支持工具调用与记忆

小红书下载神器 XHS-Downloader：完整技术架构与使用指南

CANN/HCCL AlltoAllV示例

利用GitHub Actions与Twitter API实现贡献图动态展示推文更新

99.手把手教你落地YOLOv5车辆检测，含COCO格式适配+全流程代码实操

新手入门指南使用 curl 命令快速测试 Taotoken 大模型接口

基于AI智能体的Wazuh自主安全运营流水线构建与实战

有限单边响应游戏中的蒙特卡洛反事实遗憾最小化

98.吃透YOLOv8架构（C2f+解耦头），手把手落地行人检测项目