当前位置: 首页 > article >正文

如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型

配置两台8*64的昇腾910b4服务器物理机未做任何虚拟化已经通过交换机进行互联模型和镜像下载模型https://modelscope.cn/models/Eco-Tech/Qwen3.5-35B-A3B-w8a8-mtp镜像不是openeuler系统就下不带openeuler的m.daocloud.io/quay.io/ascend/vllm-ascend:v0.18.0rc1-openeuler驱动https://www.hiascend.com/hardware/firmware-drivers/community?product4model32cann8.5.1driverAscendHDK25.5.2run文件就行上传以上所有文件到服务器的硬盘上服务器验货先分别查看两台服务器的npu状态#!/bin/bash # Check the remote switch ports for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done # Get the link status of the Ethernet ports (UP or DOWN) for i in {0..7}; do hccn_tool -i $i -link -g ; done # Check the network health status for i in {0..7}; do hccn_tool -i $i -net_health -g ; done # View the network detected IP configuration for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done # View gateway configuration for i in {0..7}; do hccn_tool -i $i -gateway -g ; done # show ip addr for i in {0..7}; do hccn_tool -i $i -ip -g | grep ipaddr; done # View NPU network configuration cat /etc/hccn.conf注意如果这里面有执行错误就没法继续部署必须先找厂家解决验证两边的通信分别从两台主机的 for i in {0..7}; do hccn_tool -i $i -ip -g | grep ipaddr; done执行结果中找的找出npu的ip地址使用如下命令进行ping验证for i in {0..7};do hccn_tool -i 0 -ping -g address {其中任一npu的ip};done如果有ping不通说明服务器pcie或交换机有问题必须先解决驱动安装因为是使用docker镜像安装所以cann安装不是必须的只需要安装驱动从华为官网下载驱动如果没有商用权限就下载社区的都能用vllm-ascend:v0.18.0rc1使用cann8.5.1版本这个版本要求驱动得是25.5.2分别下载Ascend-hdk-910b-npu-firmware_7.8.0.7.220.runAscend-hdk-910b-npu-driver_25.5.2_linux-aarch64.run接下来看情况先使用npu-smi info看看驱动版本如果npu-smi执行成功了说明已经装好驱动了如果出现未找到命令这种说明没装驱动没装驱动的安装chmod x ./*.run ./Ascend-hdk-910b-npu-firmware_7.8.0.7.220.run --install ./Ascend-hdk-910b-npu-driver_25.5.2_linux-aarch64.run --install如果装了驱动但是版本低升级chmod x ./*.run ./Ascend-hdk-910b-npu-firmware_7.8.0.7.220.run --upgrade ./Ascend-hdk-910b-npu-driver_25.5.2_linux-aarch64.run --upgrade别管安装还是升级了都要做一次重启直接reboot命令就行部署前准备在两台服务器分别执行下面的脚本对两台服务器先统一状态如果中间有重启记着重新统一注意这一步如果缺少会导致多机部署的时候可能出现rank错误或卡死如果有类似问题试试执行统一状态for i in {0..7}; do hccn_tool -i $i -tls -s enable 0 ; done启动vllm-ascend的docker镜像使用脚本再两台服务器分别启动镜像注意其中的/data/qwen35_397b_w8a8_mtp换成你的实际模型权重的存放路径#!/bin/sh NAMEmodel-vllm PORT10020 DEVICES0,1,2,3,4,5,6,7 IMAGEm.daocloud.io/quay.io/ascend/vllm-ascend:v0.18.0rc1-openeuler # 加载镜像 docker run -itd -u 0 --ipchost --privileged \ -e VLLM_USE_MODELSCOPETrue -e PYTORCH_NPU_ALLOC_CONFmax_split_size_mb:256 \ -e ASCEND_RT_VISIBLE_DEVICES$DEVICES \ --name $NAME \ --nethost \ --shm-size100g \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /home/:/home/ \ -v /opt/data/:/opt/data/ \ -p $PORT:11025 \ -v /data/.cache:/root/.cache \ -v /data/qwen35_397b_w8a8_mtp:/model_weights -it $IMAGE bash启动模型分别进入两台的docker进去之后会卡几秒等下就行docker exec -it model-vllm /bin/bash启动master先聚焦到master的docker里执行master启动脚本start-master-service.sh#!/bin/bash export HCCL_IF_IP当前物理机ip #以下网卡名称为当前物理机ip相关联的那个网卡即可 export GLOO_SOCKET_IFNAME网卡名称 export TP_SOCKET_IFNAME网卡名称 export HCCL_SOCKET_IFNAME网卡名称 export HCCL_BUFFSIZE1024 export ASCEND_RT_VISIBLE_DEVICES0,1,2,3,4,5,6,7 export HCCL_OP_EXPANSION_MODEAIV export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True export OMP_PROC_BINDfalse export OMP_NUM_THREADS100 export VLLM_USE_V11 export VLLM_ASCEND_ENABLE_FLASHCOMM10 export HCCL_INTRA_PCIE_ENABLE1 export HCCL_INTRA_ROCE_ENABLE0 export TASK_QUEUE_ENABLE1 export VLLM_API_KEYSK1234567890987654321 vllm serve /model_weights \ --served-model-name qwen35 \ --host 0.0.0.0 \ --port 11025\ --tensor-parallel-size 8 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 0 \ --data-parallel-address 当前物理机ip \ --data-parallel-rpc-port 13071 \ --max-num-seqs 64 \ --max-model-len 262144 \ --max-num-batched-tokens 16384 \ --gpu-memory-utilization 0.92 \ --enable-chunked-prefill \ --async-scheduling \ --api-key $VLLM_API_KEY \ --enable-expert-parallel \ --trust-remote-code \ --compilation-config {cudagraph_mode: FULL_DECODE_ONLY,cudagraph_capture_sizes:[1,2,4,8,16,32,64,80,96,128]} \ --mm_processor_cache_typeshm \ --quantization ascend \ --allowed-local-media-path / \ --no-enable-prefix-caching \ --speculative_config {method: qwen3_5_mtp, num_speculative_tokens: 3, enforce_eager: true} \ --additional-config {enable_cpu_binding:true,multistream_overlap_shared_expert: true} \ --default-chat-template-kwargs {enable_thinking: false} \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder再做个daemon脚本#!/bin/bash nohup ./start-master-service.sh ./service.log 21 启动worker再聚焦到worker的docker里执行worker启动脚本start-worker-service.shexport HCCL_IF_IP当前物理机ip #以下网卡名称为当前物理机ip相关联的那个网卡即可 export GLOO_SOCKET_IFNAME网卡名称 export TP_SOCKET_IFNAME网卡名称 export HCCL_SOCKET_IFNAME网卡名称 export HCCL_BUFFSIZE1024 export ASCEND_RT_VISIBLE_DEVICES0,1,2,3,4,5,6,7 export HCCL_OP_EXPANSION_MODEAIV export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True export OMP_PROC_BINDfalse export OMP_NUM_THREADS100 export VLLM_USE_V11 export VLLM_ASCEND_ENABLE_FLASHCOMM10 export HCCL_INTRA_PCIE_ENABLE1 export HCCL_INTRA_ROCE_ENABLE0 export TASK_QUEUE_ENABLE1 export VLLM_API_KEYSK1234567890987654321 vllm serve /model_weights \ --served-model-name qwen35 \ --host 0.0.0.0 \ --port 11205 \ --headless \ --tensor-parallel-size 8 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 1 \ --data-parallel-address master物理机的ip地址 \ --data-parallel-rpc-port 13071 \ --max-num-seqs 64 \ --max-model-len 262144 \ --max-num-batched-tokens 16384 \ --gpu-memory-utilization 0.92 \ --enable-chunked-prefill \ --async-scheduling \ --api-key $VLLM_API_KEY \ --enable-expert-parallel \ --trust-remote-code \ --compilation-config {cudagraph_mode: FULL_DECODE_ONLY,cudagraph_capture_sizes:[1,2,4,8,16,32,64,80,96,128]} \ --mm_processor_cache_typeshm \ --quantization ascend \ --allowed-local-media-path / \ --no-enable-prefix-caching \ --speculative_config {method: qwen3_5_mtp, num_speculative_tokens: 3, enforce_eager: true} \ --additional-config {enable_cpu_binding:true,multistream_overlap_shared_expert: true} --default-chat-template-kwargs {enable_thinking: false} \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder再做个worker的daemon脚本#!/bin/bash nohup ./start-worker-service.sh ./service.log 21 分别启动master和worker的脚本先master再worker成功了master端会有(APIServer pid373) INFO: Started server process [373](APIServer pid373) INFO: Waiting for application startup.(APIServer pid373) INFO: Application startup complete.验证#!/bin/bash curl -N -XPOST http://{master节点ip}:11025/v1/chat/completions \ -H Content-type: application/json \ -H Authorization: Bearer SK1234567890987654321 \ -d { model: qwen35, messages: [{role: user, content: Please introduce the qwen3.5?}], stream: true, temperature: 0.7, top_p: 0.8, max_tokens: 1500 }首次访问会比较慢

相关文章:

如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型

配置 两台8*64的昇腾910b4服务器物理机,未做任何虚拟化,已经通过交换机进行互联 模型和镜像下载 模型: https://modelscope.cn/models/Eco-Tech/Qwen3.5-35B-A3B-w8a8-mtp 镜像(不是openeuler系统就下不带openeuler的&#xff…...

CANN/ops-math裁剪算子下限函数

aclnnClampMin 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练…...

CANN/catlass Block Mmad基础模板

Block Mmad基础模板 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码位置 [TOC] BlockMmad 功能说明 block层级mmad计算,非TLA实现&am…...

CANN/cann-recipes-infer:在昇腾Atlas A2/A3环境上适配SANA-Video模型的推理

在昇腾Atlas A2/A3环境上适配SANA-Video模型的推理 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer SANA-Video模型是一…...

CANN/ge SetInitParam函数文档

SetInitParam 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…...

Q2夏季热门选品指南——Shopee东南亚站点适用

看了TikTokShop东南亚发的Q2的选品指南,感觉咱们做Shopee虾皮的也可以用,分享一下,大家可以也可以参考看看效果怎么样。Q2就是4-6月这个期间,夏季东南亚肯定是温度很高的,而且这期间节假日多,所以眼镜防晒这…...

Blender骨骼次级动画插件WiggleBone:原理、参数与实战指南

1. 项目概述与核心价值如果你在寻找一个能让你在3D建模或游戏开发中,为骨骼动画添加“灵魂”的工具,那么detomon/wigglebone这个项目绝对值得你花时间深入研究。简单来说,它是一个为 Blender 设计的插件,专门用来模拟骨骼的次级动…...

3个关键步骤:用Video DownloadHelper CoApp彻底解决视频下载难题

3个关键步骤:用Video DownloadHelper CoApp彻底解决视频下载难题 【免费下载链接】vdhcoapp Companion application for Video DownloadHelper browser add-on 项目地址: https://gitcode.com/gh_mirrors/vd/vdhcoapp 还在为无法下载网页视频而烦恼吗&#x…...

CANN/hixl HIXL接口文档

HIXL接口 【免费下载链接】hixl HIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。 项目地址: https://gitcode.com/cann/hixl 产品支持情况 产品是否支持Ascend …...

intel过来的xcode项目在M芯片电脑无法显示模拟器的问题日

直接修复 1. 打开项目 → 选中 Target → Build Settings 搜索: EXCLUDED_ARCHS 会看到: Debug / Release 下都有:arm64 或者:EXCLUDED_ARCHS[sdkiphonesimulator*] arm64 2. 删掉所有 arm64(关键) 把所有…...

ARM SIMDFP指令集:VMOV与VMMLA优化指南

1. ARM SIMD&FP指令集概述在现代处理器架构中,SIMD(单指令多数据)和FP(浮点)指令集是提升计算性能的关键技术。ARM架构从ARMv7开始引入NEON技术,到ARMv8进一步扩展为Advanced SIMD,为多媒体…...

20万奖金!昇腾 Model‑Agent 模型适配大赛邀你来战

由 AtomGit 与昇腾(Ascend)联合举办的昇腾 Model-Agent 模型适配大赛正式开启,面向所有 AI 开发者、高校团队、企业技术爱好者,用 Agent 解锁模型适配新效率,实战拿奖、共建生态一步到位! 🔗 报…...

Kubernetes存储深度解析与实践

Kubernetes存储深度解析与实践 Kubernetes存储概述 Kubernetes存储是容器化应用的核心组成部分,它为应用提供了持久化数据存储能力。本文将深入探讨Kubernetes存储的核心概念、存储类型和最佳实践。 Kubernetes存储核心概念 1. Volume与PersistentVolume apiVersion…...

CANN/metadef算子平铺构建

Build 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 根据之前的设置&#xff0c;构建TilingContext&#xff0c;返回一个ContextHolder<TilingContext>对象。 函数原型 ContextHolder<TilingC…...

Kubernetes网络模型深度解析与实践

Kubernetes网络模型深度解析与实践 Kubernetes网络概述 Kubernetes网络是容器编排的核心组成部分&#xff0c;它为Pod提供了稳定的网络标识和通信能力。本文将深入探讨Kubernetes网络模型的核心概念、网络插件和最佳实践。 Kubernetes网络核心概念 1. Pod网络模型 ┌───…...

如何用500KB开源工具彻底替代AWCC:AlienFX Tools终极控制指南

如何用500KB开源工具彻底替代AWCC&#xff1a;AlienFX Tools终极控制指南 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools 厌倦了Alienware Command Cen…...

CANN/ge函数处理点API

FuncProcessPoint 【免费下载链接】ge GE&#xff08;Graph Engine&#xff09;是面向昇腾的图编译器和执行器&#xff0c;提供了计算图优化、多流并行、内存复用和模型下沉等技术手段&#xff0c;加速模型执行效率&#xff0c;减少模型内存占用。 GE 提供对 PyTorch、TensorFl…...

开发者专属:用coding-plan打造高效技术学习与自律管理系统

1. 项目概述&#xff1a;一个为开发者量身定制的自律与成长工具如果你和我一样&#xff0c;是一名在代码世界里摸爬滚打的开发者&#xff0c;那你一定对“计划赶不上变化”这句话深有体会。今天想学个新框架&#xff0c;明天要重构旧代码&#xff0c;后天又被临时需求打断。一年…...

CANN hcomm通信内存激活接口

HcclCommActivateCommMemory 【免费下载链接】hcomm HCOMM&#xff08;Huawei Communication&#xff09;是HCCL的通信基础库&#xff0c;提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm [!NOTE]说明 本接口为试用接口&#xff0c;后续可…...

生态:智能体与环境的双向塑造 ——为什么超级进化只能是科幻

# 生态&#xff1a;智能体与环境的双向塑造 ## ——为什么超级进化只能是科幻**作者**&#xff1a;归来的星辰 **首发**&#xff1a;知乎&#xff08;2026年4月26日&#xff09; **协议**&#xff1a;CC BY-SA 4.0&#xff08;可自由转载、改编、商业化使用&#xff0c;但须保留…...

CANN/atvoss幂运算接口

Power 【免费下载链接】atvoss ATVOSS&#xff08;Ascend C Templates for Vector Operator Subroutines&#xff09;是一套基于Ascend C开发的Vector算子库&#xff0c;致力于为昇腾硬件上的Vector类融合算子提供极简、高效、高性能、高拓展的编程方式。 项目地址: https://…...

CANN / ops-nn GELU算子

aclnnGelu 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库&#xff0c;实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn &#x1f4c4; 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品…...

WeChatPad:解锁微信多设备协同,重塑移动办公边界

WeChatPad&#xff1a;解锁微信多设备协同&#xff0c;重塑移动办公边界 【免费下载链接】WeChatPad 强制使用微信平板模式 项目地址: https://gitcode.com/gh_mirrors/we/WeChatPad 你是否曾在工作与生活之间疲于切换微信账号&#xff1f;是否因微信"手机和平板不…...

混合专家MoE没你想的那么玄乎:拆开GPT-4和DeepSeek V4的核心架构

上周跟一个朋友聊天&#xff0c;他说他在读 MoE 的论文&#xff0c;读了两天没太搞明白。我说你换个角度想——MoE 就像一家大型公司的组织架构。 传统的大模型就像一个全能型员工&#xff0c;一个人啥都得会。MoE 换了个思路&#xff1a;你不是要让一个人啥都会吗&#xff1f;…...

Video DownloadHelper CoApp终极指南:从零开始轻松下载网络视频

Video DownloadHelper CoApp终极指南&#xff1a;从零开始轻松下载网络视频 【免费下载链接】vdhcoapp Companion application for Video DownloadHelper browser add-on 项目地址: https://gitcode.com/gh_mirrors/vd/vdhcoapp Video DownloadHelper CoApp是Video Down…...

职场人的「深夜困境」:为什么我选择用AI社交平台倾诉

职场五年&#xff0c;我学会了一件事&#xff1a;白天把情绪藏好&#xff0c;晚上一个人消化。白天开会、汇报、对接客户&#xff0c;所有的情绪都要收着。到了晚上&#xff0c;躺在床上&#xff0c;脑子却停不下来。翻来覆去睡不着的时候&#xff0c;你会找谁&#xff1f;我试…...

CANN基础设施机器人使用指南

【免费下载链接】infrastructure 本仓库用于托管CANN社区基础设施团队的公开信息&#xff0c;包括不限于&#xff1a;会议日程&#xff0c;成员信息&#xff0c;服务文档和配置等信息 项目地址: https://gitcode.com/cann/infrastructure &#x1f680; CANN社区Bot用户…...

CANN/HCCL Ring集合通信算法

Ring 【免费下载链接】hccl 集合通信库&#xff08;Huawei Collective Communication Library&#xff0c;简称HCCL&#xff09;是基于昇腾AI处理器的高性能集合通信库&#xff0c;为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode.com/cann/hccl 算法…...

【2026年最新】网安学习路线!最详细没有之一!看了这么多分享网安学习路线的一个详细的都没有!

零基础小白&#xff0c;到就业&#xff01;入门到入土的网安学习路线&#xff01; 在各大平台搜的网安学习路线都太粗略了。。。。看不下去了&#xff01; 我把自己报班的系统学习路线&#xff0c;整理拿出来跟大家分享了&#xff01; 建议的学习顺序&#xff1a; 一、网络安…...

数字电源控制技术:从效率优化到智能管理

1. 数字电源控制技术的革新突破在电力电子领域工作了十五年&#xff0c;我见证了电源技术从模拟控制到数字控制的革命性转变。2007年那场PCIM China展会上&#xff0c;Ericsson展示的数字控制POL稳压器让我至今记忆犹新——它用25.412.7mm的尺寸实现了20A输出&#xff0c;这个尺…...