当前位置：首页 > article >正文

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

article 2026/2/8 11:21:22

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试

最开始拉取ktransformers:v0.3.1-AVX512版本，发现无论如何都启动不了大模型，后来发现是cpu不支持avx512指令集。

由于本地cpu不支持amx指令集，因此下载avx2版本镜像：

1.下载docker镜像并运行


docker pull approachingai/ktransformers:v0.3.1-AVX2
docker run -it --gpus all --privileged --shm-size 64g --name ktrans --network=host -v /home/xugq/models/:/models approachingai/ktransformers:v0.3.1-AVX512 /bin/bash

2.确定挂载卷并进入容器

通过该命令查看挂载卷：

docker inspect ktrans | grep -A 10 "Mounts"

执行结果：

 "Mounts": [{"Type": "bind","Source": "/home/xugq/models/Qwen3-30B-A3B-GGUF","Destination": "/Qwen3-30B-A3B-GGUF","Mode": "","RW": true,"Propagation": "rprivate"}],"Config": {

执行以下命令进入容器内部：

docker exec -it ktrans bash

3.启动qwen3-moe模型

执行以下代码启动Qwen 3 MoE ：（注意model_path文件路径是容器内部的挂载路径，因为是在容器内部启动命令）

#普通指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path /Qwen3-30B-A3B-GGUF --gguf_path /Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve.yaml --backend_type balance_serve --port 8999

#支持amx指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path <model_dir> --gguf_path <gguf_dir> --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve-amx.yaml --backend_type balance_serve

一些可添加的额外参数参数：

--chunk_size: Maximum number of tokens processed in a single run by the engine.
--chunk_size：引擎在一次运行中处理的最大令牌数。
--cache_lens: Total length of kvcache allocated by the scheduler. All requests share a kvcache space corresponding to 32768 tokens, and the space occupied will be released after the requests are completed.
--cache_透镜 ：调度程序分配的 kvcache 的总长度。所有请求共享一个 kvcache 空间，对应 32768 个 token，请求完成后释放所占用的空间。
--backend_type: balance_serve is a multi-concurrency backend engine introduced in version v0.2.4. The original single-concurrency engine is ktransformers.
--backend_type：balance_serve 是 v0.2.4 中引入的多并发后端引擎。最初的单并发引擎是 ktransformers。
--max_batch_size: Maximum number of requests (prefill + decode) processed in a single run by the engine. (Supported only by balance_serve)
--max_batch_size：引擎在一次运行中处理的最大请求数（预填充+解码）。（仅支持 balance_serve）

4.调用模型测试性能

访问服务器测试响应速度：

curl -X POST http://localhost:8999/v1/chat/completions \-H "accept: application/json" \-H "Content-Type: application/json" \-d '{"messages": [{"role": "user", "content": " <no_think>贵阳市有什么美丽的景点可以去旅游？"}],"model": "Qwen3-30B-A3B","temperature": 0.3,"top_p": 1.0,"stream": false
}'

收到回复：
请添加图片描述

查看服务器后台日志：
请添加图片描述

分析关键性能指标：

Performance(T/s): prefill 58.34309968405152, decode 19.089551765073455. Time(s): tokenize 0.023163557052612305, prefill 0.37707972526550293, decode 26.035184383392334

Prefill（预填充）阶段：
- 速度：58.34 tokens/s
- 耗时：0.38 秒
- 说明：处理用户输入提示词（prompt）的速度，该阶段并行计算能力强，吞吐量高。
Decode（解码）阶段：
- 速度：19.09 tokens/s
- 耗时：26.04 秒
- 说明：逐token生成回复内容的速度，受自回归生成特性限制，吞吐量较低。
Tokenizer（分词）阶段：
- 耗时：0.023 秒
- 耗时：26.04 秒
- 说明：逐token生成回复内容的速度，受自回归生成特性限制，吞吐量较低。
Tokenizer（分词）阶段：
- 耗时：0.023 秒
- 说明：将文本转换为模型输入token的时间，通常不是瓶颈。

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试最开始拉取ktransformers:v0.3.1-AVX512版本，发现无论如何都启动不了大模型，后来发现是cpu不支持avx512指令集。由于本地cpu不支持amx指令集，因此下载avx2版本镜像： …...

编程日记 2026/2/6 5:56:41

应用分享 | 精准生成和时序控制！AWG在确定性三量子比特纠缠光子源中的应用

在量子技术飞速发展的今天，实现高效稳定的量子态操控是推动量子计算、量子通信等领域迈向实用化的关键。任意波形发生器（AWG）作为精准信号控制的核心设备，在量子实验中发挥着不可或缺的作用。丹麦哥本哈根大学的研究团队基于单个量…...

编程日记 2026/2/6 4:17:05

相机--相机标定实操

教程 camera_calibration移动画面示例 usb_cam使用介绍和下载标定流程单目相机标定我使用的是USB相机，所以直接使用ros的usb_cam功能包驱动相机闭关获取实时图像，然后用ros的camera_calibration标定相机。 1,下载usb_cam和camera_calibration: …...

编程日记 2026/2/6 10:20:33

深入理解汇编语言中的顺序与分支结构

本文将结合Visual Studio环境配置、顺序结构编程和分支结构实现，全面解析汇编语言中的核心编程概念。通过实际案例演示无符号/有符号数处理、分段函数实现和逻辑表达式短路计算等关键技术。一、汇编环境配置回顾（Win32MASM） 在Visual Studi…...

编程日记 2025/9/24 8:01:46

DAY43 复习日

浙大疏锦行-CSDN博客 kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：把项目拆分成多个文件 src/config.py: 用于存放项目配置，例如文件路径、学习率、批次大小等。 # src/config.py# Paths DATA_DIR "data…...

编程日记 2026/2/6 9:20:35

【仿生机器人】仿生机器人智能架构：从感知到个性的完整设计

仿生机器人智能架构：从感知到个性的完整设计仿生机器人不仅需要模拟人类的外表，更需要具备类人的认知、情感和个性特征。本研究提出了一个综合性的软件架构，实现了从环境感知到情感生成、从实时交互到人格塑造的完整智能系统。该架构突破了…...

编程日记 2025/9/23 7:55:44

【业务框架】3C-相机-Cinemachine

概述插件，做相机需求，等于相机老师傅多年经验总结的工具 Feature Transform：略Control Camera：控制相机参数Noise：增加随机性Blend：CameraBrain的混合列表指定一个虚拟相机到另一个相机的过渡&#xff…...

编程日记 2025/12/10 4:40:40

【Auto.js例程】华为备忘录导出到其他手机

目录问题描述方法步骤1.安装下载Visual Studio Code2.安装扩展3.找到Auto.js插件，并安装插件4.启动服务器5.连接手机6.撰写脚本并运行7.本文实现功能的代码8.启动手机上的换机软件问题描述问题背景：华为手机换成一加手机，华为备忘录无法批…...

编程日记 2026/2/6 7:21:41

单片机的低功耗模式

什么是低功耗？ STM32的低功耗（low power mode）特性是其嵌入式处理器系列的一个重要优势，特别适用于需要长时间运行且功耗敏感的应用场景，如便携式设备、物联网设备、智能家居系统等。在很多应用场合中都对电子设备的…...

编程日记 2026/1/27 17:29:21

架构师级考验！飞算 JavaAI 炫技赛：AI 辅助编程解决老项目难题

当十年前 Hibernate 框架的 N1 查询隐患在深夜持续困扰排查，当 SpringMVC 控制器中错综复杂的业务逻辑在跨语言迁移时令人抓狂，企业数字化进程中的百万行老系统，已然成为暗藏危机的 “技术债冰山”。而此刻，飞算科技全新发布的 Ja…...

编程日记 2026/2/6 6:58:44

手机端抓包大麦网抢票协议：实现自动抢票与支付

🚀 手机端抓包大麦网抢票协议：实现自动抢票与支付 🚀 🔥 你是否还在为抢不到热门演出票而烦恼？本文将教你如何通过抓包技术获取大麦网抢票协议，并编写脚本实现自动化抢票与支付！🔥 …...

编程日记 2026/2/6 8:53:02

使用阿里云百炼embeddings+langchain+Milvus实现简单RAG

使用阿里云百炼embeddingslangchainMilvus实现简单RAG 注意测试时，替换其中的key、文档等 import os from langchain_community.embeddings import DashScopeEmbeddings from langchain_community.vectorstores import Milvus from langchain_text_splitters impor…...

编程日记 2025/11/9 15:57:19

C#合并CAN ASC文件：实现与优化

C#合并CAN ASC文件：实现与优化在汽车电子和工业控制领域，CAN（Controller Area Network）总线是一种广泛使用的通信协议。CAN ASC（American Standard Code）文件则是记录CAN总线通信数据的标准格式&#xff…...

编程日记 2025/10/16 8:15:16

[TIP] Ubuntu 22.04 配置多个版本的 GCC 环境

问题背景在 Ubuntu 22.04 中安装 VMware 虚拟机时，提示缺少 VMMON 和 VMNET 模块编译这两个模块需要 GCC 的版本大于 12.3.0，而 Ubuntu 22.04 自带的 GCC 版本为 11.4.0 因此需要安装对应的 GCC 版本，但为了不影响其他程序，需…...

编程日记 2026/1/26 14:13:43

如何思考？分析篇

现代人每天刷 100 条信息，却难静下心读 10 页书。前言： 我一直把思考当作一件生活中和工作中最为重要的事情。但是我发现当我想写一篇跟思考有关的文章时，却难以下手。因为思考是一件非常复杂的事情，用文字描述十分的困难。读书…...

编程日记 2026/2/6 7:16:18

Redis：Hash数据类型

🌈 个人主页：Zfox_ 🔥 系列专栏：Redis 🔥 Hash哈希 🐳 ⼏乎所有的主流编程语⾔都提供了哈希（hash）类型，它们的叫法可能是哈希、字典、关联数组、映射。在Redis中&#…...

编程日记 2026/2/6 6:36:22

抗辐照MCU在卫星载荷电机控制器中的实践探索

摘要:在航天领域，卫星系统的可靠运行对电子元件的抗辐照性能提出了严苛要求。微控制单元（MCU）作为卫星载荷电机控制器的核心部件，其稳定性与可靠性直接关系到卫星任务的成败。本文聚焦抗辐照MCU在卫星载荷电机控制器中的应用实践&…...

编程日记 2026/1/31 1:00:36

快捷键的记录

下面对应的ATL数字 ATL4 显示编译输出 CTRL B 编译 CTRLR 运行exe 菜单栏 ALTF ALTE ALTB ALTD ALTH...

编程日记 2026/2/7 9:35:03

Python读取阿里法拍网的html+解决登录cookie

效果图 import time from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager from lxml import etreedef get_taobao_auct…...

编程日记 2026/1/18 7:47:42

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试

1.下载docker镜像并运行

3.启动qwen3-moe模型

4.调用模型测试性能

相关文章：

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

应用分享 | 精准生成和时序控制！AWG在确定性三量子比特纠缠光子源中的应用

相机--相机标定实操

深入理解汇编语言中的顺序与分支结构

DAY43 复习日

【仿生机器人】仿生机器人智能架构：从感知到个性的完整设计

【业务框架】3C-相机-Cinemachine

【Auto.js例程】华为备忘录导出到其他手机

单片机的低功耗模式

架构师级考验！飞算 JavaAI 炫技赛：AI 辅助编程解决老项目难题

手机端抓包大麦网抢票协议：实现自动抢票与支付

使用阿里云百炼embeddings+langchain+Milvus实现简单RAG

C#合并CAN ASC文件：实现与优化

[TIP] Ubuntu 22.04 配置多个版本的 GCC 环境

如何思考？分析篇

Redis：Hash数据类型

抗辐照MCU在卫星载荷电机控制器中的实践探索

快捷键的记录

Python读取阿里法拍网的html+解决登录cookie

electron-vite串口通信

中山大学美团港科大提出首个音频驱动多人对话视频生成MultiTalk，输入一个音频和提示，即可生成对应唇部、音频交互视频。

Maven的配置与运行

MySQL 迁移至 Docker ，删除本地 mysql

redis分片集群架构

关于物联网的基础知识（一）

浏览器后台服务 vs 在线教育：QPS、并发模型与架构剖析

电脑商城--用户注册登录

Riverpod与GetX的优缺点对比

Three.js怎么工作的？

LangChain面试内容整理-知识点1：LangChain架构与核心理念

docker运行Ktransformers部署Qwen3MOE模型实战及 性能测试

1.下载docker镜像并运行

3.启动qwen3-moe模型

4.调用模型测试性能

相关文章：

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试