当前位置：首页 > news >正文

qwen大模型，推理速度慢，单卡/双卡速度慢，flash-attention安装，解决方案

news 2026/4/7 1:34:15

场景

阿里的通义千问qwen大模型，推理速度慢，单卡/双卡速度慢。
详细：
1、今日在使用qwen-14b的float16版本进行推理（BF16/FP16)
1.1 在qwen-14b-int4也会有同样的现象
2、使用3090 24G显卡两张
3、模型加载的device是auto，device=“auto”

解决方案

使用多卡推理，需要开启flash-attention，否则会慢

flash-attention安装

0、如果已经下载了qwen的源码，可以看到源码包里有flash-attention的文件夹。或者也可以去达摩院的git上下载：flash-attention的git地址
在这里插入图片描述
1、cd flash-attention
2、python setup.py install
2.1、在执行这句命令时，可能会报Could not build wheels for flash-attn, which is required to install pyproject.toml-based projects（如果不报，当我没说）

这里我的解决方法是执行

pip install flash-attn --no-build-isolation

还没结束，继续往下
3、至此就有了flash-attn包了，但是加载模型的时候，还是会报警告，这时的推理速度依旧是很慢的

Try importing flash-attention for faster inference...
Warning: import flash_attn rotary fail, please install FlashAttention rotary to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/rotary
Warning: import flash_attn rms_norm fail, please install FlashAttention layer_norm to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/layer_norm

在这里插入图片描述

4、继续安装rotary和layer_norm

# 安装rotary
cd flash-attention
cd csrc/rotary
python setup.py install# 安装layer_norm
cd flash-attention
cd csrc/layer_norm
python setup.py install

5、至此安装完成，加载模型，不会报flash-attention的警告，加载速度也有显著的提升。

6、安装前，我尝试2048字数结果的问答，

qwen-14b回答需要100秒，安装后需要70秒
qwen-14b-int4回答需要60秒，安装后需要20秒

qwen大模型，推理速度慢，单卡/双卡速度慢，flash-attention安装，解决方案

场景

解决方案

flash-attention安装

相关文章：

qwen大模型，推理速度慢，单卡/双卡速度慢，flash-attention安装，解决方案

3.SpringSecurity基于数据库的认证与授权

【软件测试】自动化测试selenium

如何解决Google play开发者新注册账号，身份验证的地址证明问题？

Gin vs Beego: Golang的Web框架之争

javascript IP地址正则表达式

【Bash】记录一个长命令换行的BUG

【.net core】yisha框架imageupload组件多图上传修改

vscode markdown 使用技巧 -- 如何快速打出一个Tab 或多个空格

I/O 模型学习笔记【全面理解BIO/NIO/AIO】

【Python学习笔记】字符编码

华为昇腾NPU卡大模型LLM ChatGLM2模型推理使用

Git 拉取远程更新报错

腾讯云国际站服务器端口开放失败怎么办？

一句话解释什么是出口IP

深入理解强化学习——强化学习的历史：试错学习

分享一个用HTML、CSS和jQuery构建的漂亮的登录注册界面

Java学习习题 1.

第六节——Vue中的事件

设置GridView单选

ATtiny85轻量级图形库应用与优化

自动化视频配音流水线：CosyVoice与AE脚本结合实战

nuviot嵌入式物联网库：GP001平台端到端连接方案

OpenClaw多模型切换术：Gemma-3-12b-it与Qwen3-32B混合调用指南

Linux内核中的命名空间技术详解

从需求到原型自动生成！传统产品经理升级AI产品架构师的智能化研发工作流

如何用 AI Agent Harness Engineering 重构企业生产流程：一套可复制的落地方法论

开源抽卡模拟器：浏览器中的原神资源策略实验室

瑞典隆德大学 AI 模型血检识别 5 种神经疾病

可变形卷积（Deformable Convolution）原理与在YOLOv11中的集成