当前位置：首页 > news >正文

解决whisper 本地运行时GPU 利用率不高的问题

news 2026/2/10 4:33:29

我在windows 环境下本地运行whisper 模型，使用的是nivdia RTX4070 显卡，结果发现GPU 的利用率只有2% 。使用

import torch
print(torch.cuda.is_available())

返回TRUE。表示我的cuda 是可用的。

最后在github 的下列网页上找到了问题

极低的 GPU 利用率 #140

最关键的是

1 .运行之前，清除GPU 缓存

torch.cuda.empty_cache()

2 使用小的whisper 模型，我使用

model =load_model("base").to("cuda")

3 最关键的是在model.transcribe的参数中设置 beam_size = 5，一下子GPU 的利用率到了20%，当beam_size = 8 时，GPU 利用率可达30%左右。

model.transcribe(arr,language="en", prompt=prompt,fp16 =False,beam_size = 8,verbose =True,condition_on_previous_text =False)["text"]

下面是我完整的测试程序

import os
import sys
import os.path
import openai
#from dotenv import load_dotenv
import torch
#import whisper
from whisper  import load_model
import numpy as np
#from pyannote.audio import Pipeline
from pydub import AudioSegment
#os.environ['OPENAI_API_KEY'] ="sk-ZqGx7uD7sHMyITyIrxFDjbvVEAi84izUGGRwN23N9NbnqTbL"
#os.environ['OPENAI_BASE_URL'] ="https://api.chatanywhere.tech/v1"
print(torch.cuda.is_available())
torch.cuda.empty_cache()
model =load_model("base").to("cuda")
audio = AudioSegment.from_mp3("daily.mp3") #sys.argv[1]segment_length = 25 * 60
duration = audio.duration_seconds
print('Segment length: %d seconds' % segment_length)
print('Duration: %d seconds' % duration)segment_filename = os.path.basename("daily.mp3") #sys.argv[1]
segment_filename = os.path.splitext(segment_filename)[0]
number_of_segments = int(duration / segment_length)
segment_start = 0
segment_end = segment_length * 1000
enumerate = 1
prompt = ""for i in range(number_of_segments):audio_segment = audio[segment_start:segment_end]exported_file = './tmp/' + segment_filename + '-' + str(enumerate) + '.mp3'audio_segment.export(exported_file, format="mp3")print('Exported segment %d of %d' % (enumerate, number_of_segments))#f = open(exported_file, "rb")#audio_segment = audio[segment_start:segment_end]if audio_segment.frame_rate != 16000: # 16 kHzaudio_segment = audio_segment.set_frame_rate(16000)if audio_segment.sample_width != 2:   # int16audio_segment = audio_segment.set_sample_width(2)if audio_segment.channels != 1:       # monoaudio_segment = audio_segment.set_channels(1)        arr = np.array(audio_segment.get_array_of_samples())arr = arr.astype(np.float32)/32768.0#beam_size = 5非常重要，=8 GPU 利用率30%左右data = model.transcribe(arr,language="en", prompt=prompt,fp16 =False,beam_size = 8,verbose =True,condition_on_previous_text =False)["text"]print('Transcribed segment %d of %d' % (enumerate, number_of_segments))f = open(os.path.join('./transcripts/', segment_filename + '.txt'), "a")f.write(data)f.close()prompt += datasegment_start += segment_length * 1000segment_end += segment_length * 1000enumerate += 1

beam_size到底是什么意思我并没有搞清楚

beam size（又名 beam width）控制生成输出时每个步骤中探索的路径数。这是个啥呀？

解决whisper 本地运行时GPU 利用率不高的问题

我在windows 环境下本地运行whisper 模型，使用的是nivdia RTX4070 显卡，结果发现GPU 的利用率只有2% 。使用 import torch print(torch.cuda.is_available()) 返回TRUE。表示我的cuda 是可用的。最后在github 的下列网页上找到了问题极低的 GPU 利…...

编程日记 2025/2/7 23:41:00

模拟实战-用CompletableFuture优化远程RPC调用

实战场景这是广州某500-900人互联网厂的面试原题手写并发优化解决思路我们要调用对方的RPC接口，我们的RPC接口每调用一次对方都会阻塞50ms 但是我们的业务要批量调用RPC，例如我们要批量调用1k次，我们不可能在for循环里面写1k次远程调用…...

编程日记 2025/2/7 23:39:58

深入解析：Jsoup 库的多功能应用场景

Jsoup 是一个强大的 Java 库，主要用于解析和操作 HTML 文档。它不仅广泛应用于网络爬虫和数据抓取，还在网页内容分析、数据清洗与处理、自动化测试等多个领域有着广泛的应用。本文将详细介绍 Jsoup 库的多种用途，并提供具体的代码示例。一、…...

编程日记 2025/2/7 23:37:53

Polardb三节点集群部署安装--附虚拟机

1. 架构 PolarDB-X 采用 Shared-nothing 与存储计算分离架构进行设计，系统由4个核心组件组成。计算节点（CN, Compute Node） 计算节点是系统的入口，采用无状态设计，包括 SQL 解析器、优化器、执行器等模块。负责数据…...

编程日记 2025/2/7 23:35:51

Redis - 全局ID生成器 RedisIdWorker

文章目录 Redis - 全局ID生成器 RedisIdWorker一、引言二、实现原理三、代码实现代码说明四、使用示例示例说明五、总结 Redis - 全局ID生成器 RedisIdWorker 一、引言在分布式系统中，生成全局唯一ID是一个常见的需求。传统的自增ID生成方式在分布式环境下容易出…...

编程日记 2025/2/7 23:28:38

【Vitest】单元测试

文章目录测试：Vitest一、安装二、断言三、回调测试四、对象方法五、模拟第三库测试：Vitest 一、安装 npm install vitest创建文件：example.test.ts 运行测试： npx vitest example二、断言 import { expect, test } from vi…...

编程日记 2025/2/7 23:26:32

达梦数据库从单主模式转换为主备模式

目录标题达梦数据库单主转主备配置笔记前期准备服务器环境数据库安装磁盘空间流程流程图说明基于脱机备份方式的单实例转主备流程图详细步骤说明详细步骤1. 检查主库归档模式2. 配置主库配置文件dm.ini 文件dmmal.ini 文件dmarch.ini 文件 3. 备份主库数据库4. 备库配置新建…...

编程日记 2025/2/7 23:24:26

【Elasticsearch】nested聚合

在 Elasticsearch 中，嵌套聚合（nestedaggregation）的语法形式用于对嵌套字段（nestedfields）进行聚合操作。嵌套字段是 Elasticsearch 中的一种特殊字段类型，用于存储数组中的对象，这些对象需要独…...

编程日记 2025/2/7 23:22:22

虹科波形小课堂 | 三分钟掌握车辆相对压缩测试！不拆发动机、不测缸压就能判断故障缸！

不拆发动机、不测缸压，只测个电流也能知道哪个缸压缩有问题？没错！做个相对压缩测试，测下起动电流就行，简单又实用！今天，从原理到方法，几分钟教会你！ 我们都知道&#xf…...

编程日记 2025/2/7 23:19:16

【玩转全栈】--创建一个自己的vue项目

目录 vue介绍创建vue项目 vue页面介绍 element-plus组件库启动项目 vue介绍 Vue.js 是一款轻量级、易于上手的前端 JavaScript 框架，旨在简化用户界面的开发。它采用了响应式数据绑定和组件化的设计理念，使得开发者可以通过声明式的方式轻松管理数据和…...

编程日记 2025/2/7 23:04:54

基于 Spring Cloud + Spring AI + VUE 的知识助理平台介绍以及问题

前言（一些废话） 在看这篇文章的各位大佬，感谢你们留出几分钟时间，来看这个产品介绍，其实重点说实话，不是这个产品怎么样。而是在最后有一个郁结在心里的几个问题，希望大佬们能给出一些建议。万…...

编程日记 2025/2/7 23:00:49

＜自用文儿＞下载 MaxMind GeoIP Databases 对攻击的 IP 做地理分析

起因两个 VPM/VPS，安装了 fail2ban 去拦截密码穷举攻击。每天的记录都在增长，以前复制屏幕输出就行，一屏的内容还容易粘贴出来的。昨天已经过 500 条，好奇 fail2ban 是如何存储这些内容的？就发现它在使用 SQLite3 数…...

编程日记 2025/2/7 22:59:48

前端知识速记：重绘和回流

前端知识速记：重绘和回流一、什么是重绘与回流 1. 重绘（Repaint） 重绘是指当元素的外观发生变化时，浏览器需要重新绘制这些元素。由于这些操作不会改变元素占据的空间，因此不需要进行回流。常见的重绘操作包括&…...

编程日记 2025/2/7 22:57:46

webrtc peerconnection_client peerconnection_server 连接失败问题解决 win10 win11

0 常见问题 (1) webrtc peerconnection_client 连接 peerconnection_server 无连接列表 （2）连接导致崩溃debug状态下因为这个断言 RTC_DCHECK_RUN_ON(&capture_checker_); 1 在 peerconnection\client\main.cc 当中定义类 class CustomSock…...

编程日记 2025/2/7 22:56:43

【C++】STL——list的使用与底层实现

目录 💕1.带头双向链表List 💕2.list用法介绍 💕3.list的初始化 💕4.size函数与resize函数 💕5.empty函数 💕6.front函数与back函数 💕7.push_front,push_back,pop_front,pop_back函数…...

编程日记 2025/2/7 22:55:41

iOS 音频录制、播放与格式转换

iOS 音频录制、播放与格式转换：基于 AVFoundation 和 FFmpegKit 的实现在 iOS 开发中，音频处理是一个非常常见的需求，比如录音、播放音频、音频格式转换等。本文将详细解读一段基于 AVFoundation 和 FFmpegKit 的代码，展示如何实现音频录制、播放以及 PCM 和 AAC 格式之间…...

编程日记 2025/2/7 22:54:39

【PyTorch】解决Boolean value of Tensor with more than one value is ambiguous报错

理解并避免 PyTorch 中的 “Boolean value of Tensor with more than one value is ambiguous” 错误在深度学习和数据科学领域，PyTorch 是一个强大的工具，它允许我们以直观和灵活的方式处理张量（Tensor）。然而，即使…...

编程日记 2025/2/7 22:52:37

Jsoup库具体怎么用？

Jsoup 是一个非常强大的 Java 库，用于解析和操作 HTML 文档。它提供了丰富的功能，包括发送 HTTP 请求、解析 HTML 内容、提取数据、修改 HTML 元素等。以下将详细介绍 Jsoup 的基本用法和一些高级功能，帮助你更好地使用 Jsoup 进行网络爬虫开…...

编程日记 2025/2/7 22:51:29

python：如何播放 .spx 声音文件

.spx 是 Speex音频编解码器的文件扩展名，它是一种开源的、免费的音频编解码器，主要用于语音压缩和语音通信领域。spx 文件通常用于语音记录、VoIP应用、语音信箱等场景。 .mp3 是一种广泛使用的音频格式，它采用了有损压缩算法，可…...

编程日记 2025/2/7 22:50:25

HTML学习笔记（6）

利用dom操作实现，对一个表格的增删改查代码如下： todolist.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, …...

编程日记 2025/2/7 22:49:23

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/8 21:59:25

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

Day131 | 灵神 | 回溯算法 | 子集型子集

Day131 | 灵神 | 回溯算法 | 子集型子集 78.子集 78. 子集 - 力扣（LeetCode） 思路： 笔者写过很多次这道题了，不想写题解了，大家看灵神讲解吧回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...

编程新知 2026/1/23 12:37:51

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2026/1/4 5:02:00

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/11/6 8:47:31

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路在Android中，可以通过监听键盘的显示和隐藏事件，动态调整弹窗的位置。关键点在于获取键盘高度，并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

编程新知 2025/10/6 18:46:56

Go 语言并发编程基础：无缓冲与有缓冲通道

在上一章节中，我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道，它们在并发编程中各具特点和应用场景。一、通道的基本分类类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

编程新知 2026/1/29 3:25:02

基于SpringBoot在线拍卖系统的设计和实现

摘要随着社会的发展，社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。在线拍卖系统，主要的模块包括管理员；首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

编程新知 2026/1/26 13:25:02

相关文章：