当前位置：首页 > news >正文

基于whisper流式语音识别

news 2026/5/28 4:55:26

为了实现持续监听麦克风并在检测到声音时进行转录，我们可以将流的监听时间设置为无限长。通过使用一个音量门限来检测是否有声音，然后进行转录。

安装依赖

确保安装必要的库：

pip install torch torchaudio openai-whisper sounddevice numpy

代码实现

import torch
import whisper
import sounddevice as sd
import numpy as np# 加载预训练的 Whisper 模型
model = whisper.load_model("base")# 设置模型为评估模式
model.eval()# 定义流式解码函数
def stream_decode(audio_buffer, sample_rate=16000):audio_tensor = torch.tensor(audio_buffer).float()result = model.transcribe(audio_tensor, fp16=False)return result['text']# 音频缓冲区和其他参数
buffer_size = 16000  # 每个音频块的大小（1秒）
audio_buffer = np.zeros(buffer_size * 10, dtype=np.float32)  # 预留10秒缓冲区
buffer_offset = 0
silence_threshold = 0.01  # 声音门限# 麦克风回调函数
def callback(indata, frames, time, status):global audio_buffer, buffer_offsetif status:print(status, flush=True)# 计算当前音频块的音量volume_norm = np.linalg.norm(indata) * 10if volume_norm > silence_threshold:# 将新音频数据复制到缓冲区audio_buffer[buffer_offset:buffer_offset+frames] = indata[:, 0]buffer_offset += frames# 当缓冲区达到或超过设定的大小时进行处理if buffer_offset >= buffer_size:text = stream_decode(audio_buffer[:buffer_size])print(f"Transcription: {text}", flush=True)# 移动缓冲区的数据audio_buffer = np.roll(audio_buffer, -buffer_size)buffer_offset -= buffer_sizeelse:# 如果检测到的音量低于门限，将缓冲区位置重置buffer_offset = 0# 启动麦克风流
def start_streaming():stream = sd.InputStream(callback=callback, channels=1, samplerate=16000, blocksize=buffer_size)with stream:print("Listening...")while True:sd.sleep(1000)  # 继续监听# 开始流式解码
start_streaming()

代码说明

依赖加载：
- torch 和 torchaudio 用于音频处理和模型推理。
- whisper 是 OpenAI 的 Whisper 模型的库，用于加载和使用预训练模型。
- sounddevice 用于从麦克风捕获实时音频。
- numpy 用于音频数据处理。
流式解码函数 stream_decode：
- 接受音频缓冲区并使用 Whisper 模型进行解码。
- 返回解码后的文本。
音频缓冲区和参数设置：
- buffer_size 定义每个音频块的大小，这里设置为1秒（16000个样本）。
- audio_buffer 是一个大小为10秒的预留缓冲区。
- buffer_offset 用于跟踪当前缓冲区的位置。
- silence_threshold 是音量门限，用于检测有无声音。
麦克风回调函数 callback：
- 从麦克风捕获音频数据并将其存储到缓冲区中。
- 计算当前音频块的音量，如果音量超过门限，则将音频数据添加到缓冲区，并进行解码处理。
- 解码后打印转录结果，并移动缓冲区的数据以准备处理下一个音频块。
- 如果音量低于门限，将缓冲区位置重置。
启动麦克风流 start_streaming：
- 使用 sounddevice.InputStream 创建一个音频流，并在回调函数中处理音频数据。
- 启动流并持续运行，通过 while True 循环保持监听状态。

这个示例代码展示了如何实现持续监听麦克风，并在检测到声音时进行实时转录。你可以根据实际需求进一步优化音量门限和缓冲区处理逻辑，以提高性能和准确性。

基于whisper流式语音识别

为了实现持续监听麦克风并在检测到声音时进行转录，我们可以将流的监听时间设置为无限长。通过使用一个音量门限来检测是否有声音，然后进行转录。安装依赖确保安装必要的库： pip install torch torchaudio openai-whisper sounddevice nu…...

编程日记 2024/8/6 6:29:15

Web3 市场暴跌的时候，哪些token跌的少，哪些还涨了? binance 数据爬取及分析

我爬取了 binance 的一千多个币对信息，提取了以 usdt 计价单位的token，然后统计了一下各个 token 的涨跌情况，发现了2个逆势上涨的token，以及一些跌幅比btc，eth少的种类； 跌幅比btc，eth少的种类…...

编程日记 2024/8/6 6:28:13

ffmpeg获得视频的音频文件

要从视频文件中提取音频文件，你可以使用 FFmpeg，这是一个强大的多媒体框架，用于转换、流化以及处理多媒体数据。下面是如何使用 FFmpeg 从视频文件中提取音频的步骤： 1. 确定视频文件的位置： 确保你知道视频文件的完整…...

编程日记 2024/8/6 6:25:09

Robot Operating System——深度解析单线程执行器（SingleThreadedExecutor）执行逻辑

大纲创建SingleThreadedExecutor新增Nodeadd_nodetrigger_entity_recollectcollect_entities 自旋等待get_next_executablewait_for_workget_next_ready_executableTimerSubscriptionServiceClientWaitableAnyExecutable execute_any_executable 参考资料在ROS2中&#xff0c…...

编程日记 2024/8/6 6:24:07

【TS】使用npm全局安装typescript

查看npm安装 npm -v 安装typescript npm i -g typescript 查看安装 tsc 这就是标致着安装完成。...

编程日记 2024/8/6 6:23:06

安全用户角色权限

$PATH 搞系统设置设置⾥头path ⽬标包含mysql 可执⾏⽂件，那么就是由使⽤在终端使⽤ ./bin/mysql -h192.168.71.164 -P3306 -uroot -proot 1.远程登录前提条件是mysql.user表中的host属性为%，如果是 localhost就不允许远程登录，update…...

编程日记 2024/8/6 6:22:05

代理模式学习

代理模式代理模式是常用的java设计模式，他的特征是代理类与委托类有同样的接口，代理类主要负责为委托类预处理消息、过滤消息、把消息转发给委托类，以及事后处理消息等。代理类与委托类之间通常会存在关联关系，一个代理类的对象…...

编程日记 2024/8/6 6:21:04

深入理解Go 语言信号量 Semaphore

1. 什么是信号量信号量的概念是荷兰计算机科学家 1.1 P/V 操作 Dijkstra 在他的论文中为信号量定义了两个操作 : P 和 V 。 1.2 信号量和互斥锁的区别与联系信号量有两种类型：二元信号量和计数信号量。 2. 信号量的 channel 实现程序在运行时，…...

编程日记 2024/8/6 6:20:03

VisualStudio2019下载与安装

1.下载通过百度网盘分享的文件：VisualStudio2019 链接：https://pan.baidu.com/s/16tqm0ZsOkmXTfGmi4LnGbA 提取码：wx60 --来自百度网盘超级会员V3的分享 2.安装...

编程日记 2024/8/6 6:19:02

李宏毅老师机器学习常见英语词汇

目录 1.Regression ：回归2.Classification：分类3.local minima:局部最小值4.saddle point:鞍点5.ground truth:它是机器学习算法的参考标准，用于衡量模型的性的和判断模型的准确性6.optimization:优化 1.Regression ：回归 2.Clas…...

编程日记 2024/8/6 6:18:00

人工智能时代，程序员如何保持核心竞争力？

人工智能时代，程序员如何保持核心竞争力？ 随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工…...

编程日记 2024/8/6 6:17:00

WiFi to Ethernet: 树莓派共享无线连接至有线网口，自动通过Captive Poartal网页登录认证

物联网开发系列：物联网开发之旅① WiFi to Ethernet: 树莓派共享无线连接至有线网口，自动通过Captive Poartal验证物联网开发番外篇之 Captive Portal验证原理文章目录背景实现工具实现细节一、将无线连接共享到以太网1. 配置静态IP地址2. 启用IP转发3…...

编程日记 2024/8/6 6:15:59

【神软大数据治理平台-高级动态SQL（接口开发）】

1、背景业务部门需大数据平台按照所提需求提供企业数据接口，基于神软大数据治理平台-高级动态SQL功能，满足业务需求，如下： （1）业务系统需求： 输入： enterpriseName：…...

编程日记 2024/8/6 6:14:57

【Java数据结构】Map和Set超详细两万字讲解（内含搜索树+哈希表）

🔒文章目录： 1.❤️❤️前言~🥳🎉🎉🎉 2. Map和Set的基础概念 3.Map的基础使用 4.Set的基础使用 5. TreeMap的本质——红黑树 5.1二叉搜索树的概念 5.2二叉搜索树的模拟实现二叉搜索树——查找二…...

编程日记 2024/8/6 6:12:55

中国制造2025，会抛弃精益生产吗？

时至今日，“精益生产”模式依旧大行其道，它始终支持着中国制造业以最低的成本做出优质产品。我们认为，纵然是中国制造2025成为现实，精益生产模式也仍然是整个制造业的精髓之一。首先，精益生产模式最重要的一根脊梁就是…...

编程日记 2024/8/6 6:11:53

Rust 循环

Rust 循环在编程语言中，循环是一种重要的控制结构，它允许我们重复执行一段代码直到满足特定的条件。Rust 语言提供了多种循环方式，每种方式都有其特定的用途和语法。本文将详细介绍 Rust 中的循环，包括 loop、while、while let、…...

编程日记 2024/8/6 6:10:52

数据结构（其四）--特殊矩阵的存储

目录 11.特殊矩阵的压缩存储 （1）.一维数组的储存结构 （2）.二维数组的存储结构 （3）.普通矩阵的存储 （4）.特殊矩阵的压缩存储 i.对称矩阵 ii.三角矩阵 iii.三对角矩阵 iiii.稀疏矩…...

编程日记 2024/8/6 6:09:52

系统化学习 H264视频编码（06）哥伦布编码

说明：我们参考黄金圈学习法（什么是黄金圈法则?->模型黄金圈法则，本文使用：why-what）来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法，理论方面会更多地讲清楚音视频中概念的…...

编程日记 2024/8/6 6:08:51

手机在网状态接口如何对接？（一）

一、什么是手机在网状态？ 传入手机号码，查询该手机号的在网状态，返回内容有正常使用、停机、在网但不可用、不在网（销号/未启用/异常）、预销户等多种状态。二、手机在网状态使用场景？ 1.信贷审核&#…...

编程日记 2024/8/6 6:07:46

数据结构链表2（常考习题1）（C语言）

移除链表元素： . - 力扣（LeetCode） 题目： 给你一个链表的头节点 head 和一个整数 val ，请你删除链表中所有满足 Node.val val 的节点，并返回新的头节点。解题思路： 情况1： 情…...

编程日记 2024/8/6 6:06:45

Unity安卓构建实战指南：解决APK真机安装闪退与构建失败

1. 这不是一本“从零开始”的书，而是一份你真正上手Unity安卓游戏开发前必须撕开的说明书我带过三届Unity实习工程师，也帮二十多个独立开发者把Demo打包进Google Play。每次看到新人在“安卓构建失败”报错里反复挣扎，或者对着“IL2CPP编译卡…...

编程新知 2026/5/26 3:28:08

DIY复刻经典：Texar Audio Prism动态处理器克隆套件全攻略

1. 项目概述：Texar Audio Prism 克隆套件如果你在专业音频圈子里混过一段时间，尤其是对上世纪八九十年代那些经典的、带点“魔法”色彩的外置动态处理器感兴趣，那么“Texar Audio Prism”这个名字你大概率不会陌生。它不是最常见的1176或者LA…...

编程新知 2026/5/26 2:23:30

ARM架构CONSTRAINED UNPREDICTABLE行为解析与应对

1. ARM架构中的CONSTRAINED UNPREDICTABLE行为解析在处理器架构设计中，UNPREDICTABLE行为通常指架构规范未明确定义的执行结果，可能导致不可预期的系统状态。ARM架构通过引入CONSTRAINED UNPREDICTABLE机制，将这类行为限制在特定范围内&#…...

编程新知 2026/5/26 1:45:11

[智能体-81]：工程化智能体 = 模型做脑力拆解 + 框架做流程落地。前者是决策者，后者是管理者，tools/function call是内部员工；mcp server是外部资源；

一、全角色人设 & 对应技术组件角色定位对应技术模块核心职责决策者（脑力大脑）大模型 LLM理解目标、任务拆解、逻辑判断、分支决策、内容生成，负责 “想方案、定步骤”管理者（流程总管）智能体编排框架（…...

编程新知 2026/5/26 0:34:24

3步解锁网易云音乐NCM加密：让音乐真正属于你

3步解锁网易云音乐NCM加密：让音乐真正属于你【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为下载的网易云音乐只能在特定客户端播放而烦恼吗？当你精心收藏的歌曲被NCM格式"锁"在单一平台时&a…...

编程新知 2026/5/26 0:16:08

Burp Suite深度解析：从流量抓包到业务逻辑漏洞挖掘

1. 这不是“学个插件”——Burp Suite 是渗透测试的呼吸系统很多人第一次听说 Burp Suite，是在某篇“三步拿下登录框”的速成教程里：装好Java、拖进浏览器代理、点几下Repeater就弹出密码明文。结果真去测一个中型SaaS后台，不到十分钟就卡在…...

编程新知 2026/5/26 0:10:06

2026长沙智能家居品牌实测，这些本地老牌值得选

2026年，长沙的智能家居市场已经从“概念热”转向“落地战”。我走访了长沙多个本地服务商，实测了不同品牌在别墅、酒店、大平层等场景的真实表现。今天，结合数据与案例，分享几个值得关注的本地品牌，尤其是深耕8年以上的…...

编程新知 2026/5/25 23:23:01

FairyGUI Unity鼠标悬停与点击对象获取原理与实战

1. 这不是“加个OnMouseEnter就能用”的事：FairyGUI在Unity中处理鼠标交互的真实困境很多人第一次在Unity里集成FairyGUI，想实现“鼠标悬停显示提示”或“点击高亮当前按钮”，下意识就去翻Unity的MonoBehaviour文档，找OnMouseEnte…...

编程新知 2026/5/25 22:38:33

BiliRoamingX：彻底解决B站体验限制的完整增强方案

BiliRoamingX：彻底解决B站体验限制的完整增强方案【免费下载链接】BiliRoamingX-integrations BiliRoamingX integrations and patches powered by ReVanced. 项目地址: https://gitcode.com/gh_mirrors/bi/BiliRoamingX-integrations 你是否曾为B站的内容区…...

编程新知 2026/5/25 21:31:51

Unity中实现深度遮挡：LingBot-Depth实战接入与优化

1. 这不是“加个插件就完事”的AR效果——为什么LingBot-Depth在Unity里值得专门写一篇实战教程你肯定见过那种AR应用：虚拟椅子摆在真实地板上，但当你绕到椅子后面，它依然完整显示，完全无视身后那堵真实的墙；或者一只3…...

编程新知 2026/5/26 22:49:53

安装依赖

代码实现

代码说明

相关文章：