当前位置：首页 > news >正文

使用openai-whisper实现语音转文字

news 2026/5/18 21:41:44

使用openai-whisper实现语音转文字

1 安装依赖

1.1 Windows下安装ffmpeg

FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。

# ffmpeg官网
https://ffmpeg.org/# ffmpeg下载地址
https://ffmpeg.org/download.html# 点击下载后会进入github，地址如下
https://github.com/BtbN/FFmpeg-Builds/releases

在官网上选择windows版本

在这里插入图片描述

推荐使用ffmpeg-n5.1.4-win64-gpl-5.1.zip 和 ffmpeg-n6.0.1-win64-gpl-6.0.zip这两个版本，因为ffmpeg 5.1.4 和 ffmpeg 6.0.1版本是最新稳定版。

#  Auto-Build 2023-11-30的地址
https://github.com/BtbN/FFmpeg-Builds/releases/tag/autobuild-2023-11-30-12-55# ffmpeg-n5.1.4-win64-gpl-5.1.zip的地址
https://github.com/BtbN/FFmpeg-Builds/releases/download/autobuild-2023-11-30-12-55/ffmpeg-n5.1.4-win64-gpl-5.1.zip# ffmpeg-n6.0.1-win64-gpl-6.0.zip的地址
https://github.com/BtbN/FFmpeg-Builds/releases/download/autobuild-2023-11-30-12-55/ffmpeg-n6.0.1-win64-gpl-6.0.zip

在GitHub上可以选择最新版本，选择ffmpeg-master-latest-win64-gpl.zip；

⚠️ 如果python程序出现“FileNotFoundError: [WinError 2] 系统找不到指定的文件。”错误时，可能是ffmpeg版本的问题。

在这里插入图片描述

将ffmpeg-master-latest-win64-gpl.zip 解压到D盘，名字修改为ffmpeg，将目录 D:\ffmpeg\bin 添加到环境变量中。

在这里插入图片描述

在dos页面查看版本号中输入：ffmpeg.exe -version，出现下面的信息表示安装成功。

在这里插入图片描述

1.2 安装openai-whispe

# whispe地址
https://github.com/openai/whisper# 安装openai-whisper
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装pydub切割音频，防止音频太长
pip install pydub -i https://pypi.tuna.tsinghua.edu.cn/simple

下载语音，可以直接在浏览器中打开，再下载

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

2 使用openai-whispe

2.1 工程目录

在这里插入图片描述

2.2 main.py

import whisper
model = whisper.load_model(name="tiny", download_root="./model")# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio(".//data//zh.wav")
audio = whisper.pad_or_trim(audio)# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)# print the recognized text
print(result.text)

输出结果：

Detected language: zh
我認為跑步最重要的就是給我帶來了身體健康

使用openai-whisper实现语音转文字

使用openai-whisper实现语音转文字 1 安装依赖 1.1 Windows下安装ffmpeg FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。 # ffmpeg官网 https://ffm…...

编程日记 2024/2/24 6:29:52

C++模板为什么不能声明和定义分离

首先我们要直到C程序运行需要进行的四个阶段。预处理->编译->汇编->链接编译：对语法语义分析，分析无误生成汇编，头文件不参加编译，多个源文件是分开单独编译的。链接：将多个obj文件链接合成一个&#x…...

编程日记 2024/2/24 6:28:51

啊丢的刷题记录手册

1.洛谷题P1923 求第k小的数题目描述输入 n（1≤n<5000000 且 n 为奇数）个数字ai（1≤ai<109），输出这些数字的第 k 小的数。最小的数是第 0 小。请尽量不要使用 nth_element 来写本题，因为本题…...

编程日记 2024/2/24 6:27:50

用nginx正向代理https网站

目录 1. 缘起2. 部署nginx3. 测试3.1 http测试3.2 https测试4 给centos设置代理访问外网 1. 缘起最近碰到了一个麻烦事情，就是公司的centos测试服务器放在内网环境，而且不能直接上外网，导致无法通过yum安装软件，非常捉急。幸…...

编程日记 2024/2/24 6:25:48

面向对象设计模式

一、单例一个类只能创建唯一一个对象利用限制构造、static完成二、工厂模式优势：规范接口（纯虚函数）；实现多态（虚函数表）；继承 1、简单工厂一个工厂创建所有产品。返回基类指针可…...

编程日记 2024/2/24 6:22:45

人工智能_CPU微调ChatGLM大模型_使用P-Tuning v2进行大模型微调_007_微调_002---人工智能工作笔记0102

这里我们先试着训练一下,我们用官方提供的训练数据进行训练. 也没有说使用CPU可以进行微调,但是我们先执行一下试试: https://www.heywhale.com/mw/project/6436d82948f7da1fee2be59e 可以看到说INT4量化级别最低需要7GB显存可以启动微调,但是并没有说CPU可以进行微调.我们…...

编程日记 2024/2/24 6:20:44

背景让Pixel3 AOSP Android10 4.9内核用上Kernel SU 环境： Ubuntu 18.04 vm aosp10r2 移植参考官方，和github项目 Commits OnlyTomInSecond/android_kernel_xiaomi_sdm845 (github.com) 这个项目是 LineageOS/android_kernel_xiaomi_sdm845 编译的前提已经有完整…...

编程日记 2024/2/24 6:19:43

Go 数据库编程精粹：database/sql 实用技巧解析

Go 数据库编程精粹：database/sql 实用技巧解析简介database/sql 库的基础知识核心概念连接池驱动事务环境配置建立数据库连接连接到数据库示例：连接 MySQL 数据库连接池管理执行查询和处理结果基本查询执行多行查询执行单行查询结果处理处理多行结果…...

编程日记 2024/2/24 6:18:41

AI-Gateway：一款整合了OpenAI、Anthropic、LLama2等大语言模型的统一API接口

关于AI-Gateway AI-Gateway是一款针对大语言模型的统一API接口，该接口可以用在应用程序和托管的大语言模型（LLM）之间，该工具可以允许我们通过一个统一的API接口将API请求转发给OpenAI、Anthropic、Mistral、LLama2、Anyscale、Go…...

编程日记 2024/2/24 6:16:39

Android 广播的基本概念

一.广播简介 Broadcast是安卓四大组件之一。安卓为了方便进行系统级别的消息通知，引入了一套广播消息机制。打个比方，记得原来在上课的时候，每个班级的教室里都会装有一个喇叭，这些喇叭都是接入到学校的广播室的，一旦…...

编程日记 2024/2/24 6:13:36

【Docker实操】部署php项目

概述最终达成的容器部署结构和原理如下图： 一、获取nginx、php官方镜像 docker pull nginx //拉取nginx官方镜像 docker pull php:7.4-fpm //拉取php官方镜像需要获取其他可用的php版本，可以上【docker hub】搜索【php】，所有的【xxx-fp…...

编程日记 2024/2/24 6:12:35

多线程-初阶

1. 认识线程（ Thread ） 1.1 概念 1) 线程是什么一个线程就是一个 " 执行流 ". 每个线程之间都可以按照顺讯执行自己的代码 . 多个线程之间 " 同时 " 执行着多份代码 . 还是回到我们之前的银行的例子中。之前我们主要描…...

编程日记 2024/2/24 6:11:34

Object和Function是函数，函数都有一个prototype属性

Object 和 Function 都是 JavaScript 自带的函数对象在 JavaScript 中，万物皆对象，你要一个吗？new Object() 啊！ 当然，就好比同样为人，也区分普通人和天才。对象也是有分类的，分为普通对象…...

编程日记 2024/2/24 6:09:32

stm32利用CubeMX按键控制数码管加减数

首先画电路图： 接下来配置CubeMX： 设置好后生成MDK工程文件： 用keil打开工程： 添加部分代码： /* USER CODE BEGIN Includes */ uint16_t duan[]{0xC0, 0xf9, 0xa4, 0xb0, 0x99, 0x92, 0x82, 0xf8, 0x80, 0x90}; uint1…...

编程日记 2024/2/24 6:08:31

前端页面生成条形码，借助layui打印标签

借助JsBarcode生成条形码官网：https://lindell.me/JsBarcode/ github: https://github.com/lindell/JsBarcode <div class"table-div" style"display: block;width: 300px; height: 241px; margin: auto;"><table border"1&quo…...

编程日记 2024/2/24 6:07:30

第1~8章综合复习

1. 重置root密码 1. 重启服务器（虚拟机）2. 快速选择第二项，然后按 e 键3. 在linux这一行的最后加上一个空格，然后输入 rd.break，然后按 ctrl x 来重启服务4. 在提示符所在位置输入 mount -o remount,rw /sysroot5. 在…...

编程日记 2024/2/24 6:05:29

转运机器人,AGV底盘小车：打造高效、精准的汽车电子生产线

为了满足日益增长的市场需求，保持行业领先地位，某汽车行业电子产品企业引入富唯智能AMR智能搬运机器人及其智能物流解决方案，采用自动化运输措施优化生产节拍和搬运效率，企业生产效率得到显著提升。项目背景： 1、工厂…...

编程日记 2024/2/24 6:04:27

Spring Boot 的参数校验方案

1、前言在平时的开发工作中，我们通常需要对接口进行参数格式验证。当参数个数较少（个数小于3）时，可以使用if ... else ...手动进行参数验证。当参数个数大于3个时，使用if ... else ...进行参数验证就会让代码显得臃肿，这个时候推荐使用注解来进行参数验证。 2、常用注…...

编程日记 2024/2/24 5:58:23

第N3周：Pytorch文本分类入门

>- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/rbOOmire8OocQ90QM78DRA) 中的学习记录博客** >- **🍖 原作者：[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)** import torch import…...

编程日记 2024/2/24 5:55:20

宝塔面板安装了mysql5.7和phpMyadmin，但是访问phpMyadmin时提示502 Bad Gateway

操作流程截图如下： 原因是没有选择php版本选择php版本下一页找到phpMyAdmin，选择设置目前只有纯净态，说明没有php环境，前去安装php环境点击安装，选择版本，这里选择的是7.4版本，编译安…...

编程日记 2024/2/24 5:54:19

如何彻底移除Windows Defender：13项核心服务完整卸载与系统性能优化终极指南

如何彻底移除Windows Defender：13项核心服务完整卸载与系统性能优化终极指南【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitco…...

编程新知 2026/5/18 21:12:32

Codex自主规划开发工作流实践 Codex CLI、AI编程、自动规划开发、Agent工作流、长任务AI开发、CodexLoop

Codex自主规划开发工作流实践 Codex CLI、AI编程、自动规划开发、Agent工作流、长任务AI开发、CodexLoop 老规矩先放最新地址： Codex 最新官方客户端下载地址 https://codexdown.cn/ 最近在折腾一件很有意思的事情： 不再给 Codex 写“超详细步骤”&…...

编程新知 2026/5/18 20:52:36

Taotoken Token Plan套餐为高频用户带来的长期成本优势感知

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken Token Plan套餐为高频用户带来的长期成本优势感知对于高频使用大模型API的开发者或团队而言，项目开发中的模…...

编程新知 2026/5/18 20:07:25

Kubernetes API Server优化：提升集群管理效率

Kubernetes API Server优化：提升集群管理效率一、Kubernetes API Server概述 1.1 API Server的角色 Kubernetes API Server是Kubernetes集群的核心组件，负责处理所有的REST API请求，是集群内部和外部通信的枢纽。它负责验证和处理请求&#…...

编程新知 2026/5/18 18:26:35

APK安装器：在Windows系统上高效安装安卓应用的实用工具

APK安装器：在Windows系统上高效安装安卓应用的实用工具【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在移动应用生态日益丰富的今天，用户经常…...

编程新知 2026/5/18 18:16:13

从零构建μC/OS-II硬件抽象层：以ARM7 LPC2292为例详解移植核心

1. 项目概述与核心思路十年前，我第一次把μC/OS-II从一个ARM7开发板搬到另一个不同型号的ARM7芯片上，光是改启动文件和中断向量表就折腾了一周。那时候我就想，要是有一套标准化的“中间层”，能把芯片底层的差异给屏蔽掉&#xff0…...

编程新知 2026/5/18 17:15:16

Oto 核心架构深度解析：Context 与 Player 的设计哲学

Oto 核心架构深度解析：Context 与 Player 的设计哲学【免费下载链接】oto ♪ A low-level library to play sound on multiple platforms ♪ 项目地址: https://gitcode.com/gh_mirrors/ot/oto Oto 是一个跨平台的低级音频播放库，其核心架构围绕…...

编程新知 2026/5/18 16:52:28

MASA全家桶汉化包：三步搞定Minecraft模组界面中文化的终极指南

MASA全家桶汉化包：三步搞定Minecraft模组界面中文化的终极指南【免费下载链接】masa-mods-chinese 一个masa mods的汉化资源包项目地址: https://gitcode.com/gh_mirrors/ma/masa-mods-chinese 还在为Masa Mods复杂的英文界面而烦恼吗？MASA全家…...

编程新知 2026/5/18 16:16:37

基于ESP32-S2与电子墨水屏的低功耗物联网设备开发实践

1. 项目概述：打造一个会“思考”的本地果蔬日历每次去超市，看着货架上那些跨越了半个地球、反季节出现的果蔬，心里总会有点矛盾。一方面，现代物流的便利性让人惊叹，冬天也能吃到夏天的水果；另一方面&#x…...

编程新知 2026/5/18 15:42:12

5分钟掌握魔兽世界GSE宏编辑器：游戏操作效率提升300%

5分钟掌握魔兽世界GSE宏编辑器：游戏操作效率提升300% 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. 项目地址: https://gitcode.com/gh_mirrors/gs/GSE-Advanced-Macro-Compile…...

编程新知 2026/5/18 15:20:30

使用openai-whisper实现语音转文字

使用openai-whisper实现语音转文字

1 安装依赖

1.1 Windows下安装ffmpeg

1.2 安装openai-whispe

2 使用openai-whispe

2.1 工程目录

2.2 main.py

相关文章：

使用openai-whisper实现语音转文字

C++模板为什么不能声明和定义分离

啊丢的刷题记录手册

用nginx正向代理https网站

面向对象设计模式

人工智能_CPU微调ChatGLM大模型_使用P-Tuning v2进行大模型微调_007_微调_002---人工智能工作笔记0102

Android自编译Pixel3内核加入KernelSU

Go 数据库编程精粹：database/sql 实用技巧解析

AI-Gateway：一款整合了OpenAI、Anthropic、LLama2等大语言模型的统一API接口

Android 广播的基本概念

【Docker实操】部署php项目

多线程-初阶

Object和Function是函数，函数都有一个prototype属性

stm32利用CubeMX按键控制数码管加减数

前端页面生成条形码，借助layui打印标签

第1~8章综合复习

转运机器人,AGV底盘小车：打造高效、精准的汽车电子生产线

Spring Boot 的参数校验方案

第N3周：Pytorch文本分类入门

宝塔面板安装了mysql5.7和phpMyadmin，但是访问phpMyadmin时提示502 Bad Gateway

如何彻底移除Windows Defender：13项核心服务完整卸载与系统性能优化终极指南

Codex自主规划开发工作流实践 Codex CLI、AI编程、自动规划开发、Agent工作流、长任务AI开发、CodexLoop

Taotoken Token Plan套餐为高频用户带来的长期成本优势感知

Kubernetes API Server优化：提升集群管理效率

APK安装器：在Windows系统上高效安装安卓应用的实用工具

从零构建μC/OS-II硬件抽象层：以ARM7 LPC2292为例详解移植核心

Oto 核心架构深度解析：Context 与 Player 的设计哲学

MASA全家桶汉化包：三步搞定Minecraft模组界面中文化的终极指南

基于ESP32-S2与电子墨水屏的低功耗物联网设备开发实践

5分钟掌握魔兽世界GSE宏编辑器：游戏操作效率提升300%