当前位置：首页 > news >正文

【小沐学Python】Python实现语音识别（Whisper）

news 2026/5/25 9:18:44

文章目录

1、简介
- 1.1 whisper简介
- 1.2 whisper模型
2、安装
- 2.1 whisper
- 2.2 pytorch
- 2.3 ffmpeg
3、测试
- 3.1 命令测试
- 3.2 代码测试：识别声音文件
- 3.3 代码测试：实时录音识别
结语

1、简介

https://github.com/openai/whisper
在这里插入图片描述

1.1 whisper简介

Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

在这里插入图片描述
Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。

1.2 whisper模型

以下是可用模型的名称及其相对于大型模型的近似内存要求和推理速度;实际速度可能因许多因素而异，包括可用的硬件。

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	smal	l ~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

它自动下载的模型缓存，如下：
在这里插入图片描述

2、安装

2.1 whisper

pip install -U openai-whisper
# pip install git+https://github.com/openai/whisper.git 
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip install zhconv
pip3 install wheelpip3 install torch torchvision torchaudio
# 注：没科学上网会下载有可能很慢，可以替换成国内镜像加快下载速度
pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述

2.2 pytorch

https://pytorch.org/
选择的是稳定版，windows系统，pip安装方式，python语言、cpu版本的软件。
在这里插入图片描述

pip3 install torch torchvision torchaudio

2.3 ffmpeg

https://github.com/BtbN/FFmpeg-Builds/releases
在这里插入图片描述
解压后，找到bin文件夹下的“ffmpeg.exe”，将它复制到一个文件夹中，假设这个文件夹的路径是"D:\software\ffmpeg"，然后将"D:/software/ffmpeg"添加到系统环境变量PATH。

3、测试

3.1 命令测试

whisper audio.mp3

在这里插入图片描述
以上whisper audio.mp3的命令形式是最简单的一种，它默认使用的是small模式的模型转写，我们还可以使用更高等级的模型来提高正确率。比如：

whisper audio.mp3 --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper audio.flac audio.mp3 audio.wav --model medium
whisper output.wav --model medium  --language Chinese

同时默认会生成5个文件，文件名和你的源文件一样，但扩展名分别是：.json、.srt、.tsv、.txt、.vtt。除了普通文本，也可以直接生成电影字幕，还可以调json格式做开发处理。
在这里插入图片描述
常用参数如下：

--task： 指定转录方式，默认使用 --task transcribe 转录模式，--task translate 则为 翻译模式，目前只支持翻译成英文。
--model：指定使用模型，默认使用 --model small，Whisper 还有 英文专用模型，就是在名称后加上 .en，这样速度更快。
--language：指定转录语言，默认会截取 30 秒来判断语种，但最好指定为某种语言，比如指定中文是 --language Chinese。
--device：指定硬件加速，默认使用 auto 自动选择，--device cuda 则为显卡，cpu 就是 CPU， mps 为苹果 M1 芯片。
--output_format：指定字幕文件的生成格式，txt,vtt,srt,tsv,json,all，指定多个可以用大括号{}包裹，不设置默认all。
-- output_dir： 指定字幕文件的输出目录，不设置默认输出到当前目录下。
--fp16：默认True，使用16位浮点数进行计算，可以在一定程度上减少计算和存储开销，可能存在精度丢失，笔者CPU不支持，会出现下述警告，指定它为False就不会出现了，即采用32位浮点数进行计算。

3.2 代码测试：识别声音文件

import whisperif __name__ == '__main__':model = whisper.load_model("tiny")result = model.transcribe("audio.mp3", fp16=False, language="Chinese")print(result["text"])