当前位置：首页 > news >正文

ChatGPT开源的whisper音频生成字幕

news 2026/5/18 23:02:55

1、前言

好了，那接下来看一下whisper开源库的介绍

有五种模型大小，其中四种仅支持英语，提供速度和准确性的权衡。上面便是可用模型的名称、大致的内存需求和相对速度。如果是英文版的语音，直接想转换为英文。

本来我是想直接在我的本地电脑上安装环境的，也就是无非安装python、ffmpeg、以及whisper，但是发现电脑配置太低了，而且我想测试一下large模型，CPU 肯定是不行，但是如果用本机的 GPU也是快不到哪里去的。所以这里我想到谷歌的colab.research.google.com 免费在线运行，而且我可以启用GPU硬件加速，感觉上还是非常快的，当然如果需要你还可以购买。

下面是我的免费配置 colab.research.google.com

运行起来还是非常流畅，真的香喷喷，如果需要我都想付费了。

可以应用于那些场景

会议记录: 直接将录音转换为文字

个人视频制作: 很多时候都希望有字幕的效果，听说剪映的效果都没有这个好

课堂记录转写：将课堂上的内容记录下来，这样后面直接查看文字版本也是非常方便

通话记录：有些重要的电话可将其录音，转换为文字以备后面查询也是非常不错的

字幕组：这个就不用说了有可能还涉及到多语言，准备率很高的话可以省很多事情

实时语音翻译：这个服务器配置够高的话，理论上就非常快速

2、开始实践

2.1、检查colab环境

!nvidia-smi -L
!nvidia-smi

运行两个指令结果如下：

1.!nvidia-smi -L：-L 参数用于列出系统上安装的所有 NVIDIA GPU 设备。运行此命令后，您将看到关于可用 GPU 的信息，包括其型号和 UUID。

2.!nvidia-smi：不带任何参数运行 nvidia-smi 会显示有关 NVIDIA GPU 的详细信息，包括：

- GPU 设备的编号、名称、总内存和温度。
- GPU 使用率（如计算、内存和显存使用率）。
- 运行在 GPU 上的进程以及它们的相关信息（如进程 ID、显存占用等）。

只不过这里我还没开始使用GPU而已，所以显示的是空的。

2.2、安装whisper

!pip install requests beautifulsoup4
!pip install git+https://github.com/openai/whisper.git
import torch
import sys
device = torch.device('cuda:0')
print('正在使用的设备:', device, file=sys.stderr)
print('Whisper已经被安装请执行下一个单元')

这里主要就是安装whisper

2.3、 whisper模型选择

#@markdown # ** whisper Model选择** 🧠
Model = 'large-v2' #@param ['tiny.en', 'tiny', 'base.en', 'base', 'small.en', 'small', 'medium.en', 'medium', 'large', 'large-v2']
import whisper
from IPython.display import Markdown
whisper_model = whisper.load_model(Model)
if Model in whisper.available_models():display(Markdown(f"**{Model} model is selected.**"))
else:display(Markdown(f"**{Model} model is no longer available.** Please select one of the following: - {' - '.join(whisper.available_models())}"))

这里我选择的是最大的模型 large-v2,因为我要转换中文字幕，前面四个都只支持英文，这个在文章开头也说了的。

2.4、开始音频转字幕

audio_path = "/content/downloads/test1.m4a"
audio_path_local = Path(audio_path).resolve()
transcription = whisper.transcribe(whisper_model,str(audio_path_local),temperature=temperature,**args,
)
# Save output
whisper.utils.get_writer(output_format=output_format,output_dir=audio_path_local.parent
)(transcription,title
)

我首先要准备一个m4a的音频文件，这里可以直接上传到colab

左侧当前目录是 content，然后右键新建文件夹downloads，然后在downloads文件夹上点击上传m4a文件

上传完毕后可以看到m4a文件已经在目录下了。

whisper.transcribe 方法有好多的参数

whisper_model主要是设置model模型
output_format 主要是设置字幕输出的文件格式
temperature 值设置的较低，那么表述相对精准一些，值越大表述可能更加抽象一点
args中有一个language语言，比如这里我要将音频转换为中文字幕设置为cn 或者chinese这里主要可以查看 whisper/tokenizer.py at main · openai/whisper · GitHub

2.4、运行查看效果

点击运行后可以看到一段一段的在执行转换了,整体感觉运行还是非常流畅了，这比看别人在本地运行速度可是快多了

最后可以看到srt字幕文件也已经生成了，可以直接点击左侧文件点击下载即可。生成的srt文件如下

3、总结

这个whisper相当于离线版本，可以自己部署到本地或者服务器提供给自己使用，相信后续OpenAI应该还会有更新，提供更多精彩的功能使用。

from:

5、ChatGPT开源的whisper音频生成字幕，可本地搭建环境运行，效果质量很棒-阿里云开发者社区

kkview远程控制手机电脑看屏幕和摄像头

ChatGPT开源的whisper音频生成字幕

1、前言好了，那接下来看一下whisper开源库的介绍有五种模型大小，其中四种仅支持英语，提供速度和准确性的权衡。上面便是可用模型的名称、大致的内存需求和相对速度。如果是英文版的语音，直接想转换为英文。本来我是想直接在我的…...

编程日记 2024/5/13 18:33:54

融知财经：期货和现货的区别是什么？哪个风险大？

期货和现货在交易对象等方面存在明显的区别。期货交易是一种衍生金融工具，主要用于价格发现、风险管理和投机，而现货交易则是商品和服务的实际买卖。在选择进行期货交易还是现货交易时，投资者需要根据自己的需求和市场情况来决定。期货和现货…...

编程日记 2024/5/13 18:32:53

Android Studio开发之路（十）app中使用aar以及报错记录

书接上文：Android Studio开发之路（九）创建android library以及生成aar文件五、app中使用aar文件的方法先复制一下上面生成的aar文件。然后在你要添加到的app左上角选择“project”模式，然后找到libs文件夹，点击右键…...

编程日记 2024/5/13 18:29:49

sql-行转列3(转置)

行转列的常规做法是，group bysum(if())【或count(if())】例题： 腾讯QQ 假设tableA如表5, tableB如表6, 表5 qq号（字段名：qq）游戏（字段名：game）10000a10000b10000c20000c20000d…...

编程日记 2024/5/13 18:27:48

MATLAB | 最新版MATLAB绘图速查表来啦！！

之前看大佬Pjer做的MATLAB速查表 http://home.ustc.edu.cn/~pjer1316/matlabplot/ 感觉非常的实用，最近几次MATLAB更新围绕画图方面也有很多新东西，于是就有了自己做一张最新版的速查表的想法，这张表长这样： 这张表的配色基本上…...

编程日记 2024/5/13 18:26:46

web安全之登录框渗透骚姿势，新思路

不管漏洞挖掘还是挖SRC，登录框都是重点关注对象，什么漏洞都有可能出现， 本篇文章做个总结，后面发现新思路后会继续更新万能密码 or 弱口令 SQL注入水平越权垂直越权逻辑漏洞短信轰炸邮箱轰炸信息泄露验证码DOS XSS万能密…...

编程日记 2024/5/13 18:25:45

无人机+自组网：空地点对点无人机通信解决方案

随着智能化技术的迅速发展, 无人化设备在战场上发挥的作用日益突显。在近期发生的多次局部战争中, 无人设备代替人类承担了多项危险且复杂的攻击任务, 达到 “兵不血刃” 的效果. 2020 年 1 月 3 日, 美军利用无人机执行了刺杀伊朗 “圣城旅” 指挥官苏莱曼尼行动. 纳戈尔诺 - …...

编程日记 2024/5/13 18:23:42

android TV app适配遥控器思路，recycleview选中放大

背景： 1、当遥控器遥控盒子，app内是有一套机制，响应遥控器的操作; 2、要实现遥控器选中的效果，必须要设置setOnFocusChangeListener方法，另外一个就是设置view的setOnClickListener方法；设置完之后&#…...

编程日记 2024/5/13 18:22:41

python篇-cmd 执行pip命令失败，但执行pyhon命令正常

当你在CMD中可以正常执行python命令，但执行pip命令失败时，这通常意味着pip没有被正确地添加到系统的环境变量中。这里有一些步骤来解决这个问题： 检查环境变量： 打开系统的环境变量设置（右击“此电脑”>“属性”>…...

编程日记 2024/5/13 18:21:40

Redis系列-3 Redis缓存问题

1.缓存的作用数据库(如Mysql)的持久化特点带来了较低的性能，高并发的场景下，连接池很快被耗尽而出现宕机或DOS，无法继续对外提供服务。相对于数据库的硬盘IO，缓存中间件基于内存进行读写，从而具备较大的吞吐量和高并…...

编程日记 2024/5/13 18:19:37

【数据结构】堆(Heap)

文章目录一、堆的概念及结构二、堆的实现1.向上调整算法2.向下调整算法3.堆的创建4.堆的插入5.堆的删除6.堆的其他操作三、堆的应用1.堆排序2.Top-K问题一、堆的概念及结构堆(Heap)是一种特殊的非线性结构。堆中的元素是按完全二叉树的顺序存储方式存储在数组中。满足任意…...

编程日记 2024/5/13 18:17:35

vue cli 自定义项目架子，vue自定义项目架子，超详细

脚手架Vue CLI基本介绍： Vue CLI 是Vue官方提供的一个全局命令工具可以帮助我们快速创建一个开发Vue项目的标准化基础架子【集成了webpack配置】脚手架优点： 开箱即用，零配置内置babel等工具标准化的webpack配置脚手架 VueCLI相关命令…...

编程日记 2024/5/13 18:16:34

flink cdc，读取datetime类型

:flink cdc，读取datetime类型，全都变成了时间戳 Flink CDC读取MySQL的datetime类型时会转换为时间戳的问题，可以通过在Flink CDC任务中添加相应的转换器来解决。具体来说，可以在MySQL数据源的debezium.source.converter配置项中指…...

编程日记 2024/5/13 18:15:32

Kotlin 编译器和工具链：深入解析与实践案例

Kotlin 编译器和工具链是构建 Kotlin 项目的核心组件，它们负责将 Kotlin 代码转换为可在 JVM 或 JavaScript 环境中运行的代码。本文将详细介绍 Kotlin 编译器和工具链的工作原理、使用方法，以及在实际开发中的应用案例。 1. 引言 Kotlin 作为一种现代…...

编程日记 2024/5/13 18:14:31

kettle

文章目录读取共享数据库连接报错读取共享数据库连接报错读取共享数据库连接报错解决方法：修改共享文件中的中文字符，文件位置一般是默认的：C:\Users\Administrator.kettle。将shared.xml文件中的中文字符改成英文后问题就解决了。...

编程日记 2024/5/13 18:12:28

Maven 自动化构建

优质博文：IT-BLOG-CN 一、Maven：是一款服务于 Java平台的自动化构建工具【1】Maven可以将一个项目按模块划分成不同的工程，利于分工协作; 【2】Maven可以将 jar包保存在自己的中央“仓库”中进行统一管理，有需要使用的工程引用这…...

编程日记 2024/5/13 18:11:27

Unicode字符集和UTF编码

文章目录前言一、字符集和编码方式二、unicode字符集utf32编码utf8编码utf8编码函数示例utf8解码函数示例 utf16编码utf16编码解码函数示例总结前言本文详细介绍 u n i c o d e unicode unicode 字符集和其相关的三种编码方式： u t f 8 utf8 utf8，…...

编程日记 2024/5/13 18:10:26

修改echarts 图例样式项目里折线图需要去掉圆点, 但是图例样式需要是默认样式(横线和圈圈) 原始代码:(只展示series 和legend配置 ) series: [{name: chartObj.names[ind_one],yAxisIndex: yIndex,type: ele_one,barMaxWidth: 15,tooltip: {show: true},data: chartObj.yAx…...

编程日记 2024/5/13 18:08:23

Shell脚本的基础和变量

1.shell脚本基础 1.1 shell的作用 Linux 系统中的 Shell 是一个特殊的应用程序，它介于操作系统内核与用户之间，充当了一个“命令解释器”的角色，负责接收用户输入的操作指令（命令）并进行解释，将需要执行的…...

编程日记 2024/5/13 18:07:22

VRRP协议-负载分担配置【分别在路由器与交换机上配置】

VRRP在路由器与交换机上的不同配置一、使用路由器实现负载分担二、使用交换机实现负载分担一、使用路由器实现负载分担使用R1与R2两台设备分别进行VRRP备份组 VRRP备份组1，虚拟pc1的网关地址10.1.1.254 VRRP备份组2，虚拟pc2的网关地址10.1.1.253 ①备份组1的vrid=1，vrip=…...

编程日记 2024/5/13 18:06:20

构建个人效率工具集：模块化Shell环境配置与自动化工作流实践

1. 项目概述与核心价值最近在整理个人技术栈和自动化工具时，发现了一个挺有意思的项目，叫“Tsai1030/Tsai_PIG”。乍一看这个仓库名，可能会让人有点摸不着头脑，PIG？和数据处理框架Apache Pig有关吗？还是某种…...

编程新知 2026/5/18 22:45:52

【亲测有效】DeepSeek极简入门与应用_156.[第6章高级应用技巧] 场景描述型框架：用情境设定让AI进入最佳状态

别再让AI"猜谜"了！一个场景设定，让DeepSeek从"人工智障"秒变"懂王"——这可能是你用过最被低估的Prompt技巧 #mermaid-svg-7MQcGN4wm4OXCgus{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:1…...

编程新知 2026/5/18 22:39:35

TaotokenCLI工具一键配置开发环境与团队协作

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 TaotokenCLI工具一键配置开发环境与团队协作在团队协作开发中，统一大模型API的接入配置是一个常见痛点。每个成员手动…...

编程新知 2026/5/18 20:21:42

魔兽世界宏编辑器终极指南：5分钟掌握GSE高级宏编译工具

魔兽世界宏编辑器终极指南：5分钟掌握GSE高级宏编译工具【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. 项目地址: https://gitcode.com/gh_mirrors/gs/GSE-Advanced-Macro-Compi…...

编程新知 2026/5/18 19:48:23

告别Web Client：当ESXi主机SSH连不上时，我用这10条esxcli命令完成了紧急修复

告别Web Client：当ESXi主机SSH连不上时，我用这10条esxcli命令完成了紧急修复凌晨三点，数据中心告警铃声刺破夜空。一台承载着核心业务的ESXi主机突然失联，vSphere Client和Web界面均无法访问，SSH连接也毫无响应。面对…...

编程新知 2026/5/18 19:48:22

卡片里放图片？用 memory:// 协议才是正确打开方式

文章目录卡片图片的限制项目结构卡片 UI：用 memory:// 显示图片FormAbility：下载图片 → 写入共享内存 → 推送更新显示本地图片（无需下载）memory:// 协议原理关键注意事项写在最后卡片里显示图片这件事比我想象的要麻烦一点。卡片…...

编程新知 2026/5/18 18:49:20

SDXL动画生成实战：AnimateDiff与Hotshot-XL效果对比与配置详解

1. SDXL动画生成工具概览最近在玩SDXL动画生成的朋友应该都听说过AnimateDiff和Hotshot-XL这两款神器。作为目前最主流的两个文生视频开源工具，它们都能基于SDXL模型将静态图片转换成动态视频。不过在实际使用中，我发现两者的效果差异还挺明显的。先说…...

编程新知 2026/5/18 18:30:49

Cream开发者进阶指南：深入理解架构搜索算法

Cream开发者进阶指南：深入理解架构搜索算法【免费下载链接】Cream This is a collection of our NAS and Vision Transformer work. 项目地址: https://gitcode.com/gh_mirrors/cr/Cream 在深度学习模型设计领域，神经架构搜索（NAS&am…...

编程新知 2026/5/18 16:22:59

3分钟学会Charticulator：零代码制作专业数据图表的终极指南

3分钟学会Charticulator：零代码制作专业数据图表的终极指南【免费下载链接】charticulator Interactive Layout-Aware Construction of Bespoke Charts 项目地址: https://gitcode.com/gh_mirrors/ch/charticulator 还在为制作专业图表而头疼吗？…...

编程新知 2026/5/18 16:03:56

用Arduino Nano和MAX7219模块，5分钟搞定一个8x8 LED点阵显示（附完整代码）

用Arduino Nano和MAX7219模块快速打造8x8 LED点阵显示系统周末整理零件箱时翻出一片落灰的MAX7219模块和Arduino Nano，突然想起可以给工作室做个实时温度显示器。这个组合堪称电子爱好者的"乐高积木"——不需要复杂的电路设计，短短几行代码就…...

编程新知 2026/5/18 14:49:19

ChatGPT开源的whisper音频生成字幕

1、前言

2、开始实践

2.1、检查colab环境

2.2、安装whisper

2.3、 whisper模型选择

2.4、开始音频转字幕

2.4、运行查看效果

3、总结

相关文章：

ChatGPT开源的whisper音频生成字幕

融知财经：期货和现货的区别是什么？哪个风险大？

Android Studio开发之路（十）app中使用aar以及报错记录

sql-行转列3(转置)

MATLAB | 最新版MATLAB绘图速查表来啦！！

web安全之登录框渗透骚姿势，新思路

无人机+自组网：空地点对点无人机通信解决方案

android TV app适配遥控器思路，recycleview选中放大

python篇-cmd 执行pip命令失败，但执行pyhon命令正常

Redis系列-3 Redis缓存问题

【数据结构】堆(Heap)

vue cli 自定义项目架子，vue自定义项目架子，超详细

flink cdc，读取datetime类型

Kotlin 编译器和工具链：深入解析与实践案例

kettle

Maven 自动化构建

Unicode字符集和UTF编码

echarts默认图例(横线+圈圈)

Shell脚本的基础和变量

VRRP协议-负载分担配置【分别在路由器与交换机上配置】

构建个人效率工具集：模块化Shell环境配置与自动化工作流实践

【亲测有效】DeepSeek极简入门与应用_156.[第6章高级应用技巧] 场景描述型框架：用情境设定让AI进入最佳状态

TaotokenCLI工具一键配置开发环境与团队协作

魔兽世界宏编辑器终极指南：5分钟掌握GSE高级宏编译工具

告别Web Client：当ESXi主机SSH连不上时，我用这10条esxcli命令完成了紧急修复

卡片里放图片？用 memory:// 协议才是正确打开方式

SDXL动画生成实战：AnimateDiff与Hotshot-XL效果对比与配置详解

Cream开发者进阶指南：深入理解架构搜索算法

3分钟学会Charticulator：零代码制作专业数据图表的终极指南

用Arduino Nano和MAX7219模块，5分钟搞定一个8x8 LED点阵显示（附完整代码）

1、前言

2、开始实践

2.1、检查colab环境

2.2、安装whisper

2.3、 whisper模型选择

2.4、 开始音频转字幕

2.4、运行查看效果

3、总结

相关文章：

2.4、开始音频转字幕