ASR强力模型「Whisper」:解密Whisper:AI驱动的语音识别新时代 -
解密Whisper:AI驱动的语音识别新时代
原创 AI小信 别慌G个PT 2024年10月18日 17:54 北京
❝前两天分享了两个TTS模型,今天分享个ASR强力模型「Whisper」。Whisper是OpenAI开发的一个「ASR」(AutomatedSpeechRecognition,自动语音识别)开源模型,用于将语音转录成文本。它是一个强大的模型,能够处理多种语言的语音输入,支持实时转录、语音翻译等功能,并且在不同的音频质量和语境下都有良好的表现。
❞
Whisper 功能点
-
「多语言支持」:能够处理多种语言的输入,并且可以进行多语言之间的翻译。
-
「强大的抗噪能力」:对嘈杂环境中的语音有很好的转录效果。
-
「端到端的模型架构」:Whisper 使用 Transformer 模型,输入语音信号,输出文本。
-
「开源和易用性」:Whisper 是「开源」的,允许开发者将其轻松集成到自己的项目中。
Whisper 应用场景
Whisper 的多功能性使得它在许多领域都有广泛的应用:
-
「会议记录」:实时转录会议或讲座的内容,方便整理记录。
-
「内容创建」:播客、视频博主可以将语音内容快速转成文字稿。
-
「语音助手」:集成到智能语音助手中,提升对多语言的识别和响应能力。
-
「教育」:用于生成课堂、研讨会的文字记录,方便学生回顾学习内容。
Whisper 安装和使用教程
环境准备
要使用 Whisper,首先需要设置 Python 环境,并确保以下库和工具可用:
-
「Python 3.7+」
-
「PyTorch」:Whisper 依赖 PyTorch 进行深度学习推理。
-
「ffmpeg」:Whisper 需要 ffmpeg 来处理音频文件。
安装 PyTorch 和 ffmpeg
你可以按照以下步骤安装:
# 安装 PyTorch
pip install torch# 安装 ffmpeg(如果你使用 MacOS 或 Linux)
sudo apt update && sudo apt install ffmpeg# 对于 Windows 系统,可以通过下载[ffmpeg](https://ffmpeg.org/download.html)并手动安装。
安装 Whisper
在安装了 PyTorch 和 ffmpeg 后,可以使用 pip
来安装 Whisper:
pip install git+https://github.com/openai/whisper.git
Whisper使用方法1(命令行)
Whisper 提供了一个简单的命令行工具来进行语音转录。你可以直接使用该工具来转录音频文件。
运行 Whisper 命令行工具
whisper audio_file.wav --model small
其中 audio_file.wav
是你想转录的音频文件。--model small
指定了你要使用的模型大小,Whisper 支持以下几种模型:
-
tiny
-
base
-
small
-
medium
-
large
模型越大,精度越高,但需要更多的计算资源。你可以根据自己的需求选择合适的模型。
转录结果保存为文本文件
你可以将转录结果保存到文件中:
whisper audio_file.wav --model small --output_format txt
这将生成一个与音频文件同名的 .txt
文件,里面包含转录的文本。
Whisper使用方法2(Python脚本)
除了命令行工具,Whisper 还可以直接在 Python 中使用,你可以将它集成到自己的项目中。
Python 使用示例
import whisper# 加载模型
model = whisper.load_model("small")# 转录音频
result = model.transcribe("audio_file.wav")# 打印转录结果
print(result["text"])
Whisper 的 transcribe
方法可以处理多种格式的音频文件,如 wav
, mp3
, ogg
等。
模型参数配置
在使用 transcribe
方法时,你可以通过传递额外的参数来更改模型行为:
result = model.transcribe("audio_file.wav", language="zh", task="translate")
Whisper 模型提供了一些重要参数用于音频转文本的过程,帮助开发者根据不同需求调整模型的行为。以下是一些关键参数:
-
「
model_size
」:模型的大小有多种选择,分别为tiny
,base
,small
,medium
,large
,模型越大,准确率越高,但计算资源要求也越高。模型的选择通常取决于性能与速度之间的平衡。 -
「
language
」:用于指定音频的目标语言。如果设置为'auto'
,Whisper 会自动检测语言。你也可以指定具体的语言,例如'en'
表示英语,'zh'
表示中文等。 -
「
task
」:可以是transcribe
或translate
。transcribe
用于将音频直接转录为文本,translate
用于将非英语音频翻译成英语文本。 -
「
temperature
」:控制模型的随机性。较高的温度会让模型生成更多样化的结果,但准确度可能下降。默认设置通常是 0。 -
「
beam_size
」:在解码过程中使用的搜索范围。值越大,解码过程越慢,但通常生成的文本更准确。 -
「
best_of
」:该参数定义了模型在生成不同转录结果时保留最佳结果的策略。较高的值可能会提高准确性,但也会增加处理时间。 -
「
fp16
」:如果设置为True
,Whisper 将使用 16 位浮点数进行计算,从而加速推理过程并减少内存占用,适合在有 GPU 的情况下使用。 -
「
verbose
」:控制是否打印转录的详细信息。设置为True
时,将输出更多调试信息。 -
「
temperature_increment_on_fallback
」:当首次推理失败时,增加的温度值,帮助模型在不确定的情况下生成更好的结果。 -
「
initial_prompt
」:可以为转录任务提供一个初始提示,帮助模型生成更符合上下文的结果。
这些参数在使用 Whisper 模型时可根据实际场景灵活调整,以满足精度、速度和计算资源等方面的不同需求。
Whisper 模型的选择
Whisper 提供了多种不同大小的模型,选择合适的模型可以根据你的硬件条件和实际需求来决定。
模型 | 参数数量 | 大小 | 速度 | 精度 |
---|---|---|---|---|
tiny | 39 M | ~75 MB | 非常快 | 基础 |
base | 74 M | ~140 MB | 快 | 普通 |
small | 244 M | ~450 MB | 中等 | 高 |
medium | 769 M | ~1.5 GB | 较慢 | 非常高 |
large | 1550 M | ~3 GB | 慢 | 极高 |
对于低计算能力的设备(如笔记本电脑或轻量级服务器),small
或 medium
模型是较为推荐的选择。如果你拥有高性能 GPU,可以选择 large
模型来获得最佳的转录效果。
常见问题与解答
Whisper 适合实时转录吗?
Whisper 可以用于实时转录,但性能依赖于使用的模型大小和硬件条件。tiny
和 base
模型适合实时应用,而较大的模型如 large
则可能会有较高的延迟。
Whisper 如何处理多语言音频?
Whisper 能够自动检测输入音频的语言,并输出相应语言的转录文本。你也可以通过 language
参数指定特定的语言。
Whisper 是否支持音频的分段转录?
是的,Whisper 会自动处理长音频文件,并将其分成多个段落进行转录,最终合并为完整的转录文本。
更多内容
「Github」
https://github.com/openai/whisper
「Blog」
https://openai.com/index/whisper/「Paper」
https://arxiv.org/abs/2212.04356
「Model Card」
https://github.com/openai/whisper/blob/main/model-card.md
「Colab Example」
https://github.com/openai/whisper/blob/main/model-card.md
相关文章:

ASR强力模型「Whisper」:解密Whisper:AI驱动的语音识别新时代 -
解密Whisper:AI驱动的语音识别新时代 原创 AI小信 别慌G个PT 2024年10月18日 17:54 北京 ❝ 前两天分享了两个TTS模型,今天分享个ASR强力模型「Whisper」。Whisper是OpenAI开发的一个「ASR」(AutomatedSpeechRecognition,自动语音识别)开源模型…...

【机器学习】向量化使得简单线性回归性能提升
向量化使得简单线性回归性能提升 一、摘要二、向量化运算概述三、向量化运算在简单线性回归中的应用四、性能测试与结果分析 一、摘要 本文主要讲述了向量化运算在简单线性回归算法中的应用。通过回顾传统for循环方式实现的简单线性回归算法,介绍了如何通过最小二乘…...

【kafka系列】消费者
目录 获取消息 1. 消费者获取消息的流程逻辑分析 阶段一:消费者初始化 阶段二:分区分配与重平衡(Rebalance) 阶段三:消息拉取与处理 阶段四:偏移量提交 核心设计思想 2. 流程 关键点总结 常见参数…...
HackerRank C++面试,中等难度题目 - Attribute Parser
去除字符串首尾的空白字符(包括空格、制表符、换行符和回车符) void trim(string &s) {size_t start s.find_first_not_of(" \t\n\r");size_t end s.find_last_not_of(" \t\n\r");if (start string::npos) {s ""…...

【ARM】解决ArmDS Fast Models 中部分内核无法上电的问题
1、 文档目标 解决ArmDS Fast Models 中部分内核无法上电的问题。 2、 问题场景 在调用ArmDS的Fast Models中的Cortex-A55的模型,只有Core 0是上电状态,而Core 1处于掉电状态,如图2-1所示: 图2-1 3、软硬件环境 1)…...

节目选择器安卓软件编写(针对老年人)
文章目录 需求来源软件界面演示效果源码获取 对爬虫、逆向感兴趣的同学可以查看文章,一对一小班教学:https://blog.csdn.net/weixin_35770067/article/details/142514698 需求来源 由于现在的视频软件过于复杂,某客户想开发一个针对老年人、…...

蓝桥杯之图
图: 对于图来说,重点在于之后的最短路径算法,这边简单做一下了解即可 代码: #include<iostream> #include<string> #include<vector> #include<list> #include<queue> using namespace std; clas…...

中兴光猫修改SN,MAC,修改地区,异地注册,改桥接,路由拨号
前言 请先阅读上一篇博客获取到光猫超级密码电信光猫获取超级密码 电信光猫天翼网关4.0获取超级密码教程 四川电信光猫 中兴 F1855V2 ZXHN F1855V2 telent权限 实战 实测_天翼4.0光猫超级密码-CSDN博客 修改SN-修改地区,光猫异地注册,设置桥接模式&#…...
【kafka系列】Kafka如何保证消息不丢失?
目录 1. 生产者端:确保消息成功发送到Broker 核心机制: 关键步骤: 2. Broker端:持久化与副本同步 核心机制: 关键源码逻辑: 3. 消费者端:可靠消费与Offset提交 核心机制: 关…...
AtCoder Beginner Contest 393 —— E - GCD of Subset 补题 + 题解 python
AtCoder Beginner Contest 393 E - GCD of Subset Problem Statement You are given a sequence A ( A 1 , A 2 , … , A N ) A (A_1, A_2, \dots, A_N) A(A1,A2,…,AN) of length N N N and a positive integer K K K (at most N N N). For each i 1 , 2 , … …...
vue3响应式丢失解决办法(三)
vue3的响应式的理解,与普通对象的区别(一) vue3 分析总结响应式丢失问题原因(二) 经过前面2篇文章,知道了响应式为什么丢失了,但是还是碰到了丢失情况,并且通过之前的内容还不能解…...

BY组态:构建灵活、可扩展的自动化系统
引言 在现代工业自动化领域,BY组态(Build Your Own Configuration)作为一种灵活、可扩展的解决方案,正逐渐成为工程师和系统集成商的首选。BY组态允许用户根据具体需求自定义系统配置,从而优化生产效率、降低成本并提…...

2025 (ISC)²CCSP 回忆录
2025.1.20 广州,周一,我一次性通过了CCSP的考试。 为什么要考证? 个人成长所需 职业热情:做一行爱一行,既然我投入了美好的青春年华到网络安全行业当中,那么对于这个行业最有权威的认证,是肯定…...

强化学习笔记7——DDPG到TD3
前提:基于TD 的方法多少都会有高估问题,即Q值偏大。原因两个:一、TD目标是真实动作的高估。 二:自举法高估。 DDPG 属于AC方法:异策略,适合连续动作空间,因为他的策略网络直接输出的动作&#…...

win10 系统 自定义Ollama安装路径 及模型下载位置
win10 系统 自定义Ollama安装路径 及模型下载位置 由于Ollama的exe安装软件双击安装的时候默认是在C盘,以及后续的模型数据下载也在C盘,导致会占用C盘空间,所以这里单独写了一个自定义安装Ollama安装目录的教程。 Ollama官网地址࿱…...
-bash:/usr/bin/rm: Argument list too long 解决办法
问题概述 小文件日志太多导致无法使用rm命令,因为命令行参数列表的长度超过了系统允许的最大值。 需要删除/tmp目录下的所有文件,文件数量比较多。 ls -lt /tmp | wc -l 5682452 解决方法如下: 使用find -exec 遍历,然后执行删…...

内容中台重构企业内容管理流程驱动智能协作升级
内容概要 内容中台作为企业数字化转型的核心基础设施,通过技术架构革新与功能模块整合,重构了传统内容管理流程的底层逻辑。其核心价值在于构建动态化、智能化的内容生产与流转体系,将分散的创作、存储、审核及分发环节纳入统一平台管理。基…...

python实现YouTube关键词爬虫(2025/02/11)
在当今数字化时代,YouTube作为全球最大的视频分享平台之一,拥有海量的视频资源。无论是进行市场调研、内容创作还是学术研究,能够高效地获取YouTube上的相关视频信息都显得尤为重要。今天,我将为大家介绍一个基于Python实现的YouT…...
【效率技巧】怎么做思维导图||数学思维||费曼学习法
目录标题 常见问题:认知误区和建议:思维导图按照功能分类思维导图好处步骤(拆解的步骤) 常见问题: 1、做好的思维导图浪费时间 2、做简单的思维导图没有效果 认知误区和建议: 1、做思维导图工具…...

LabVIEW与USB设备开发
开发一台USB设备并使用LabVIEW进行上位机开发,涉及底层驱动的编写、USB通信协议的实现以及LabVIEW与设备的接口设计。本文将详细介绍如何开发USB设备驱动、实现LabVIEW与USB设备的通信以及优化数据传输,帮助用户顺利完成项目开发。下面是一个详细的说明&…...
可靠性+灵活性:电力载波技术在楼宇自控中的核心价值
可靠性灵活性:电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中,电力载波技术(PLC)凭借其独特的优势,正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据,无需额外布…...
如何为服务器生成TLS证书
TLS(Transport Layer Security)证书是确保网络通信安全的重要手段,它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书,可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

华硕a豆14 Air香氛版,美学与科技的馨香融合
在快节奏的现代生活中,我们渴望一个能激发创想、愉悦感官的工作与生活伙伴,它不仅是冰冷的科技工具,更能触动我们内心深处的细腻情感。正是在这样的期许下,华硕a豆14 Air香氛版翩然而至,它以一种前所未有的方式&#x…...

Python Ovito统计金刚石结构数量
大家好,我是小马老师。 本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构,但是无法直接输出结构的变化情况。 本文使用python调用ovito包的方法,可以持续统计各步的金刚石结构,具体代码如下: from ovito…...
DiscuzX3.5发帖json api
参考文章:PHP实现独立Discuz站外发帖(直连操作数据库)_discuz 发帖api-CSDN博客 简单改造了一下,适配我自己的需求 有一个站点存在多个采集站,我想通过主站拿标题,采集站拿内容 使用到的sql如下 CREATE TABLE pre_forum_post_…...
Java多线程实现之Runnable接口深度解析
Java多线程实现之Runnable接口深度解析 一、Runnable接口概述1.1 接口定义1.2 与Thread类的关系1.3 使用Runnable接口的优势 二、Runnable接口的基本实现方式2.1 传统方式实现Runnable接口2.2 使用匿名内部类实现Runnable接口2.3 使用Lambda表达式实现Runnable接口 三、Runnabl…...

高保真组件库:开关
一:制作关状态 拖入一个矩形作为关闭的底色:44 x 22,填充灰色CCCCCC,圆角23,边框宽度0,文本为”关“,右对齐,边距2,2,6,2,文本颜色白色FFFFFF。 拖拽一个椭圆,尺寸18 x 18,边框为0。3. 全选转为动态面板状态1命名为”关“。 二:制作开状态 复制关状态并命名为”开…...

Selenium 查找页面元素的方式
Selenium 查找页面元素的方式 Selenium 提供了多种方法来查找网页中的元素,以下是主要的定位方式: 基本定位方式 通过ID定位 driver.find_element(By.ID, "element_id")通过Name定位 driver.find_element(By.NAME, "element_name"…...
用 FFmpeg 实现 RTMP 推流直播
RTMP(Real-Time Messaging Protocol) 是直播行业中常用的传输协议。 一般来说,直播服务商会给你: ✅ 一个 RTMP 推流地址(你推视频上去) ✅ 一个 HLS 或 FLV 拉流地址(观众观看用)…...
Electron简介(附电子书学习资料)
一、什么是Electron? Electron 是一个由 GitHub 开发的 开源框架,允许开发者使用 Web技术(HTML、CSS、JavaScript) 构建跨平台的桌面应用程序(Windows、macOS、Linux)。它将 Chromium浏览器内核 和 Node.j…...