当前位置：首页 > news >正文

【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战

news 2026/2/8 22:22:21

一、引言

二、FFmpeg工具介绍

2.1 什么是FFmpeg

2.2 FFmpeg核心原理

2.3 FFmpeg使用示例

三、FFmpeg+Whisper二阶段法视频理解实战

3.1 FFmpeg安装

3.2 Whisper模型下载

3.3 FFmpeg抽取视频的音频

3.3.1 方案一：命令行方式使用ffmpeg

3.3.2 方案二：ffmpeg-python库使用ffmpeg

3.4 Whisper将音频转为文本

3.5 视频理解完整代码

3.6 视频理解模型部署

四、总结

一、引言

上一篇对Whisper原理和实战进行了讲解，第7次拿到了热榜第一🏆。今天，我们在Whisper的基础上，引入ffmpeg工具对视频的音频进行抽取，再使用Whisper将音频转为文本，通过二阶段法实现视频内容的理解。

二、FFmpeg工具介绍

2.1 什么是FFmpeg

FFmpeg是一个开源的跨平台多媒体处理工具，它可以处理音频/视频数据，包括转码、转换格式、分割、合并等操作。

2.2 FFmpeg核心原理

多媒体流的解析：FFmpeg能够解析各种常见的多媒体格式，包括MP4, MKV, AVI, MP3, OGG等，并将其转换为FFmpeg内部的统一表示格式，也就是所谓的复用格式（Container Format）和编码格式（Codec）。
多媒体流的编码和解码：FFmpeg可以使用不同的编解码器来编码和解码音频/视频数据。例如，它可以使用H.264编码来压缩视频数据，使用AAC编码来压缩音频数据。
过滤器（Filters）：FFmpeg提供了一个强大的过滤器系统，可以用来处理视频和音频的各种效果，例如裁剪、裁切、旋转、缩放等。
流的复用和解复用：FFmpeg可以将多个音频/视频流合并为一个文件，也可以将一个文件分离成多个音频/视频流。
并行处理：FFmpeg利用多线程技术，可以并行处理多个任务，比如同时进行多个转码操作。

2.3 FFmpeg使用示例

ffmpeg -i input.mp4 -vn -ar 44100 -ac 2 -ab 192k -f mp3 output.mp3

-i input.mp4 指定输入文件。
-vn 表示禁用视频录制。
-ar 44100 设置采样率为44.1kHz。
-ac 2 设置声道数为2（立体声）。
-ab 192k 设置比特率为192k。
-f mp3 设置输出格式为MP3。
output.mp3 是输出文件的名称。

三、FFmpeg+Whisper二阶段法视频理解实战

3.1 FFmpeg安装

由于FFmpeg不支持pip安装，所以需要使用apt-get

sudo apt-get update && apt-get install ffmpeg

3.2 Whisper模型下载

这里与上一篇一样，还是采用transformers的pipeline，首先创建conda环境以及安装transformers

创建并激活conda环境：

conda create -n video2text python=3.11
conda activate video2text

安装transformers库：

pip install transformers -i https://mirrors.cloud.tencent.com/pypi/simple

基于transformers的pipeline会自动进行模型下载，当然，如果您的网速不行，请替换HF_ENDPOINT为国内镜像。

os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"transcriber = pipeline(task="automatic-speech-recognition", model="openai/whisper-medium")

不同尺寸模型参数量、多语言支持情况、需要现存大小以及推理速度如下

3.3 FFmpeg抽取视频的音频

3.3.1 方案一：命令行方式使用ffmpeg

首先将ffmpeg命令放入ffmpeg_command，之后采用subprocess库的run方法执行ffmpeg_command内的命令。

输入的视频文件为input_file，输出的音频文件为output_file。

import subprocess
def extract_audio(input_file, output_file):"""使用FFmpeg从MP4文件中提取音频并保存为MP3格式。:param input_file: 输入的MP4文件路径:param output_file: 输出的MP3文件路径"""# 构建FFmpeg命令ffmpeg_command = ['ffmpeg', '-i', input_file, '-vn', '-acodec', 'libmp3lame', output_file]try:# 执行命令subprocess.run(ffmpeg_command, check=True)print(f"音频已成功从 {input_file} 提取到 {output_file}")except subprocess.CalledProcessError as e:print(f"处理错误: {e}")

3.3.2 方案二：ffmpeg-python库使用ffmpeg

首先安装ffmpeg-python：

 pip install ffmpeg-python -i  https://mirrors.cloud.tencent.com/pypi/simple

引入ffmpeg库，一行代码完成音频转文本

import ffmpeg
def extract_audio(input_file, output_file):"""使用FFmpeg从MP4文件中提取音频并保存为MP3格式。:param input_file: 输入的MP4文件路径:param output_file: 输出的MP3文件路径"""try:# 执行命令ffmpeg.input(input_file).output(output_file, acodec="libmp3lame", ac=2, ar="44100").run()print(f"音频已成功从 {input_file} 提取到 {output_file}")except subprocess.CalledProcessError as e:print(f"处理错误: {e}")

3.4 Whisper将音频转为文本

from transformers import pipeline
def speech2text(speech_file):transcriber = pipeline(task="automatic-speech-recognition", model="openai/whisper-medium")text_dict = transcriber(speech_file)return text_dict

这里采用pipeline完成openai/whisper-medium的模型下载以及实例化，将音频文件输入实例化的transcriber对象即刻得到文本。

3.5 视频理解完整代码

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
os.environ["TF_ENABLE_ONEDNN_OPTS"] = "0"from transformers import pipeline
import subprocessdef speech2text(speech_file):transcriber = pipeline(task="automatic-speech-recognition", model="openai/whisper-medium")text_dict = transcriber(speech_file)return text_dict
def extract_audio(input_file, output_file):"""使用FFmpeg从MP4文件中提取音频并保存为MP3格式。:param input_file: 输入的MP4文件路径:param output_file: 输出的MP3文件路径"""# 构建FFmpeg命令ffmpeg_command = ['ffmpeg', '-i', input_file, '-vn', '-acodec', 'libmp3lame', output_file]try:# 执行命令subprocess.run(ffmpeg_command, check=True)print(f"音频已成功从 {input_file} 提取到 {output_file}")except subprocess.CalledProcessError as e:print(f"处理错误: {e}")import argparse
import json
def main():parser = argparse.ArgumentParser(description="视频转文本")parser.add_argument("--video","-v", type=str, help="输入视频文件路径")parser.add_argument("--audio","-a", type=str, help="输出音频文件路径")args = parser.parse_args()print(args) extract_audio(args.video, args.audio)text_dict = speech2text(args.audio)print("视频内的文本是：\n" +  text_dict["text"])#print("视频内的文本是：\n"+ json.dumps(text_dict,indent=4))if __name__=="__main__":main()

输出为：

3.6 视频理解模型部署

如果想将该服务部署成语音识别API服务，可以参考之前的FastAPI相关文章。

四、总结

本文在上一篇音频转文本的基础上，引入了视频转音频，这样可以采用二阶段法：先提取音频，再音频转文字的方法完成视频内容理解。之后可以配上LLM对视频内提取的文本进行一系列应用。

希望可以帮到您，如果觉得有帮助的话，期待您的三连+投票！

如果您还有时间，可以看看我的其他文章：

《AI—工程篇》

AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

AI智能体研发之路-工程篇（五）：大模型推理服务框架LocalAI一键部署

《AI—模型篇》

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

AI智能体研发之路-模型篇（三）：中文大模型开、闭源之争

AI智能体研发之路-模型篇（四）：一文入门pytorch开发

AI智能体研发之路-模型篇（五）：pytorch vs tensorflow框架DNN网络结构源码级对比

AI智能体研发之路-模型篇（六）：【机器学习】基于tensorflow实现你的第一个DNN网络

AI智能体研发之路-模型篇（七）：【机器学习】基于YOLOv10实现你的第一个视觉AI大模型

AI智能体研发之路-模型篇（八）：【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战

AI智能体研发之路-模型篇（九）：【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战

AI智能体研发之路-模型篇（十）：【机器学习】Qwen2大模型原理、训练及推理部署实战

《AI—Transformers应用》

【AI大模型】Transformers大模型库（一）：Tokenizer

【AI大模型】Transformers大模型库（二）：AutoModelForCausalLM

【AI大模型】Transformers大模型库（三）：特殊标记（special tokens）

【AI大模型】Transformers大模型库（四）：AutoTokenizer

【AI大模型】Transformers大模型库（五）：AutoModel、Model Head及查看模型结构

【AI大模型】Transformers大模型库（六）：torch.cuda.OutOfMemoryError: CUDA out of memory解决

【AI大模型】Transformers大模型库（七）：单机多卡推理之device_map

【AI大模型】Transformers大模型库（八）：大模型微调之LoraConfig

【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战

目录一、引言二、FFmpeg工具介绍 2.1 什么是FFmpeg 2.2 FFmpeg核心原理 2.3 FFmpeg使用示例三、FFmpegWhisper二阶段法视频理解实战 3.1 FFmpeg安装 3.2 Whisper模型下载 3.3 FFmpeg抽取视频的音频 3.3.1 方案一：命令行方式使用ffmpeg 3.3.2 方案二&a…...

编程日记 2024/7/5 0:38:05

Java中继承接口和实现接口的区别、接口和抽象类的区别、并理解关键字interface、implements

初学者容易把继承接口和实现接口搞混，专门整理一下，顺便简单介绍一下interface、implements关键字。继承接口和实现接口的区别、接口的特点继承接口是说的只有接口才可以继承接口，是接口与接口间的。实现接口是说的接口与类之间&#xff…...

编程日记 2024/7/5 0:37:03

Excel为数据绘制拆线图,并将均值线叠加在图上,以及整个过程的区域录屏python脚本

Excel为数据绘制拆线图,并将均值线叠加在图上,以及整个过程的区域录屏python脚本 1.演示动画A.视频B.gif动画 2.跟踪鼠标区域的录屏脚本 Excel中有一组数据,希望画出曲线,并且能把均值线也绘制在图上,以下动画演示了整个过程,并且提供了区域录屏脚本,原理如下: 为节约空间,避免…...

编程日记 2024/7/5 0:35:01

易保全推动区块链应用与AI融合创新发展

数字化时代，区块链和人工智能技术作为当下两大“黑科技”，两者的深度结合，正在为企业数字化转型带来前所未有的机遇。易保全作为国内权威的电子数据存证保全机构，积极探索两者的融合之道，将区块链的去中心化、不可篡…...

编程日记 2024/7/5 0:34:00

C++(Python)肥皂泡沫普拉托边界膜曲面模型算法

🎯要点 🎯肥皂泡二维流体模拟 | 🎯泡沫普拉托边界膜曲面模型算法演化厚度变化 | 🎯螺旋曲面三周期最小结构生成 📜皂膜用例：Python计算物理粒子及拉格朗日和哈密顿动力学 | Python和MATLAB粘性力接触力动…...

编程日记 2024/7/5 0:32:59

VBA打开其他Excel文件

前言本节会介绍通过VBA实现打开其他excel文件，包括模糊匹配文件名称、循环同时打开多个文件，并获取工作表及工作簿进行数据操作后，对打开的文件进行保存并关闭操作。一、打开固定文件名称的文件场景说明： 1.新建一个宏文件VBA…...

编程日记 2024/7/5 0:31:58

模拟 ADC 的前端

ADC 的 SPICE 模拟反复试验的方法将信号发送到 ADC 非常耗时，而且可能有效也可能无效。如果转换器捕获电压信息的关键时刻模拟输入引脚不稳定，则无法获得正确的输出数据。SPICE 模型允许您执行的步是验证所有模拟输入是否稳定，以便没有错误…...

编程日记 2024/7/5 0:30:57

tls各个版本的安全性介绍

TLS（Transport Layer Security）协议的各个版本在安全性方面经历了逐步的演进和改进，以应对不断变化的网络安全威胁。以下是各主要版本的安全性概览： TLS 1.0： 发布于1999年，是SSL 3.0的后续版本。在其发布时…...

编程日记 2024/7/5 0:28:55

PHP家政服务预约单开版微信小程序系统源码

🏠 —— 便捷生活，从指尖开始💪 🌈【开篇：家政新风尚，一键触达】在忙碌的生活节奏中，你是否渴望拥有一个温馨、整洁的家，却又苦于找不到合适的家政服务？现在&#xff…...

编程日记 2024/7/5 0:27:54

数据增强：目标检测算法中的性能提升利器

引言目标检测是计算机视觉领域的核心任务之一，旨在从图像或视频中识别和定位感兴趣的对象。然而，由于训练数据的局限性，目标检测模型往往面临过拟合和泛化能力不足的问题。数据增强作为一种有效的解决方案，通过增加数据多样性来…...

编程日记 2024/7/5 0:26:52

KVB交易平台：市场迎来新热潮！铜价会持续上涨吗？

近期，全球铜价出现明显上涨趋势。韩国光阳LME仓库的铜库存显著下降，市场对即时需求的增加作出了积极反应。供应端的紧张和需求端的复苏共同推动了铜价的上涨。 KVB外汇分析师们对未来铜价保持谨慎乐观态度，认为长期内铜价有望保持稳定甚至进…...

编程日记 2024/7/5 0:25:51

React@16.x（44）路由v5.x（9）源码（1）- path-to-regexp

目录 1，作用2，实现获取 match 对象2.1，match 对象的内容2.2，注意点2.3，实现 1，作用之前在介绍 2.3 match 对象时，提到了 react-router 使用第3方库 path-to-regexp 来匹配路径正则。我们也…...

编程日记 2024/7/5 0:24:50

C#面：String str=new String(“a“)和String str = “a“有什么区别

String str new String（“a”）和String str “a”的区别在于对象的创建方式和内存分配方式。字符串 str new String（“a”）： 使用new关键字显式地创建了一个新的String对象。每次执行这行代码时，都会…...

编程日记 2024/7/5 0:23:49

CS算法（二）—— 斜视SAR点目标仿真

SAR成像专栏目录我们按照Cumming教授所著的《合成孔径雷达成像——算法与实现》7.6节的点目标参数进行仿真，斜视角设置为8，中心斜距改为1000km。先放最终的仿真结果： 1. 参数配置在中心点和中心的的上下左右方向设置5个点目标： function para=config_sar_para_cumming(…...

编程日记 2024/7/5 0:19:45

2024亚洲国际餐饮展览会（北京餐饮展|火锅展|预制菜展会）

2024北京餐饮展会，2024北京食材展会，2024北京火锅展会，2024北京火锅食材展会，2024北京预制菜展会，2024北京预制食材展会， 2024亚洲国际餐饮展览会（北京餐饮展|火锅展|预制菜展会） …...

编程日记 2024/7/5 0:18:44

【RabbitMQ问题踩坑】RabbitMQ设置手动ack后，消息队列有多条消息，只能消费一条，就不继续消费了，这是为什么？

现象：我发送5条消息到MQ队列中，同时，我在yml中设置的是需要在代码中手动确认，但是我把代码中的手动ack给关闭了，会出现什么情况？ yml中配置，配置需要在代码中手动去确认消费者消费消息成功&…...

编程日记 2024/7/5 0:17:43

深度解码：需求跟踪的艺术与实战应用

文章目录引言一、需求跟踪的定义二、需求跟踪矩阵2.1 需求跟踪矩阵包含的内容2.2 跟踪矩阵层级2.3 需求属性2.4 参考表格三、需求跟踪的收益3.1 确保商业价值最大化3.2 满足客户期望3.3 范围管理3.4 决策支持3.5 提高效率和效果3.6 文档化和沟通3.7 变更管理3.8 测量和改进四…...

编程日记 2024/7/5 0:16:42

数据结构——树的基础概念

目录 1.树的概念 2.树的相关概念 3.树的表示 （1）直接表示法 （2）双亲表示法 (3)左孩子右兄弟表示法 4.树在实际中的运用（表示文件系统的目录树结构） 1.树的概念树是一种非线性的数据结构&#xff0…...

编程日记 2024/7/5 0:14:40

TimerManager和Timer

在RTSP服务器中需要一个定时器来定时发送音频帧和视频帧。音频帧每隔23ms发送一帧，视频帧每隔40ms发一帧。因此需要两个定时器来定时发送，此时我们就需要用到一个TimerManager来管理Timer。在TimerManager类中我们需要创建定时器文件描述符&#xff…...

编程日记 2024/7/5 0:13:39

手写Spring-MVC之前后置处理器与异常处理、数据库框架

Day48 手写Spring-MVC之前后置处理器与异常处理前后置处理器概念：从服务器获取的JSON数据可能是加密后的，因此服务端获取的时候需要进行解密（前置处理器）。而从服务器传出的JSON数据可能需要加密，因此需要在处理返…...

编程日记 2024/7/5 0:12:37

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/11/9 1:27:18

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求，由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面： 🏛️ 一、组织架构与职责质量体系明确组织内各部门、岗位的职责与权限，形成层级清晰的管理网络&#xf…...

编程新知 2025/10/24 9:13:44

Java 加密常用的各种算法及其选择

在数字化时代，数据安全至关重要，Java 作为广泛应用的编程语言，提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景，有助于开发者在不同的业务需求中做出正确的选择。一、对称加密算法…...

编程新知 2025/11/22 20:41:02

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因常见解决方法更好的解决方法设计精妙之处登录续期登录续期常见实现方式特…...

编程新知 2026/1/27 16:41:02

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

视觉slam十四讲实践部分记录——ch2、ch3

ch2 一、使用g++编译.cpp为可执行文件并运行(P30) g++ helloSLAM.cpp ./a.out运行二、使用cmake编译 mkdir build cd build cmake .. makeCMakeCache.txt 文件仍然指向旧的目录。这表明在源代码目录中可能还存在旧的 CMakeCache.txt 文件，或者在构建过程中仍然引用了旧的路…...

编程新知 2026/2/6 15:56:54

push [特殊字符] present

push 🆚 present 前言present和dismiss特点代码演示 push和pop特点代码演示前言在 iOS 开发中，push 和 present 是两种不同的视图控制器切换方式，它们有着显著的区别。 present和dismiss 特点在当前控制器上方新建视图层级需要手动调用…...

编程新知 2026/1/31 4:26:17

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备安装DevEco Studio 3.1： 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置： // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

编程新知 2025/12/29 15:43:26

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

编程新知 2025/11/26 20:46:42

一、引言

二、FFmpeg工具介绍

2.1 什么是FFmpeg

2.2 FFmpeg核心原理

2.3 FFmpeg使用示例

三、FFmpeg+Whisper二阶段法视频理解实战

3.1 FFmpeg安装

3.2 Whisper模型下载

3.3 FFmpeg抽取视频的音频

3.3.1 方案一：命令行方式使用ffmpeg

3.3.2 方案二：ffmpeg-python库使用ffmpeg

3.4 Whisper将音频转为文本

3.5 视频理解完整代码

3.6 视频理解模型部署

四、总结

相关文章：