当前位置：首页 > article >正文

视频转音频, 音频转文字

article 2026/3/2 19:02:30

Ubuntu 24

环境准备

# 系统级依赖
sudo apt update && sudo apt install -y ffmpeg python3-venv git build-essential python3-dev# Python虚拟环境
python3 -m venv ~/ai_summary
source ~/ai_summary/bin/activate

核心工具链

工具	用途	安装命令
Whisper	语音识别	`pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple`
FFmpeg	音视频处理	`apt install -y ffmpeg`

1. 音频提取

ffmpeg -i 视频.mp4 -vn -ar 16000 -ac 1 -b:a 192k 音频.mp3

2. 语音转写（中文优化）

whisper --model tiny  --language zh --threads 4 音频.mp3 --output_format txt --output_dir transcripts# 可用模型对比（内存需求从低到高）
# tiny(1GB) < base(1.2GB) < small(2GB) < medium(5GB) < large(10GB)

whisper 处理内存不足

解决方案（按优先级排序）

方案一：改用更小模型

# 选择内存占用最低的模型
whisper 教学音频.mp3 \--model tiny \--language zh \--device cpu \--threads 2# 可用模型对比（内存需求从低到高）
# tiny(1GB) < base(1.2GB) < small(2GB) < medium(5GB) < large(10GB)

方案二：内存优化配置

# 1. 强制使用CPU模式（避免GPU显存占用）
whisper 教学音频.mp3 --model tiny --device cpu# 2. 启用内存映射加载（仅限Linux）
HF_DATASETS_IN_MEMORY_MAX_SIZE=0 \
PYTORCH_NO_CUDA_MEMORY_CACHING=1 \
whisper 教学音频.mp3 --model tiny# 3. 限制线程数
export OMP_NUM_THREADS=2  # 控制并行计算线程

方案三：系统级优化

# 创建交换文件（临时增加虚拟内存）
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile# 验证交换空间
free -h

方案四：分片处理长音频

# 将音频切分为10分钟片段
ffmpeg -i 教学音频.mp3 -f segment -segment_time 600 -c copy part_%03d.mp3# 分批处理
for file in part_*.mp3; dowhisper "$file" --model tiny --output_dir transcripts
done

方案五：使用优化版工具

# 安装内存优化版的whisper.cpp
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp && make# 转换模型为ggml格式
./models/download-ggml-model.sh tiny# 运行推理
./main -m models/ggml-tiny.bin -l zh -f 教学音频.mp3

验证方法

# 监控内存使用
watch -n 1 "free -h | grep Mem"# 测试最小可行性案例
whisper --model tiny --language zh --output_format txt test.wav

备选方案

如果必须使用大模型：

升级服务器内存至至少8GB
使用云服务API（推荐OpenAI官方API）

import openai
audio_file = open("教学音频.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

技术说明

优化策略	内存节省效果	适用场景
使用tiny模型	减少80%	快速概要生成
CPU模式	减少30%	无GPU环境
分片处理	减少70%	超长音频(>1小时)
内存映射	减少50%	Linux系统

建议优先采用方案一+方案三组合，在保持可用性的同时最大程度降低内存需求。

繁体转简体

# 安装轻量级转换库
pip install zhconv# 在现有处理流程中加入转换步骤
from zhconv import convertdef traditional_to_simple(text):return convert(text, 'zh-cn')  # 大陆简体with open("transcripts/教学音频.txt", "r") as f:content = traditional_to_simple(f.read())

Whisper支持的核心参数

参数	缩写	默认值	说明
`--temperature`	`-tmp`	`0`	采样温度（0为确定性输出，>0增加随机性）
`--best_of`	`-b`	`5`	生成候选结果的数量（选择最佳转录）
`--beam_size`	`-bs`	`5`	Beam搜索的宽度（影响转录质量）
`--patience`	`-pa`	`1.0`	Beam搜索的耐心值（影响转录速度与质量）
`--length_penalty`	`-lp`	`1.0`	长度惩罚系数（>1鼓励长输出，<1鼓励短输出）
`--suppress_tokens`	`-st`	`None`	禁止生成的token列表（用逗号分隔）
`--initial_prompt`	`-p`	`None`	初始提示文本（用于引导模型生成特定内容）
`--condition_on_previous_text`	`-cop`	`True`	是否基于前文生成后续内容
`--fp16`	`-fp`	`True`	是否使用FP16加速（仅限GPU）
`--temperature_increment_on_fallback`	`-tif`	`0.2`	回退时温度增量（用于处理低质量音频）
`--compression_ratio_threshold`	`-crt`	`2.4`	压缩比阈值（高于此值可能为低质量转录）
`--logprob_threshold`	`-lt`	`-1.0`	对数概率阈值（低于此值可能为低质量转录）
`--no_speech_threshold`	`-nst`	`0.6`	无语音阈值（高于此值可能为静音段）
`--word_timestamps`	`-wt`	`False`	是否生成逐字时间戳
`--prepend_punctuations`	`-pp`	`"'“¿([{-`"	前置标点符号列表
`--append_punctuations`	`-ap`	``	后置标点符号列表
`--highlight_words`	`-hw`	`False`	是否高亮显示单词（仅限VTT/SRT格式）
`--max_line_width`	`-w`	`None`	每行最大字符数（用于格式化输出）
`--max_line_count`	`-c`	`None`	每段最大行数（用于格式化输出）
`--max_words_per_line`	`-mwp`	`None`	每行最大单词数（用于格式化输出）
`--threads`	`-t`	`0`	CPU线程数（0为自动选择）
`--clip_timestamps`	`-ct`	`None`	裁剪时间戳（格式：`start,end`，单位：秒）
`--hallucination_silence_threshold`	`-hst`	`None`	幻觉静音阈值（用于检测无效转录）

1. 使用FFmpeg分片

# 将音频按300秒分片
ffmpeg -i 长讲座.mp3 -f segment -segment_time 300 -c copy 分片_%03d.mp3

2. 批量转录分片

# 使用Whisper转录所有分片
for file in 分片_*.mp3; dowhisper "$file" --model large-v3 --language zh --output_dir transcripts
done

3. 合并转录结果

# 合并所有分片的转录文本
cat transcripts/*.txt > 完整转录.txt

示例命令

1. 高精度转录

whisper 教学音频.mp3 --model large-v3 --language zh --beam_size 5 --best_of 5

2. 逐字时间戳

whisper 会议录音.mp3 --model medium --word_timestamps True --output_format vtt

3. 低质量音频优化

whisper 低质量音频.mp3 --model small --temperature_increment_on_fallback 0.4 --compression_ratio_threshold 2.8

4. 自定义标点处理

whisper 音频.mp3 --model base --prepend_punctuations "'“¿([{-" --append_punctuations '"”.。,，!！?？:：”)]}、'

参数组合建议

场景	推荐参数组合
实时转录	`--model tiny --temperature 0 --threads 2`
高精度转录	`--model large-v3 --beam_size 5 --best_of 5`
低质量音频	`--model small --temperature_increment_on_fallback 0.4 --compression_ratio_threshold 2.8`
逐字时间戳	`--model medium --word_timestamps True --output_format vtt`
长音频处理	使用FFmpeg分片后批量转录

注意事项

硬件要求：large-v3需要至少10GB显存，建议使用NVIDIA 30系列以上显卡。
语言支持：tiny和base模型对非英语支持有限，建议中文场景至少使用small模型。
精度权衡：small模型在大多数场景下已能满足需求，无需盲目追求大模型。

视频转音频, 音频转文字

Ubuntu 24 环境准备 # 系统级依赖 sudo apt update && sudo apt install -y ffmpeg python3-venv git build-essential python3-dev# Python虚拟环境 python3 -m venv ~/ai_summary source ~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pip …...

编程日记 2025/7/18 16:52:21

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

摘要 I ABSTRACT II 第 1 章引言 1 研究背景及意义 1 研究背景 1研究意义 1 国内外研究现状 2 智慧旅游 3旅游大数据 3 研究内容 4本章小结 4 第 2 章相关技术概述 5 基于内容的推荐算法 5 基于内容的推荐算法原理 5基于内容的推荐算法实现 5 协同过滤推荐算法 6 协同过…...

编程日记 2026/2/24 15:36:43

QT学习笔记1

** Qt Creator开发环境配置** 安装流程（Windows平台） 下载与安装 ： 访问Qt官网，下载在线安装工具Qt Online Installer。登录或注册Qt账号，选择开源版本（需勾选“接受协议”）。勾选组件&#xff…...

编程日记 2026/2/16 20:24:24

Ubuntu 24 常用命令方法

文章目录环境说明1、账号管理1.1、启用 root 2、包管理工具 apt & dpkg2.1、apt 简介 & 阿里源配置2.2、dpkg 简介2.3、apt 和 dpkg 两者之间的关系2.4、常用命令 3、启用 ssh 服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软…...

编程日记 2026/2/17 16:41:59

Flask多参数模版使用

需要建立目录templates； 把建好的html文件放到templates目录里面； 约定好参数名字，单个名字可以直接使用；多参数使用字典传递； 样例： from flask import render_template # 模板 (Templates) #Flask 使用…...

编程日记 2026/2/28 13:20:35

torcharrow gflags版本问题

问题描述其实仍然是很简单的编译问题，但是又弄了一整个下午加几乎整个晚上，进度缓慢，又吸取了教训，因而还是来记录一下。在试图使用torcharrow进行推荐系统模拟的时候，撰写的python程序报错：ERROR: flag…...

编程日记 2026/2/15 3:46:55

自然语言处理｜深入解析 PEGASUS：从原理到实践

一、引言在信息爆炸的时代，互联网上的文本数据以极快的速度增长。无论是新闻资讯、学术论文、社交媒体动态，还是各类报告文档，我们每天接触到的文字信息量巨大。如何快速、准确地提取关键内容成为一项重要任务。文本摘要技术通过将长篇文本…...

编程日记 2026/2/27 14:44:37

Spring AI Alibaba快速使用

AI 时代，Java 程序员也需要与时俱进，这两个框架必须掌握。一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架，它的目标是将 Spring生态系统的设计原则应用于人工智能领域。但是， Spring…...

编程日记 2026/2/28 4:14:12

socks 协议介绍

SOCKS协议详解一、基本定义与核心功能 SOCKS（Socket Secure）是一种网络传输协议，主要用于通过代理服务器转发客户端与目标服务器之间的通信请求。其核心功能包括隐藏用户真实IP地址、穿透防火墙限制以及支持多种网络协议（如TCP…...

编程日记 2026/2/26 19:24:51

Linux --centos安装显卡驱动

显卡下载页面 https://www.nvidia.com/en-us/drivers/unix/ 随便下载一个即可安装过程查看当前设备的显卡信息 lspci | grep -i vga安装gcc相关依赖 yum update -y yum update gcc yum install build-essential yum install gcc-multilibdkms yum groupinstall "Dev…...

编程日记 2026/2/19 6:53:17

【软件工程】简答题

真题 2024-10 26.需求验证应验证需求规格说明书中每一单一需求是否满足5个性质,这5个性质是什么? 27.简述RUP和UML的关系。 28.简述五种常见的模块间耦合类型。 29.螺旋模型在笛卡尔坐标的4个象限上,分别表达了哪4个方面的活动? 30.为了表达概念模型和软件模型,UML提供了13…...

编程日记 2026/1/24 11:06:48

统信UOS中使用Vscode编程

写在前面：统信UOS其实就是套壳的Linux系统，所以有问题如果搜不到解决方法，可以参考Linux下的解决方法。 1.环境配置 Vscode : 1.85.0 Vscode就直接下载安装就行，然后安装插件：Volar、中文汉化包 node：18…...

编程日记 2026/2/27 4:58:43

K8s认证（CKA/CKAD/CKS）哪家强？主流证书对比

2024年Kubernetes认证全解析：选对证书，薪资翻倍！ （附CKA/CKAD/CKS最新考试攻略） 一、K8s认证哪家强？主流证书对比认证名称颁发机构考试特点适合人群考试费用CKA（认证K8s管理员）CN…...

编程日记 2026/2/13 22:29:50

HTTP1.0、HTTP1.1、HTTP2.0对比

HTTP 1.0、HTTP 1.1 和 HTTP 2.0 是 HTTP 协议演进中的三个重要版本，每个版本都针对前一代的不足进行了优化和改进。以下是它们的核心区别和关键特性对比： 1. HTTP 1.0（1996年） 非持久连接每个请求/响应对都需要单独建立和关闭 T…...

编程日记 2026/2/13 17:44:52

docker安装向量数据库Milvus及可视化工具 Attu

前置条件 1.安装了docker 2.服务器网络正常，可以连接到容器下载地址 3.服务器磁盘空间正常，docker磁盘占用过大，请参考docker容量占用过大解决办法一、下载yml文件可在文章资源下载或者自行下载：下载yml 下载这个单机版本的…...

编程日记 2026/2/14 23:15:35

A l密码学（Deepseek)

我：qwertyuiopasdfghjklzxcvbnm deepseek:深度思考中． Okay, lets see. The user input is "qwertyuiopasdfghjklzxcvbnm". At first glance, it looks like a jumbled sequence of letters with some spaces or maybe other characters in …...

编程日记 2026/2/27 13:59:58

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲，再把这个大纲复制到Kimi的ppt助手里： https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板： 点击生成ppt就制作好了。...

编程日记 2026/2/28 9:53:09

Apache Paimon 在抖音集团多场景中的优化实践

资料来源：火山引擎-开发者社区本文将基于抖音集团内部两大业务的典型实时数仓场景，介绍Paimon在抖音集团内部的生产实践。作者：李明、苏兴、文杰抖音集团大数据工程师目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设，其…...

编程日记 2026/2/17 6:45:31

Uni-App 双栏联动滚动组件开发详解 (电梯导航)

本文基于提供的代码实现一个左右联动的滚动组件，以下是详细的代码解析与实现原理说明：  <te…...

编程日记 2026/2/15 2:20:29

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言人工智能（AI）领域近年来取得了巨大的突破，特别是在大语言模型（LLM&#…...

编程日记 2026/2/23 14:48:00

【自用】NLP算法面经（5）

一、L1、L2正则化正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。比如： 其中，x1和…...

编程日记 2026/2/22 1:40:32

体育直播视频源格式解析：M3U8 vs FLV

在体育直播领域，视频源的格式选择直接影响着直播的流畅度、画质以及兼容性。目前，M3U8 和 FLV 是两种最为常见的视频流格式，它们各有优劣，适用于不同的场景。本文将从技术原理、优缺点以及应用场景等方面对 M3U8 和 FLV 进行详细解…...

编程日记 2026/2/28 19:48:34

Ubuntu20.04安装并配置Pycharm2020.2.5

一. 下载pycharm 社区版 1. 下载地址： PyCharm: the Python IDE for data science and web developmentThe Python IDE for data science and web development with intelligent code completion, on-the-fly error checking, quick-fixes, and much more.https:/…...

编程日记 2026/2/25 13:24:00

Filter Solutions学习-02 【高级设计】界面介绍

这是高级界面的各种控件的功能。其中说一下filter type。这不是根据自己想当然决定的，而是根据实际的需要，比如带外衰减的程度，带内波动（平坦）如何，还有群时延等等决定的。比如不要求矩形系数选什么。。 …...

编程日记 2026/2/22 18:03:11

用Python实现交互式数据可视化：从基础图表到动态仪表板

用Python实现交互式数据可视化：从基础图表到动态仪表板一、项目背景本文将通过一个完整的Python项目，展示如何使用Plotly和ipywidgets构建从基础统计到动态交互的全栈数据可视化方案。二、核心功能模块 1. 数据生成与预处理 np.random.seed(100)…...

编程日记 2026/2/13 23:18:58

Java面试黄金宝典5

1. ConcurrentHashMap 和 HashTable 有哪些区别原理 HashTable：它继承自 Dictionary 类，是 Java 早期提供的线程安全哈希表。其线程安全的实现方式是对每个方法都使用 synchronized 关键字进行同步。例如，在调用 put、get 等方法时&#xff…...

编程日记 2026/2/1 4:43:18

【深度学习与大模型基础】第6章-对角矩阵，对称矩阵，正交矩阵

一、对角矩阵对角矩阵（Diagonal Matrix）是一种特殊的方阵，其非对角线上的元素均为零，只有对角线上的元素可能非零。具体来说，对于一个 nn的矩阵 A[]，如果满足则 AA 称为对角矩阵。对角矩阵通常表示为&am…...

编程日记 2026/2/21 8:12:10

初识R语言饼状图

目录基础饼图标签个性化边界修改密度条纹边框颜色基础饼图 rm(list ls())# Create Data Prop <- c(3,7,9,1,2) # Make the default Pie Plot P1 <- pie(Prop) dev.off() 标签个性化 P2 <-pie(Prop , labels c("Gr-A","Gr-B","…...

编程日记 2026/2/26 10:24:53

计算机技术系列博客——目录页(持续更新)

1.1 博客目录专栏 1.1.1 博客文章导航计算机技术系列博客——目录页 1.1.2 网页资源整理 2.1 计算机科学理论 2.2 软件工程技术 2.2.1.1 编程语言 Java Java语言基础 (1) Java基础知识总结01——Java基础篇 (2) Java基础知识总结02——集合框架篇 (3) Java基础知识总结03—…...

编程日记 2026/2/19 6:09:23

HTTP和RPC的区别

RPC和 HTTP是两种常见的通信方式，它们在设计目标、使用场景和技术实现上有显著区别。以下是它们的详细对比： 1. 定义与核心思想特性RPCHTTPRemote Procedure Call远程过程调用HyperText Transfer Protocol超文本传输协议定义一种协议或框架&#xff0…...

编程日记 2026/2/22 21:42:39