当前位置：首页 > news >正文

pydub、ffmpeg 音频文件声道选择转换、采样率更改

news 2026/6/1 9:23:41

快速查看音频通道数和每个通道能力判断具体哪个通道说话；一般能量大的那个算是说话

import wave
from pydub import AudioSegment
import numpy as npdef read_wav_file(file_path):with wave.open(file_path, 'rb') as wav_file:params = wav_file.getparams()num_channels = params.nchannelssample_width = params.sampwidthframe_rate = params.frameratenum_frames = params.nframesprint(f"Number of channels: {num_channels}")print(f"Sample width: {sample_width}")print(f"Frame rate: {frame_rate}")print(f"Number of frames: {num_frames}")frames = wav_file.readframes(num_frames)audio_data = np.frombuffer(frames, dtype=np.int16)if num_channels > 1:audio_data = audio_data.reshape(-1, num_channels)return audio_data, frame_rate, num_channelsdef analyze_channels(audio_data, frame_rate, num_channels):for channel in range(num_channels):channel_data = audio_data[:, channel] if num_channels > 1 else audio_data# 计算通道的能量energy = np.sum(np.abs(channel_data))print(f"Channel {channel} energy: {energy}")# 你可以在这里添加更多的分析逻辑，比如使用语音活动检测（VAD）来判断说话声if __name__ == "__main__":file_path = r"E:\allchat\output.wav"audio_data, frame_rate, num_channels = read_wav_file(file_path)analyze_channels(audio_data, frame_rate, num_channels)

这里 channel0 的声音算说话的
在这里插入图片描述

1、转换mono单声道，选择人声的那个通道

mp3格式

from pydub import AudioSegmentdef extract_and_save_channel(input_file, output_file, channel_index):# 读取 MP3 文件audio = AudioSegment.from_mp3(input_file)# 提取特定通道if audio.channels > 1:channel_data = audio.split_to_mono()[channel_index]else:channel_data = audio# 保存提取的通道为新的 MP3 文件channel_data.export(output_file, format="mp3")if __name__ == "__main__":input_file = "your_audio_file.mp3"output_file = "channel_0.mp3"channel_index = 0  # 选择 Channel 0extract_and_save_channel(input_file, output_file, channel_index)

wav格式

from pydub import AudioSegment# 加载WAV文件
wav_file_path = r"E:\allchat\output_16000.wav"
audio_segment = AudioSegment.from_wav(wav_file_path)# 提取Channel 0
if audio_segment.channels > 1:channel_0 = audio_segment.split_to_mono()[0]
else:channel_0 = audio_segment# 导出为单声道WAV文件
mono_wav_file_path = r"E:\allchat\output_16000_channel_0.wav"
channel_0.export(mono_wav_file_path, format="wav")

在这里插入图片描述

2、采样率更改为16000

from pydub import AudioSegmentdef resample_wav_with_pydub(input_file, output_file, new_rate):# 读取原始WAV文件audio = AudioSegment.from_wav(input_file)# 设置新的采样率audio = audio.set_frame_rate(new_rate)# 导出重采样后的WAV文件audio.export(output_file, format='wav')# 使用示例
resample_wav_with_pydub('input.wav', 'output_16000.wav', 16000)

在这里插入图片描述

pydub、ffmpeg 音频文件声道选择转换、采样率更改

快速查看音频通道数和每个通道能力判断具体哪个通道说话；一般能量大的那个算是说话 import wave from pydub import AudioSegment import numpy as npdef read_wav_file(file_path):with wave.open(file_path, rb) as wav_file:params wav_file.getparams()num_cha…...

编程日记 2024/7/7 1:08:02

0803实操-Windows Server系统管理

Windows Server系统管理系统管理与基础配置查看系统信息、更改计算机名称网络配置启用网络发现 Windows启用网络发现是指在网络设置中启用一个功能，该功能允许您的计算机在网络上识别和访问其他设备和计算机。具体来说，启用网络发现后&#xff…...

编程日记 2024/7/7 1:07:00

使用Java构建物联网应用的最佳实践

使用Java构建物联网应用的最佳实践大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！ 随着物联网（IoT）技术的快速发展，越来越…...

编程日记 2024/7/7 1:05:59

价格预言机的使用总结（一）：Chainlink篇

文章首发于公众号：Keegan小钢前言价格预言机已经成为了 DeFi 中不可获取的基础设施，很多 DeFi 应用都需要从价格预言机来获取稳定可信的价格数据，包括借贷协议 Compound、AAVE、Liquity ，也包括衍生品交易所 dYdX、PERP 等等。…...

编程日记 2024/7/7 1:04:58

【Pyhton】读取寄存器数据到MySQL数据库

目录步骤 modsim32软件配置 Navicat for MySQL 代码实现步骤安装必要的库：确保安装了pymodbus和pymysql。配置Modbus连接：设置Modbus从站的IP地址、端口（对于TCP）或串行通信参数（对于RTU）。连接M…...

编程日记 2024/7/7 1:03:57

jmeter-beanshell学习3-beanshell获取请求报文和响应报文

前后两个报文，后面报文要用前面报文的响应结果，这个简单，正则表达式或者json提取器，都能实现。但是如果后面报文要用前面请求报文的内容，感觉有点难。最早时候把随机数写在自定义变量，前后两个接口都用这个…...

编程日记 2024/7/7 1:01:54

【C++】B树及其实现

写目录一、B树的基本概念1.引入2.B树的概念二、B树的实现1.B树的定义2.B树的查找3.B树的插入操作4.B树的删除5.B树的遍历6.B树的高度7.整体代码三、B树和B*树1.B树2.B*树3.总结一、B树的基本概念 1.引入我们已经学习过二叉排序树、AVL树和红黑树三种树形查找结构&#x…...

编程日记 2024/7/7 1:00:53

C++(Qt)-GIS开发-QGraphicsView显示瓦片地图简单示例

C(Qt)-GIS开发-QGraphicsView显示瓦片地图简单示例文章目录 C(Qt)-GIS开发-QGraphicsView显示瓦片地图简单示例1、概述2、实现效果3、主要代码4、源码地址更多精彩内容👉个人内容分类汇总 👈👉GIS开发 👈 1、概述支持多线程加…...

编程日记 2024/7/7 0:58:50

CTFShow的RE题（三）

数学不及格 strtol 函数 long strtol(char str, char **endptr, int base); 将字符串转换为长整型就是解这个方程组了主要就是 v4, v9的关系， 3v9-(v10v11v12)62d10d4673 v4 v12 v11 v10 0x13A31412F8C 得到 3*v9v419D024E75FF(1773860189695) 重点&…...

编程日记 2024/7/7 0:57:49

WordPress主题开发进群付费主题v1.1.2 多种引流方式

全新前端UI界面，多种前端交互特效让页面不再单调，进群页面群成员数，群成员头像名称，每次刷新页面随机更新不重复，最下面评论和点赞也是如此随机刷新不重复进群页面简介，群聊名称，群内展示&…...

编程日记 2024/7/7 0:54:47

SAP中的 UPDATA TASK 和 BACKGROUND TASK

前言： 记录这篇文章起因是调查生产订单报工问题引申出来的一个问题，后来再次调查后了解了其中缘由，大概记录以下，如有不对，欢迎指正。问题原贴如下： SAP CO11N BAPI_PRODORDCONF_CREATE_TT连续报工异步更…...

编程日记 2024/7/7 0:52:45

UDP协议：独特之处及其在网络通信中的应用

在网络通信领域，UDP（用户数据报协议，User Datagram Protocol）是一种广泛使用的传输层协议。与TCP（传输控制协议，Transmission Control Protocol）相比，UDP具有其独特的特点和适用场景…...

编程日记 2024/7/7 0:51:44

支持向量机（Support Vector Machine，SVM）及Python和MATLAB实现

支持向量机（Support Vector Machine，SVM）是一种经典的机器学习算法，广泛应用于模式识别、数据分类和回归分析等领域。SVM的背景可以追溯到1990s年代，由Vladimir Vapnik等人提出，并在之后不断发展和完善。 …...

编程日记 2024/7/7 0:47:40

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】 1、前言2、环境3、事项了解（1）了解sem概念-了解官网消息（2）根据自己理解，设计几个使用方式（3）不建议运行…...

编程日记 2024/7/7 0:46:39

使用nodejs输出著作权申请所需的word版源码

使用nodejs输出著作权申请所需的word版源码背景软件著作权申请需要提供一份80页的word版源代码，如果手工复制源码到word文档中，工作量将无聊到让任何一个DAO人员血压爆表，因此我们不得不编写一个简单的文本处理代码，通过自动方…...

编程日记 2024/7/7 0:45:38

[Vite]vite-plugin-react和vite-plugin-react-swc插件原理了解

[Vite]vite-plugin-react和vite-plugin-react-swc插件原理了解共同的作用 JSX 支持：插件为 React 应用程序中的 JSX 语法提供支持，确保它可以被正确地转换为 JavaScript。Fast Refresh：提供热更新功能，当应用程序在开发服务器上…...

编程日记 2024/7/7 0:44:37

记一次使用“try-with-resources“的语法导致的BUG

背景描述最近使用try-catch的时候遇到了一个问题，背景是这样的：当第一次与数据库建立连接以后执行查询完毕并没有手动关闭连接，但是当我第二次获取连接的时候报错了，显示数据库连接失败，连接已经关闭。 org.postgres…...

编程日记 2024/7/7 0:42:35

用Excel处理数据图像，出现交叉怎么办？

一、问题描述用excel制作X-Y散点图，意外的出现了4个交叉点，而实际上的图表数据是没有交叉的。二、模拟图表模拟部分数据，并创建X-Y散点图，数据区域，X轴数据是依次增加的，因此散点图应该是没有交叉的。…...

编程日记 2024/7/7 0:41:34

SpringBoot | 大新闻项目后端（redis优化登录）

该项目的前篇内容的使用jwt令牌实现登录认证，使用Md5加密实现注册，在上一篇：http://t.csdnimg.cn/vn3rB 该篇主要内容：redis优化登录和ThreadLocal提供线程局部变量，以及该大新闻项目的主要代码。 redis优化登录其实…...

编程日记 2024/7/7 0:37:30

ESP32——物联网小项目汇总

商品级ESP32智能手表 [文章链接] 用ESP32，做了个siri？！开源了！ [文章链接]...

编程日记 2024/7/7 0:36:29

LLM API安全攻防实战：从提示词注入到自动化测试方案

1. 项目概述：被忽视的LLM API安全前线最近在帮几个团队做上线前的安全审计，发现一个挺有意思的现象：大家对于传统API的鉴权、限流、SQL注入这些常规检查已经形成了肌肉记忆，但一旦涉及到LLM（大语言模型）的A…...

编程新知 2026/5/26 4:58:26

Qwen3-Coder-30B-A3B-Instruct-FP8：终极代码模型对比分析指南

Qwen3-Coder-30B-A3B-Instruct-FP8：终极代码模型对比分析指南【免费下载链接】Qwen3-Coder-30B-A3B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8 在当今AI代码生成领域，Qwen3-Coder-30B-…...

编程新知 2026/5/26 4:42:23

别再让模型在Unity里‘抽风’了！Blender导出FBX到Unity的7步避坑自查清单

别再让模型在Unity里‘抽风’了！Blender导出FBX到Unity的7步避坑自查清单当你花了三天三夜精心雕琢的Blender模型，导入Unity后却变成了一团旋转错乱、贴图闪烁的"抽象艺术"，那种崩溃感每个3D开发者都懂。本文将用实战经验帮你建立一…...

编程新知 2026/5/26 3:24:07

作业本耐用度差距巨大？深圳大明印刷厂拆解合规工艺，告别定制作业本掉页开裂通病

在校园日常教学中，很多学校都会遇到同一个难题：同一学期采购的作业本、定制作业本，品质差距悬殊，有的完好无损用到期末，有的短短几周就出现书脊开裂、页面脱落、边角破损、翻页卡顿等问题。不少人误以为是学生使用习惯…...

编程新知 2026/5/26 3:07:54

Agent开发面试通关攻略：吃透稳拿offer

阅读前置：2026年当下最卷也最缺人的AI岗位，一定是AI Agent开发。最近刷遍CSDN、牛客、力扣最新面经，发现一个非常明显的招聘趋势：普通大模型微调岗位饱和内卷，而AI Agent开发岗位人才严重缺口，薪资更高、竞…...

编程新知 2026/5/26 1:51:13

Sangfor文件夹可以删除吗？【图文讲解】深信服文件夹残留清理？如何彻底删除深信服？Sangfor文件夹是什么？

（1）问题背景打开C盘，突然冒出个Sangfor 文件夹，占用好几个 GB 空间，想删又不敢删，怕删坏系统、断网崩溃；上网一查，说法五花八门，有人说是病毒，有人说是办公软…...

编程新知 2026/5/26 0:16:08

百度文心一言开发者如何通过Taotoken低成本接入多模型API

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度百度文心一言开发者如何通过Taotoken低成本接入多模型API 对于已经熟悉并正在使用百度文心一言等国产大模型API的开发者而言&#…...

编程新知 2026/5/25 23:00:46

超维计算(HDC)原理与ScalableHD架构优化实践

1. 超维计算（HDC）基础解析超维计算（Hyperdimensional Computing, HDC）是一种受大脑信息处理机制启发的计算范式，其核心思想是用高维随机向量（通常称为超向量或HV）来表示和处理信息。与传统神经网…...

编程新知 2026/5/25 22:38:33

Arcmap实操：如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例

Arcmap实操：如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例想象一下，医生通过CT扫描将人体内部结构分层呈现，而GIS中的"渔网"工具同样能对城市路网进行"切片式"分析。这种空间离散化技术&…...

编程新知 2026/5/25 21:39:58

【2025】AWVS安装保姆级教程（最新25.1.2可用）

【2025】AWVS安装保姆级教程（最新25.1.2可用） 文章目录工具下载Host 重定向AWVS安装AWVS查看安装失败原因工具下载点击下载即可下载完的工具后缀格式为.apk，需要将其改为.zip，然后将其解压得到以下工具后续安装使用 Host 重…...

编程新知 2026/5/25 20:44:57

1、转换mono单声道，选择人声的那个通道

2、采样率更改为16000

相关文章：