当前位置：首页 > news >正文

使用神经网络中的卷积核生成语谱图

news 2025/7/14 3:42:50

主题思想：

正交基函数，　sin,cos 是通过网络训练得到的参数。
使用一维卷积核直接对于原始音频，进行卷积生成语谱图；
使用一维卷积核生成语谱图特征，

不同于以往的方式，正是因为这些正交基函数是通过卷积核构成的，
由于这些卷积核的参数可训练的，　这表明这些正交基是通过训练得来的，　理论上是更容易适配好当前的任务，　因为人为定义好的统一的正交基函数，并不能自适应在当前的任务上，　每个任务肯定自身对应的最好的正交基函数，通过训练得来，应该是恰当的；

但是，目前笔者实现下来，　这种方式占用显存特别高。

基本上需要 24G 显存以上，　多卡并行，比较好实验；

1. 使用神经网络生成语谱图的方式

现有的工作如下:

1.1 nnAudio

nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks

https://github.com/KinWaiCheuk/nnAudio；

1.2 PANN

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition:

开源实现：
https://github.com/qiuqiangkong/audioset_tagging_cnn;

此外, 　使用torch 完成 librosa 函数中的功能，　同样是基于神经网络；

公布使用torch 中一维卷积核的方式生成语谱图的仓库：

https://github.com/qiuqiangkong/torchlibrosa;

2. torch 实现的部分函数

下面实现的函数，　在上面的开源仓库中也实现了，　建议可以多阅读源码:

2.1 torch　实现power to db

#note: 使用torch 实现 librosa 中的power_to_db 函数:
# 将功率谱，转换为对数谱；
def power_to_db_torch(S, ref=1.0, amin=1e-10, top_db=80.0):#note 使用断言的方式，对输入检查；if amin <= 0:raise ValueError(" amin  must be strictly  positive")S = torch.tensor(S)amin = torch.tensor([amin])ref = torch.abs(torch.tensor([ref]))log_spec = 10.0 * torch.log10(torch.max(S, amin))log_spec -= 10.0  * torch.log10(torch.max(amin, ref))if top_db is not None:if top_db < 0:raise  ValueError("top_db  must be  non-negative")max_val = torch.max(log_spec)log_spec = torch.maximum(log_spec, max_val - top_db)return  log_spec

2.2 torch　实现 cv2.resize()

# 使用torch,　对单通道的图片进行缩放，
import  torch.nn.functional as F
def  resize_torch_single_channel(img, resz, method="bilinear"):# 函数的输入，需要使用断言，检查维度是否匹配assert  len(img.shape) == 2,  "Input image should have 2 dimension: (height, width)"#  检查张量是否是张量形式if not  isinstance(img, torch.Tensor):img = torch.tensor(img).float()# 增加batch, channel 维度img = img.unsqueeze(0).unsqueeze(0)height, width = img.shape[2], img.shape[3]new_height, new_width = int(height * resz), int(width * resz)if method == " bilinear":mode = 'bilinear'else:raise  ValueError("Unsupported  interpolation  method")# 使用torch 自带的线性插值函数，　完成尺寸的缩放resized_img = F.interpolate(img, size=(new_height, new_width),mode=mode, align_corners=False)# remove the  batch and  channel  dimresized_img = resized_img.squeeze(0).squeeze(0)return  resized_imgimport torch
import torch.nn.functional as Fdef resize_torch(img, resz, method='bilinear'):assert len(img.shape) == 3, "Input image should have 3 dimensions: (height, width, channels)"# Convert the input image to a PyTorch tensor if it's not already oneif not isinstance(img, torch.Tensor):img = torch.tensor(img).float()# Convert the image from HWC to CHW formatimg = img.permute(2, 0, 1).unsqueeze(0)  # Add an extra dimension for the batchheight, width = img.shape[2], img.shape[3]new_height, new_width = int(height * resz), int(width * resz)if method == 'bilinear':mode = 'bilinear'else:raise ValueError("Unsupported interpolation method")# Resize the image using torch.nn.functional.interpolateresized_img = F.interpolate(img, size=(new_height, new_width), mode=mode, align_corners=False)# Convert the image back to HWC format and remove the batch dimensionresized_img = resized_img.squeeze(0).permute(1, 2, 0)return resized_img

使用神经网络中的卷积核生成语谱图

主题思想： 正交基函数，　sin,cos 是通过网络训练得到的参数。使用一维卷积核直接对于原始音频，进行卷积生成语谱图； 使用一维卷积核生成语谱图特征， 不同于以往的方式，正是因为这些正交基函数是通过卷积…...

编程日记 2023/5/17 11:58:29

文章五：Python 网络爬虫实战：使用 Beautiful Soup 和 Requests 抓取网页数据

一、简介本篇文章将介绍如何使用 Python 编写一个简单的网络爬虫，从网页中提取有用的数据。我们将通过以下几个部分展开本文的内容：网络爬虫的基本概念Beautiful Soup 和 Requests 库简介选择一个目标网站使用 Requests 获取网页内容使用 Beautiful Soup 解析网页内容提取…...

编程日记 2023/5/17 11:59:55

【大数据之Hadoop】八、MapReduce之序列化

1 概述序列化： 把内存中的对象，转换成字节序列（或其他数据传输协议），以便于存储到磁盘（持久化）和网络传输。反序列化： 将收到字节序列（或其他数据传输协议&#xff09…...

编程日记 2023/5/17 12:01:16

Python网络爬虫之Selenium详解

1、什么是selenium? Selenium是一个用于Web应用程序测试的工具。Selenium 测试直接运行在浏览器中，就像真正的用户在操作一样。支持通过各种driver(FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver)驱动真实浏览器…...

编程日记 2023/5/17 12:02:44

中睿天下受邀出席电促会第五次会员代表大会

3月21日，中国电力发展促进会（以下简称“电促会”）第五次会员代表大会暨第五届理事会第一次会议在京召开，中睿天下作为网络安全专业委员会会员单位受邀出席。会议表决通过了第五次会员代表大会工作报告、第四届理事会财务报告、《…...

编程日记 2023/4/26 16:46:53

Chat GPT：软件测试人员的危机？

Chat GPT，作为一个引起科技巨头“红色警报”的人工智能语言模型，短期内便席卷全球，上线仅两个月活跃用户破亿。比尔盖茨更是如此评价“这种AI技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。” 在各个行业备受关注的Chat …...

编程日记 2023/4/24 11:33:37

【Redis】高可用：Redis的主从复制是怎么实现的？

【Redis】高可用：主从复制详解我们知道要避免单点故障，即保证高可用，便需要冗余（副本）方式提供集群服务。而Redis 提供了主从库模式，以保证数据副本的一致，主从库之间采用的是读写分离的方式。…...

编程日记 2023/5/17 12:04:15

WLAN速度突然变慢

目录一、问题二、在设置中重置网络 1. 按下组合键“WinI”打开设置，在设置窗口中点击“网络和Internet”。 2、点击左侧的“状态”，在右侧选择“网络重置”。 3、然后会进入“网络重置”页面，点击“立即重置”后点击“是”等待完成即可…...

编程日记 2023/4/24 8:56:23

GDAL python教程基础篇（12）GDAL和 Pillow 的互操作

GDAL和 Pillow GDAL和PIL处理和操作的对象都是栅格图像。但它们又不一样。 GDAL主要重点放在地理或遥感数据的读写和数据建模以及地理定位和转换， 但是PIL的重点是放在图像本身处理上的。至于在底层数据处理上，两者都可以用 numpy 转化的二进制作为数…...

编程日记 2023/4/25 21:37:18

快速学习java路线建议

还有2 ，3个月就要毕业了，啥都不会的你是不是很慌呢，是不是想知道怎么样快速学习java呢。嘿嘿！它来了。首先是java的学习 ，推荐【尚硅谷】7天搞定Java基础，Java零…...

编程日记 2023/5/18 10:55:11

【MySQL】深入浅出主从复制数据同步原理

【MySQL】深入浅出主从复制数据同步原理参考资料： 全解MySQL之主从篇：死磕主从复制中数据同步原理与优化 MySQL 日志：undo log、redo log、binlog 有什么用？ 文章目录【MySQL】深入浅出主从复制数据同步原理一、主从复制架构概述…...

编程日记 2023/4/26 13:05:29

Redis持久化和高可用

Redis持久化和高可用一、Redis持久化1、Redis持久化的功能2、Redis提供两种方式进行持久化二、RDB持久化1、触发条件2、bgsave执行流程3、启动时加载三、Redis高可用1、什么是高可用2、Redis高可用技术四、AOF持久化（支持秒级写入）1、开启AOF2、执行流程…...

编程日记 2023/4/25 0:48:19

【数据结构】第六站：栈和队列

目录一、栈 1.栈的概念和结构 2.栈的实现方案 3.栈的具体实现 4.栈的完整代码 5.有效的括号二、队列 1.队列的概念及结构 2.队列的实现方案 3.队列的实现 4.队列实现的完整代码一、栈 1.栈的概念和结构栈：一种特殊的线性表，其只允许在固定…...

编程日记 2023/5/17 12:06:50

python matplotlib 绘制训练曲线综合示例——平滑处理、图题设置、图例设置、字体大小、线条样式、颜色设置

文章目录1 导出曲线数据2 python简单的绘制曲线3 Savitzky-Golay 滤波器--平滑曲线4 对y轴数值缩放处理5 设置图题、图例、字体、网格、保存曲线图6 补充6.1 python 曲线平滑处理——方法总结-详解6.2 Tensorboard可视化训练曲线导出数据用Python绘制6.3 PyTorch可视化工具-Te…...

编程日记 2023/4/26 18:36:23

vue-element-plus-admin整合后端实战——实现系统登录、缓存用户数据、实现动态路由

目标整合vue-element-plus-admin前端框架，作为开发平台的前端。准备工作前端选用vue-element-plus-admin，地址 https://gitee.com/kailong110120130/vue-element-plus-admin。首先clone项目，然后整合到开发平台中去。这是一个独立的前…...

编程日记 2023/4/23 15:41:41

Shader Graph2-PBR介绍之表面属性（图解）

PBR的实现由光线和表面属性决定，下面我们介绍一下表面属性。这个5个属性在ShaderGraph的根节点是经常的看到，左侧是Unity中的，右侧是UE中的。在没有Metallic金属的情况下，基础颜色值就决定了颜色的漫反射值，也就是说基…...

编程日记 2023/4/23 22:14:58

Java多线程编程，Thread类的基本用法讲解

文章目录如何创建一个线程start 与 run线程休眠线程中断线程等待获取线程实例如何创建一个线程之前我们介绍了什么是进程与线程，那么我们如何使用代码去创建一个线程呢？线程操作是操作系统中的概念，操作系统内核实现了线程这样的机制&#…...

编程日记 2023/4/25 4:17:16

TIA博途Wincc_多路复用变量的使用方法示例（实现多台相同设备参数的画面精简）

TIA博途Wincc_多路复用变量的使用方法示例（实现多台相同设备参数的画面精简）使用多路复用变量的好处：当项目中存在多个相同的设备（例如：变频器、电机等），对这些设备在HMI上进行监控或修改参数时，不再需要逐个建立画面或IO域等，只需通过单个画面或IO域组合即可实现对…...

编程日记 2023/4/24 11:33:42

关于console你不知道的那些事

看到标题，大家会不会想，我都在前端岗位叱咤风云这么多年了, console 这个玩意用你讲但是, 今天我将带你看到不一样的 console, 可以带来更多的帮助了解 console 什么是 console ? console 其实是 JavaScript 内的一个原生对象。内部存储的方法大部…...

编程日记 2023/4/26 6:38:27

Java设计模式-责任链模式

1 概述在现实生活中，常常会出现这样的事例：一个请求有多个对象可以处理，但每个对象的处理条件或权限不同。例如，公司员工请假，可批假的领导有部门负责人、副总经理、总经理等，但每个领导能批准的天数不同…...

编程日记 2023/4/26 15:51:34

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制，因此这个了16进制的数据既可以翻译成为这个机器码，也可以翻译成为这个国标码，所以这个时候很容易会出现这个歧义的情况； 因此，我们的这个国…...

编程新知 2025/7/11 7:55:15

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

一、属性动画概述NETX 作用：实现组件通用属性的渐变过渡效果，提升用户体验。支持属性：width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项： 布局类属性（如宽高）变化时&#…...

编程新知 2025/7/10 15:05:29

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/7/13 22:34:29

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

编程新知 2025/6/18 5:34:10

【决胜公务员考试】求职OMG——见面课测验1

2025最新版！！！6.8截至答题，大家注意呀！ 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:（ B ） A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

编程新知 2025/7/4 19:02:29

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2025/7/12 22:03:43

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录什么是X11？环境准备实战步骤1️⃣ 服务器端配置（CentOS）2️⃣ 客户端配置（MobaXterm）3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

编程新知 2025/7/12 0:53:03

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录一、目的二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结一、目的当前市场上有很多目标检测智能识别的相关算法，当前调用一个医疗行业的AI识别算法后返回…...

编程新知 2025/7/12 20:19:08

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

uni-app 中 Web-view 与 Vue 页面的通讯机制详解一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件，用于在原生应用中加载 HTML 页面： 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

编程新知 2025/6/21 2:45:17

嵌入式学习之系统编程(九)OSI模型、TCP/IP模型、UDP协议网络相关编程（6.3）

目录一、网络编程--OSI模型二、网络编程--TCP/IP模型三、网络接口四、UDP网络相关编程及主要函数编辑编辑 UDP的特征 socke函数 bind函数 recvfrom函数（接收函数） sendto函数（发送函数） 五、网络编程之 UDP 用…...

编程新知 2025/7/9 17:47:38

1. 使用神经网络生成语谱图的方式

1.1 nnAudio

1.2 PANN

2. torch 实现的部分函数

2.1 torch 实现power to db

2.2 torch 实现 cv2.resize()

相关文章：

2.1 torch　实现power to db

2.2 torch　实现 cv2.resize()