当前位置: 首页 > news >正文

使用神经网络中的卷积核生成语谱图

主题思想:

  1. 正交基函数, sin,cos 是通过网络训练得到的参数。
    使用一维卷积核直接对于原始音频,进行卷积生成语谱图;

  2. 使用一维卷积核生成语谱图特征,

不同于以往的方式,正是因为这些正交基函数是通过卷积核构成的,
由于这些卷积核的参数可训练的, 这表明这些正交基是通过训练得来的, 理论上是更容易适配好当前的任务, 因为人为定义好的统一的正交基函数,并不能自适应在当前的任务上, 每个任务肯定自身对应的最好的正交基函数,通过训练得来,应该是恰当的;

但是,目前笔者实现下来, 这种方式占用显存特别高。

基本上需要 24G 显存以上, 多卡并行,比较好实验;

1. 使用神经网络生成语谱图的方式

现有的工作如下:

1.1 nnAudio

nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks

https://github.com/KinWaiCheuk/nnAudio;

1.2 PANN

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition:

开源实现:
https://github.com/qiuqiangkong/audioset_tagging_cnn;

此外,  使用torch 完成 librosa 函数中的功能, 同样是基于神经网络;

公布使用torch 中一维卷积核的方式生成语谱图的仓库:

https://github.com/qiuqiangkong/torchlibrosa;

2. torch 实现的部分函数

下面实现的函数, 在上面的开源仓库中也实现了, 建议可以多阅读源码:

2.1 torch 实现power to db

#note: 使用torch 实现 librosa 中的power_to_db 函数:
# 将功率谱,转换为对数谱;
def power_to_db_torch(S, ref=1.0, amin=1e-10, top_db=80.0):#note 使用断言的方式,对输入检查;if amin <= 0:raise ValueError(" amin  must be strictly  positive")S = torch.tensor(S)amin = torch.tensor([amin])ref = torch.abs(torch.tensor([ref]))log_spec = 10.0 * torch.log10(torch.max(S, amin))log_spec -= 10.0  * torch.log10(torch.max(amin, ref))if top_db is not None:if top_db < 0:raise  ValueError("top_db  must be  non-negative")max_val = torch.max(log_spec)log_spec = torch.maximum(log_spec, max_val - top_db)return  log_spec

2.2 torch 实现 cv2.resize()

# 使用torch, 对单通道的图片进行缩放,
import  torch.nn.functional as F
def  resize_torch_single_channel(img, resz, method="bilinear"):# 函数的输入,需要使用断言,检查维度是否匹配assert  len(img.shape) == 2,  "Input image should have 2 dimension: (height, width)"#  检查张量是否是张量形式if not  isinstance(img, torch.Tensor):img = torch.tensor(img).float()# 增加batch, channel 维度img = img.unsqueeze(0).unsqueeze(0)height, width = img.shape[2], img.shape[3]new_height, new_width = int(height * resz), int(width * resz)if method == " bilinear":mode = 'bilinear'else:raise  ValueError("Unsupported  interpolation  method")# 使用torch 自带的线性插值函数, 完成尺寸的缩放resized_img = F.interpolate(img, size=(new_height, new_width),mode=mode, align_corners=False)# remove the  batch and  channel  dimresized_img = resized_img.squeeze(0).squeeze(0)return  resized_imgimport torch
import torch.nn.functional as Fdef resize_torch(img, resz, method='bilinear'):assert len(img.shape) == 3, "Input image should have 3 dimensions: (height, width, channels)"# Convert the input image to a PyTorch tensor if it's not already oneif not isinstance(img, torch.Tensor):img = torch.tensor(img).float()# Convert the image from HWC to CHW formatimg = img.permute(2, 0, 1).unsqueeze(0)  # Add an extra dimension for the batchheight, width = img.shape[2], img.shape[3]new_height, new_width = int(height * resz), int(width * resz)if method == 'bilinear':mode = 'bilinear'else:raise ValueError("Unsupported interpolation method")# Resize the image using torch.nn.functional.interpolateresized_img = F.interpolate(img, size=(new_height, new_width), mode=mode, align_corners=False)# Convert the image back to HWC format and remove the batch dimensionresized_img = resized_img.squeeze(0).permute(1, 2, 0)return resized_img

相关文章:

使用神经网络中的卷积核生成语谱图

主题思想&#xff1a; 正交基函数&#xff0c; sin,cos 是通过网络训练得到的参数。 使用一维卷积核直接对于原始音频&#xff0c;进行卷积生成语谱图&#xff1b; 使用一维卷积核生成语谱图特征&#xff0c; 不同于以往的方式&#xff0c;正是因为这些正交基函数是通过卷积…...

文章五:Python 网络爬虫实战:使用 Beautiful Soup 和 Requests 抓取网页数据

一、简介 本篇文章将介绍如何使用 Python 编写一个简单的网络爬虫,从网页中提取有用的数据。我们将通过以下几个部分展开本文的内容: 网络爬虫的基本概念Beautiful Soup 和 Requests 库简介选择一个目标网站使用 Requests 获取网页内容使用 Beautiful Soup 解析网页内容提取…...

【大数据之Hadoop】八、MapReduce之序列化

1 概述 序列化&#xff1a; 把内存中的对象&#xff0c;转换成字节序列&#xff08;或其他数据传输协议&#xff09;&#xff0c;以便于存储到磁盘&#xff08;持久化&#xff09;和网络传输。 反序列化&#xff1a; 将收到字节序列&#xff08;或其他数据传输协议&#xff09…...

Python网络爬虫之Selenium详解

1、什么是selenium? Selenium是一个用于Web应用程序测试的工具。Selenium 测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。支持通过各种driver(FirfoxDriver&#xff0c;IternetExplorerDriver&#xff0c;OperaDriver&#xff0c;ChromeDriver)驱动真实浏览器…...

中睿天下受邀出席电促会第五次会员代表大会

3月21日&#xff0c;中国电力发展促进会&#xff08;以下简称“电促会”&#xff09;第五次会员代表大会暨第五届理事会第一次会议在京召开&#xff0c;中睿天下作为网络安全专业委员会会员单位受邀出席。 会议表决通过了第五次会员代表大会工作报告、第四届理事会财务报告、《…...

Chat GPT:软件测试人员的危机?

Chat GPT&#xff0c;作为一个引起科技巨头“红色警报”的人工智能语言模型&#xff0c;短期内便席卷全球&#xff0c;上线仅两个月活跃用户破亿。比尔盖茨更是如此评价“这种AI技术出现的重大历史意义&#xff0c;不亚于互联网和个人电脑的诞生。” 在各个行业备受关注的Chat …...

【Redis】高可用:Redis的主从复制是怎么实现的?

【Redis】高可用&#xff1a;主从复制详解 我们知道要避免单点故障&#xff0c;即保证高可用&#xff0c;便需要冗余&#xff08;副本&#xff09;方式提供集群服务。而Redis 提供了主从库模式&#xff0c;以保证数据副本的一致&#xff0c;主从库之间采用的是读写分离的方式。…...

WLAN速度突然变慢

目录 一、问题 二、在设置中重置网络 1. 按下组合键“WinI”打开设置&#xff0c;在设置窗口中点击“网络和Internet”。 2、点击左侧的“状态”&#xff0c;在右侧选择“网络重置”。 3、然后会进入“网络重置”页面&#xff0c;点击“立即重置”后点击“是”等待完成即可…...

GDAL python教程基础篇(12)GDAL和 Pillow 的互操作

GDAL和 Pillow GDAL和PIL处理和操作的对象都是栅格图像。 但它们又不一样。 GDAL主要重点放在地理或遥感数据的读写和数据建模以及地理定位和转换&#xff0c; 但是PIL的重点是放在图像本身处理上的。 至于在底层数据处理上&#xff0c;两者都可以用 numpy 转化的二进制作为数…...

快速学习java路线建议

还有2 &#xff0c;3个月就要毕业了&#xff0c;啥都不会的你是不是很慌呢&#xff0c;是不是想知道怎么样快速学习java呢。嘿嘿&#xff01;它来了。 首先是java的学习 &#xff0c;推荐 ​​​​​​【尚硅谷】7天搞定Java基础&#xff0c;Java零…...

【MySQL】深入浅出主从复制数据同步原理

【MySQL】深入浅出主从复制数据同步原理 参考资料&#xff1a; 全解MySQL之主从篇&#xff1a;死磕主从复制中数据同步原理与优化 MySQL 日志&#xff1a;undo log、redo log、binlog 有什么用&#xff1f; 文章目录【MySQL】深入浅出主从复制数据同步原理一、主从复制架构概述…...

Redis持久化和高可用

Redis持久化和高可用一、Redis持久化1、Redis持久化的功能2、Redis提供两种方式进行持久化二、RDB持久化1、触发条件2、bgsave执行流程3、启动时加载三、Redis高可用1、什么是高可用2、Redis高可用技术四、AOF持久化&#xff08;支持秒级写入&#xff09;1、开启AOF2、执行流程…...

【数据结构】第六站:栈和队列

目录 一、栈 1.栈的概念和结构 2.栈的实现方案 3.栈的具体实现 4.栈的完整代码 5.有效的括号 二、队列 1.队列的概念及结构 2.队列的实现方案 3.队列的实现 4.队列实现的完整代码 一、栈 1.栈的概念和结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定…...

python matplotlib 绘制训练曲线 综合示例——平滑处理、图题设置、图例设置、字体大小、线条样式、颜色设置

文章目录1 导出曲线数据2 python简单的 绘制曲线3 Savitzky-Golay 滤波器--平滑曲线4 对y轴数值缩放处理5 设置图题、图例、字体、网格、保存曲线图6 补充6.1 python 曲线平滑处理——方法总结-详解6.2 Tensorboard可视化训练曲线导出数据用Python绘制6.3 PyTorch可视化工具-Te…...

vue-element-plus-admin整合后端实战——实现系统登录、缓存用户数据、实现动态路由

目标 整合vue-element-plus-admin前端框架&#xff0c;作为开发平台的前端。 准备工作 前端选用vue-element-plus-admin&#xff0c;地址 https://gitee.com/kailong110120130/vue-element-plus-admin。 首先clone项目&#xff0c;然后整合到开发平台中去。这是一个独立的前…...

Shader Graph2-PBR介绍之表面属性(图解)

PBR的实现由光线和表面属性决定&#xff0c;下面我们介绍一下表面属性。这个5个属性在ShaderGraph的根节点是经常的看到&#xff0c;左侧是Unity中的&#xff0c;右侧是UE中的。 在没有Metallic金属的情况下&#xff0c;基础颜色值就决定了颜色的漫反射值&#xff0c;也就是说基…...

Java多线程编程,Thread类的基本用法讲解

文章目录如何创建一个线程start 与 run线程休眠线程中断线程等待获取线程实例如何创建一个线程 之前我们介绍了什么是进程与线程&#xff0c;那么我们如何使用代码去创建一个线程呢&#xff1f;线程操作是操作系统中的概念&#xff0c;操作系统内核实现了线程这样的机制&#…...

TIA博途Wincc_多路复用变量的使用方法示例(实现多台相同设备参数的画面精简)

TIA博途Wincc_多路复用变量的使用方法示例(实现多台相同设备参数的画面精简) 使用多路复用变量的好处: 当项目中存在多个相同的设备(例如:变频器、电机等),对这些设备在HMI上进行监控或修改参数时,不再需要逐个建立画面或IO域等,只需通过单个画面或IO域组合即可实现对…...

关于console你不知道的那些事

看到标题&#xff0c;大家会不会想&#xff0c;我都在前端岗位叱咤风云这么多年了, console 这个玩意用你讲 但是, 今天我将带你看到不一样的 console, 可以带来更多的帮助 了解 console 什么是 console ? console 其实是 JavaScript 内的一个原生对象。内部存储的方法大部…...

Java设计模式-责任链模式

1 概述 在现实生活中&#xff0c;常常会出现这样的事例&#xff1a;一个请求有多个对象可以处理&#xff0c;但每个对象的处理条件或权限不同。例如&#xff0c;公司员工请假&#xff0c;可批假的领导有部门负责人、副总经理、总经理等&#xff0c;但每个领导能批准的天数不同…...

顺序表设计循环队列

使用顺序表来设计队列的最大优势是顺序表有可以定位元素的下标。 并且可以以Mod来使数组下标循环 #include<stdio.h> #include<stdlib.h> #include<assert.h> #include<stdbool.h> typedef int CQDataType; typedef struct { int* array; in…...

UEFI 基础教程 (十四) - 设置默认启动项为UEFI Shell

一 编写源代码 OvmfPkg/Library/PlatformBootManagerLib/BdsPlatform.c UINTN BootOptionPriority ( CONST EFI_BOOT_MANAGER_LOAD_OPTION *BootOption ) { DEBUG ((EFI_D_ERROR," [CSDN] BootOptionPriority %S .\n", BootOption->Description)); if (StrCmp (…...

python编程:判断一个数是否是超级素数

请定义一个函数&#xff0c;实现判断一个数是否是超级素数,并输出判断的结果。 一、编程题目 我们都知道&#xff0c;素数是除了1之外只能被自身整数的数&#xff0c;1除外。如果一个素数&#xff0c;去除一位、两位或多位后依然是素数&#xff0c;则我们称该素数为超级素数。…...

雷迪RD8200管线探测仪参数/管线仪使用方法/管线仪说明书

预防损坏和工作效率是我们客户面临的最大挑战 全新的 RD8200可以解决这些问题。这是我们功能优秀的精密管线仪系列&#xff0c;设计时充分考虑了操作员的需要。 预防损坏的专业选择 速度、准确性和可靠的性能 易于设置和使用 阳光下可读的显示屏、高性能的音频系统和用于嘈杂…...

会话共享保存到redis

1. 安装redis服务 [rootdb01 ~]# yum -y install redis 2. 配置redis服务 修改配置文件可以让其他服务器远程连接 127.0.0.1:6379 # 默认只能本地连接 [rootdb01 ~]# vim /etc/redis.conf [rootdb01 ~]# grep 172.16.1.51 /etc/redis.conf bind 127.…...

python 曲线平滑处理——方法总结(Savitzky-Golay 滤波器、make_interp_spline插值法和convolve滑动平均滤波)

文章目录1 插值法对曲线平滑处理1.1 插值法的常见实现方法1.2 拟合和插值的区别1.3 代码实例2 Savitzky-Golay 滤波器实现曲线平滑2.1 问题描述2.2 Savitzky-Golay 滤波器--调用讲解2.3 Savitzky-Golay 曲线平滑处理 示例2.4 Savitzky-Golay原理剖析3 基于Numpy.convolve实现滑…...

小驰私房菜_10_camx Otp Dump

#小驰私房菜# #camx# #Otp Dump# 本篇文章分下面几点展开: 1、otp dump的目的? 2、如何打开otp dump开关? 3、otp guide手册如何查看? 4、如何初步确认dump 出来的数据是否正确? 一、otp dump的目的 关于otp的一些概念,这里就不做过多的介绍了,不了解的同学,可以先去…...

priority_queue(堆)干货归纳+用法示例

10.priority_queue一.priority_queue&#xff08;堆Heap&#xff09;简介1.堆的特点&#xff1a;2.使用场景&#xff1a;二.成员函数1.构造函数&#xff1a;priority_queue构造函数方式&#xff1a;2.push()函数&#xff1a;向priority_queue中插入一个元素&#xff1a;3.pop()…...

miniprogram-to-uniapp使用指南(各种小程序项目转换为uni-app项目)

小程序分类&#xff1a;uni-app qq小程序 支付宝小程序 百度小程序 钉钉小程序 微信小程序 小程序转成uni_app 小程序转为uni_app 小程序转uni_app 小程序转换 工具现在支持npm全局库、HBuilderX插件两种方式使用&#xff0c;任君选择&#xff0c;HBuilderX插件地址&#xff1a…...

BZOJ2720: [Violet 5]列队春游 【概率与期望】

题意自行理解,先讲一下概率和期望怎么算 概率 概率准确的定义自行百度&#xff0c;这里就不赘述了 概率的计算其实很简单&#xff0c;就是将符合条件的情况除以总共的情况 下面以掷骰子为例&#xff1a; 问题&#xff1a;将一个骰子掷出&#xff0c;666朝上的概率是多少 …...