音源分离 | Hybrid Spectrogram and Waveform Source Separation
一、摘要
本文提出了基于Demucs架构的的时域+频域的分离模型。提出的模型在2021年索尼组织的音乐分离挑战中获胜。该架构还包括其他改进,如压缩残差分支、局部注意力或奇异值正则化。
在MusDB HQ数据集上,所有源的信噪比(SDR)平均提高了1.4 dB,这一改进得到了人类主观评估的确认,整体质量评分为2.83分(非混合Demucs为2.36分),污染程度评分为3.04(非混合Demucs为2.37,比赛中排名第二的模型为2.44)。
二、方法
2.1 引言
音乐源分离的研究集中在将鼓、贝斯、人声和其他伴奏分离的监督方式上。2021年索尼组织的音乐分离挑战(MDX)提供了一个新的在线比赛平台,用于评估分离模型在未知测试集上的表现。
2.2 方法


本研究扩展了Demucs架构,以执行混合波形、频谱域源分离。模型包括时间域和频率域的并行分支,并引入了压缩残差分支、局部注意力和奇异值正则化等改进。这些改进在MusDB基准和MDX隐藏测试集上进行了评估,并进行了主观评估。
三、结果




混合Demucs在音乐分离挑战的Track A中取得了第一名,证明了其在鼓和贝斯源上的强大性能,同时在其他和人声源上也有显著提升。在MusDB数据集上,混合Demucs在鼓和贝斯源上实现了最佳性能,而在其他和人声源上则有所提升,但仍未超过KUIELAB-MDX-Net模型。人类评估结果表明,混合Demucs在整体质量上有所提高,尤其是在减少源之间污染方面。
总结:本文提出的混合源分离方法在音乐源分离领域取得了重要进展,通过混合波形和频谱域的方法,以及引入的新技术,显著提升了分离质量。尽管如此,该方法也带来了U-Net编码器、解码器复杂性的增加,这需要在未来的工作中进一步优化和简化。
【原文链接】https://arxiv.org/pdf/2111.03600
相关文章:
音源分离 | Hybrid Spectrogram and Waveform Source Separation
一、摘要 本文提出了基于Demucs架构的的时域频域的分离模型。提出的模型在2021年索尼组织的音乐分离挑战中获胜。该架构还包括其他改进,如压缩残差分支、局部注意力或奇异值正则化。 在MusDB HQ数据集上,所有源的信噪比(SDR)平均提…...
动态el-form表单以及动态禁用
当右侧下拉框选中为 长期有效,那么左侧输入框为禁用状态; <el-form-item label"证明有效期" class"is-required"><div v-for"(item,index) in form.arrayDat" :key"index" style"width: 100%;display: flex;justify-co…...
【Web后端】web后端开发简介_Servlet简介
1.web后端开发简介 Java企业级开发,也就是学习]avaEE(Enterprise Edition)版本,是一种结构和一套标准。在应用中开发的标准就是Servlet、jsp和JavaBean技术。jsp技术现在已基本处于淘汰状态,简单了解即可web后端开发,基于B/S模式的开发体系。…...
Taylor Francis科技期刊数据库文献去哪里获取
一、Taylor & Francis科技期刊数据库简介: Taylor & Francis 科技期刊数据库(T&F ST Library)提供超过520种经专家评审的高质量科学与技术类期刊, 其中超过85%的期刊被Web of Science收录,内容最早至1997年。该科技期…...
C#学习笔记12:Winform网页操作-CefSharp内嵌浏览器
今日学习使用Winform操作网页,先从从窗体内嵌一个浏览器开始吧: 文章提供测试代码讲解、测试效果图、整体测试工程下载 目录 CefSharp介绍与安装: 创建解决方案安装CefSharp: 控件放置: 整体代码贴出: 更改…...
NSSCTF | [SWPUCTF 2021 新生赛]babyrce
打开题目,显示了一个php脚本 我们来分析一下这个脚本是什么意思 <?php error_reporting(0); header("Content-Type:text/html;charsetutf-8"); highlight_file(__FILE__); if($_COOKIE[admin]1) {include "../next.php"; } elseecho &quo…...
环保不只是口号,绿葆自助取袋机助力1000多家医院环保行动!
2023年1月1日起,国家的“限塑令”范围进一步扩大,2023年6月20日起,《商务领域经营者使用、报告一次性塑料制品管理办法》开始实施。从国家到地方,对一次性塑料制品的污染问题治理正在越来越严格。为了响应国家环保政策并为患者提供…...
DELL服务器配置ILO(idrac)地址、修改管理员密码
服务器型号:DELL PowerEdge R630 1、重启服务器选择F2进入BIOS 2、重启服务器选择F2进入BIOS 3、选择“Network” 4、配置iDRAC的IP,掩码网关,DNS等信息 5、Esc返回,下滑选择“User Configuration” 6、配置iDRAC的用户名密码以及…...
如何打造个人IP?
打造个人IP(Intellectual Property)是当今社会中越来越受到关注的话题。个人IP指的是个人在某个领域内所拥有的独特的、具有商业价值的知识、技能、品牌和影响力。为什么要打造个人IP?如何打造个人IP?下面我将为您详细解答。 首先…...
【PostgreSQL支持中文的全文检索插件(zhparser)】
PostgreSQL本身是支持全文检索的,提供两个数据类型(tsvector,tsquery),并且通过动态检索自然语言文档的集合,定位到最匹配的查询结果。其内置的默认的分词解析器采用空格进行分词,但是因为中文的词语之间没…...
SHAP分析交互作用的功能,如果你用的模型是xgboost
SHAP分析交互作用的功能,如果你用的模型是xgboost 如果在SHAP分析中使用的是xgoost模型,就可以使用SHAP分析内置的交互作用分析,为分析变量间的相互提供了另外一个观察的视角。关于SHAP交互作用分析,一个参考资料,还是…...
瑞友科技质量改进服务事业部总经理张力受邀为第十三届中国PMO大会演讲嘉宾
全国PMO专业人士年度盛会 北京瑞友科技股份有限公司质量改进服务事业部总经理张力先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“PMO如何对接战略成为企业IT投资成功的有效保障”。大会将于6月29-30日在北京举办,敬请关注&#x…...
CVE-2024-4761 Chrome 的 JavaScript 引擎 V8 中的“越界写入”缺陷
分析 CVE-2024-4761 和 POC 代码 CVE-2024-4761 描述 CVE-2024-4761 是一个在 V8 引擎中发现的越界写漏洞,报告日期为 2024-05-09。这个漏洞可能允许攻击者通过特制的代码执行任意代码或者造成内存破坏,进而导致程序崩溃或其他不安全行为。 POC 代码解…...
字符串函数(二):strlen(求长度),strstr(查找子串),strtok(分割),strerror(打印错误信息)
字符串函数 一.strlen(求字符串长度)1.函数使用2.模拟实现(三种方法) 二.strstr(字符串查找子串)1.函数使用2.模拟实现 三.strtok(字符串分割)四.strerror,perror&#x…...
EUCR-30S电机保护器施耐德EOCR
EOCR主要产品有电子式电动机保护继电器,电子式过电流继电器,电子式欠电流继电器,电子式欠电压继电器,其它保护和监视装置,电流互感器。 电器密集型设计 ■ 二个集成组装电流互感器 ■ 欠载保护(空转保护…...
人工神经网络(科普)
人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程…...
宇宙(科普)
宇宙(Universe)在物理意义上被定义为所有的空间和时间(统称为时空)及其内涵,包括各种形式的所有能量,比如电磁辐射、普通物质、暗物质、暗能量等,其中普通物质包括行星、卫星、恒星、星系、星系…...
安防视频/视频汇聚系统EasyCVR视频融合云平台助力智能化酒店安防体系的搭建
一、背景需求 2024年“五一”假期,全国文化和旅游市场总体平稳有序。文化和旅游部6日发布数据显示,据文化和旅游部数据中心测算,全国国内旅游出游合计2.95亿人次。“五一”假期县域市场酒店预订订单同比增长68%,而酒店作为一个高…...
SpringCloudAlibaba:5.1Sentinel的基本使用
概述 简介 Sentinel是阿里开源的项目,提供了流量控制、熔断降级、系统负载保护等多个维度来保障服务之间的稳定性。 官网 https://sentinelguard.io/zh-cn/ Sentinel的历史 2012 年,Sentinel 诞生,主要功能为入口流量控制。 2013-2017 年…...
SHELL-双重循环习题练习
1.99乘法表 #!/bin/bash #99乘法表for ((second1; second<9; second)) dofor ((first1; first<second; first))do echo -n -e "${first}*${second}$[first*second]\t" done echo done ######### 首先定义了一个外循环变量second,初始值为1&am…...
智能抢购工具自动下单全攻略:开源项目配置教程与成功率提升指南
智能抢购工具自动下单全攻略:开源项目配置教程与成功率提升指南 【免费下载链接】jd-assistantV2 京东抢购助手:包含登录,查询商品库存/价格,添加/清空购物车,抢购商品(下单),抢购口罩,查询订单…...
实战堆叠注入:从BUUCTF靶场到真实环境防御策略
堆叠注入攻防全解析:从CTF靶场到企业级防御实践 在网络安全攻防演练中,SQL注入始终是最常见也最具破坏力的漏洞类型之一。而堆叠注入(Stacked Injection)作为SQL注入的高级变种,因其能够执行多条SQL语句的特性…...
猫抓浏览器扩展终极指南:3分钟掌握网页视频音频下载技巧
猫抓浏览器扩展终极指南:3分钟掌握网页视频音频下载技巧 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(Cat-Catch&am…...
突破网页媒体限制:3分钟掌握资源嗅探技术,轻松下载在线音视频
突破网页媒体限制:3分钟掌握资源嗅探技术,轻松下载在线音视频 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在数字内容爆…...
Docker+RssHub+cpolar:打造跨设备无缝同步的RSS订阅中心
1. 为什么需要跨设备RSS订阅中心? 每天早上通勤路上刷手机看新闻,到办公室用电脑继续阅读,晚上回家再用平板浏览剩余内容——这可能是很多人的日常。但每次切换设备都要重新加载、同步阅读进度,实在让人抓狂。更别提那些收藏在不同…...
OpenClaw会议纪要助手:千问3.5-35B-A3B-FP8实时转录录音与生成待办事项
OpenClaw会议纪要助手:千问3.5-35B-A3B-FP8实时转录录音与生成待办事项 1. 为什么需要自动化会议纪要 每次开完远程会议,最头疼的就是整理录音和待办事项。上周三的跨部门协调会上,我尝试用飞书妙记手动导出录音,再粘贴到ChatGP…...
Pybind11实战:轻松实现Python与C++的无缝交互
1. Pybind11 是什么? 想象你正在开发一个Python项目,突然遇到性能瓶颈——某个核心算法用Python实现太慢了。这时候你可能会想:"要是能用C重写这部分代码就好了,但又不希望完全抛弃Python的灵活性"。Pybind11就是为解决…...
WAN2.2文生视频+SDXL风格快速部署:一键开启中文视频创作
WAN2.2文生视频SDXL风格快速部署:一键开启中文视频创作 1. 为什么选择WAN2.2SDXL工作流 在AI视频生成领域,WAN2.2模型以其出色的中文理解能力和流畅的视频生成效果脱颖而出。当它与SDXL Prompt风格结合时,产生了一种独特的化学反应——既能…...
Stable Diffusion v1.5实时生成系统:5分钟搭建,实时查看图片生成全过程
Stable Diffusion v1.5实时生成系统:5分钟搭建,实时查看图片生成全过程 1. 项目介绍:打破黑盒的生成体验 你是否曾经在使用Stable Diffusion时感到困惑?输入提示词后,只能盯着进度条干等,不知道模型内部发…...
Windows下OpenClaw安装指南:对接Qwen3-14b_int4_awq模型
Windows下OpenClaw安装指南:对接Qwen3-14b_int4_awq模型 1. 为什么选择OpenClawQwen3组合? 上周我在尝试自动化处理日报周报时,发现常规RPA工具对自然语言理解能力有限。直到同事推荐了OpenClaw这个开源AI智能体框架——它不仅能像人类一样…...
