当前位置: 首页 > news >正文

MusicHiFi: Fast High-Fidelity Stereo Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding

相关链接:arxiv github
关键字:音乐生成高保真立体声立体声编解码器生成对抗网络频带扩展

摘要

MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频,并通过频带扩展提高音频分辨率,最终通过立体声混音生成立体声音频。与以往的工作相比,MusicHiFi提出了一个统一的基于生成对抗网络(GAN)的生成器和鉴别器架构,以及每个阶段的训练过程。此外,还提出了一种新的快速、与下采样兼容的频带扩展模块,以及一种新的快速、与下混音兼容的单声道到立体声混音器,确保输出中保留单声道内容。通过客观和主观的听力测试评估了该方法,并发现其在音频质量、空间化控制方面具有可比性或更优,并且推理速度显著快于以往的工作。

核心方法

在这里插入图片描述
在这里插入图片描述

  1. 统一的GAN架构:MusicHiFi采用了三个生成对抗网络(GAN)的级联,每个GAN都使用相同的生成器和鉴别器架构,以及训练目标和模型大小。
  2. 频带扩展(BWE):通过在低分辨率音频和高分辨率音频之间添加残差连接,并使用sinc插值块进行上采样,以生成高频内容。
  3. 单声道到立体声(M2S)混音:使用中侧(mid-side)立体声编码将单声道音频信号转换为立体声信号,并通过调整中侧能量比来控制空间化宽度。

实验说明

实验使用了1800小时的授权器乐音乐(立体声44.1 kHz)作为内部数据集。对于vocoder,使用16,384个样本的随机裁剪,并应用特定的预处理。对于BWE模块,使用与vocoder相同的预处理,但窗口和跳跃大小减半。对于M2S模块,使用与vocoder相同的STFT设置。训练目标使用了特定的权重,并在500k步后选择了最优的检查点。

实验结果数据

数据集方法Mel-D↓STFT-D↓ViSQOL↑SI-SDR↑RTF↑
DSD100HiFi-GAN [14]1.090.654.4728.623488
FMAMusicHiFi-V0.870.354.6731.571807

结论

MusicHiFi提出了一种新的高效、高保真的立体声编解码方法。该方法通过三个GAN模型的级联,将mel频谱图转换为低质量的音频波形,通过频带扩展将低分辨率音频上采样为高分辨率音频,并最终渲染出高分辨率的立体声音频。与以往的工作相比,MusicHiFi贡献了一个统一的基于GAN的鉴别器和生成器设计,一个新的与下采样兼容的BWE模块,以及一个新颖的保留单声道内容的单声道到立体声模块。通过客观评估和两次主观听力测试,发现MusicHiFi在vocding和BWE结果上具有可比性或更优,并且在空间化宽度控制方面表现更好,效率极高。

相关文章:

MusicHiFi: Fast High-Fidelity Stereo Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding 相关链接:arxiv github 关键字:音乐生成、高保真立体声、立体声编解码器、生成对抗网络、频带扩展 摘要 MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频…...

完美解决 RabbitMQ可视化界面Overview不显示折线图和队列不显示Messages

问题场景: 今天使用docker部署了一个RabbitMQ,浏览器打开15672可视化页面发送消息后不显示Overview中的折线图,还有队列中的Messages,因为我要看队列中的消息数量。 解决方案: 进入容器内部 docker exec -it 容器id…...

matlab 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面

1、内容简介 略 65-可以交流、咨询、答疑 2、内容说明 matlab 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面 李雅普洛夫指数谱、相图、分岔图、庞加莱界面 3、仿真分析 略 4、参考论文 略...

Linux-docker安装数据库mysql

1、拉去mysql镜像: docker pull mysql2、创建容器挂载路径 mkdir -p /usr/local/jiuxiang/mysql/data # 数据存储位置 mkdir -p /usr/local/jiuxiang/mysql/logs # 日志存储位置 mkdir -p /usr/local/jiuxiang/mysql/conf # 配置文件3、启动容器 docker run -…...

网工内推 | 七险一金,上市公司招信息安全工程师,大牛带队

01 启明星辰信息技术集团股份有限公司 招聘岗位:数据安全服务工程师 职责描述: 1、负责数据安全服务项目的管理,统筹组织并协调资源落实项目交付实施; 3、负责数据安全风险评估、数据分类分级、数据安全管理制度、数据安全体系规划等数据安…...

04.组件的组成和组件间通信

一、scoped解决样式冲突 1.默认情况: 写在组件中的样式会 全局生效 → 因此很容易造成多个组件之间的样式冲突问题。 全局样式: 默认组件中的样式会作用到全局,任何一个组件中都会受到此样式的影响 局部样式: 可以给组件加上scoped 属性,可以让样式只…...

【Sql Server】通过Sql语句批量处理数据,使用变量且遍历数据进行逻辑处理

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《Sql Server》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对…...

MySQL中group_concat()用法

函数用法见链接处 https://www.cnblogs.com/mcj123/articles/17189384.html 使用过程问题:group_concat()拼接后的字符串长度默认限制为1024位字节,超长会被自动截取。 解决: 修改group_concat限制长度。 1.数据库直接通过sql修改 查询限制长…...

栈队列数组试题(四)——数组和特殊矩阵

01.对特殊矩阵采用压缩存储的主要目的是( D ). A.表达变得简单 B.对矩阵元素的存取变得简单 C.去掉矩阵中的多余元素 D.减少不必要的存储空间解析:特殊矩阵中含有很多相同元素…...

数据结构的概念大合集01(含数据结构的基本定义,算法及其描述)

概念大合集01 1、数据结构基础的定义2、数据结构2.1 数据元素之间关系的集合2.2数据结构的三要素2.2.1数据的逻辑结构2.2.2数据的存储(物理)结构2.2.3数据的运算 3、数据类型4、抽象数据类型类型(ADT)5、算法及其描述5.1算法的5个…...

.NET高级面试指南专题十七【 策略模式模式介绍,允许在运行时选择算法的行为】

介绍: 策略模式是一种行为设计模式,它允许在运行时选择算法的行为。它定义了一系列算法,将每个算法封装到一个对象中,并使它们可以互相替换。这使得算法可独立于使用它的客户端变化。 原理: 策略接口(Strat…...

突飞猛进,智能饮品机器人如何助力实体经济?

近日,财务部公布了2024年第一季度及全年财报。数据显示,连锁品牌增长速度惊人,这其中不得不提到智能饮品机器人的使用,为不同的品牌门店拼速度、抢点位立下了不小的功劳,那么智能饮品机器人到底如何助力各门店&#xf…...

AI:150-基于深度学习的医学数据挖掘与病症关联发现

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望…...

c语言:最大公约数

最大公约数 任务描述 最大公约数(也称最大公因数、最大公因子),指两个或多个整数共有约数中最大的一个。 编程输入两个正整数,输出它们的最大公约数。 输入示例 36 24输出示例 12代码 方法1:辗转相除法 #inclu…...

12 对称加密AES和非对称加密RSA

文章目录 一、对称加密算法AES1. AES简介2. AES代码 二、非对称加密RSA1. RSA简介2. 生成公钥私钥3. RSA代码 一、对称加密算法AES 1. AES简介 对称加密算法AES是目前广泛使用的一种加密技术,它采用相同的密钥来进行数据的加密和解密。 AES的优点 高效性&#x…...

Vue2(二):计算属性、监视属性、二者的区别

一、计算属性 1. 使用插值语法和methods拼接姓名 如果样式要求不多的话这样写没问题&#xff0c;如下代码是截取我输入的姓的前三个字母 <div id"root">姓&#xff1a;<input type"text" v-moudel"firstName">名&#xff1a;<…...

CTF题型 SSTI(2) Flask-SSTI典型题巩固

CTF题型 SSTI(2) Flask-SSTI典型题巩固 文章目录 CTF题型 SSTI(2) Flask-SSTI典型题巩固前记1.klf__sstiSSTI_Fuzz字典&#xff08;网上收集自己补充&#xff09; 2.klf_2数字问题如何解决了&#xff1f;|count |length都被禁&#xff1f; 3.klf_3 前记 从基础到自己构造paylo…...

计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习

文章目录 0 前言1 课题背景2 实现目标3 当前市面上疲劳驾驶检测的方法4 相关数据集5 基于头部姿态的驾驶疲劳检测5.1 如何确定疲劳状态5.2 算法步骤5.3 打瞌睡判断 6 基于CNN与SVM的疲劳检测方法6.1 网络结构6.2 疲劳图像分类训练6.3 训练结果 7 最后 0 前言 &#x1f525; 优…...

小字辈[天梯赛]

文章目录 题目描述思路AC代码 题目描述 思路 深度优先搜索 具体流程 1.读入每个人的祖先&#xff0c;标记辈分最高的老祖宗对应的下标pos 2.从pos开始dfs&#xff0c;每次判断当前遍历的深度&#xff0c;如果>原来的深度&#xff0c;更新&#xff0c;并将存储最小辈分的数组…...

Linux常用操作命令、端口、防火墙、磁盘与内存

目录 1.Linux常用操作命令 1.1 基本命令 1.2 高级命令 2.Linux防火墙 2.1 iptables 2.2 firewalld 3.Linux端口号 3.1 netstat&#xff08;查看网络连接&#xff09; 3.2 lsof&#xff08;查找占用端口的进程&#xff09; 3.3 ps&#xff08;查看进程服务路径&#x…...

AD9364 SPI配置避坑指南:从寄存器0x3DF到0x015,手把手带你走通初始化流程

AD9364 SPI配置避坑指南&#xff1a;从寄存器0x3DF到0x015&#xff0c;手把手带你走通初始化流程 第一次接触AD9364的SPI配置时&#xff0c;我盯着密密麻麻的寄存器列表和长达数十页的配置流程&#xff0c;感觉像是面对一座难以攀登的高山。经过多次调试和失败后&#xff0c;终…...

从Linux到Uboot:手把手带你理解DM驱动模型的迁移与实战配置

从Linux到Uboot&#xff1a;深入解析DM驱动模型的迁移与实战配置 1. 嵌入式开发者的跨平台驱动认知重构 对于熟悉Linux设备驱动开发的工程师而言&#xff0c;初次接触Uboot的Driver Model(DM)架构往往会经历一段认知调适期。这种调适本质上是从一个成熟完备的驱动框架向一个精简…...

uni-app本地打包APK实战:从HBuilder X到Android Studio的避坑指南

1. 环境准备&#xff1a;工具链全解析 第一次接触uni-app本地打包的开发者&#xff0c;往往会卡在环境配置这一步。我当初花了整整两天时间才搞明白各个工具的用途和安装顺序&#xff0c;这里把踩过的坑都总结给你。HBuilder X作为开发工具是起点&#xff0c;但真正打包需要And…...

别再死记硬背了!手把手带你一步步推导弗里斯公式里的-32.44dB常数

弗里斯公式中的-32.44dB常数&#xff1a;从电磁波本质到工程计算的完整推导 在无线通信领域&#xff0c;弗里斯传输公式就像欧姆定律之于电路分析一样基础。但当你第一次看到这个公式时&#xff0c;那个神秘的-32.44dB常数总会让人产生疑问&#xff1a;这个数字从何而来&#x…...

MTools使用指南:整合图片处理、音视频编辑和AI智能工具

MTools使用指南&#xff1a;整合图片处理、音视频编辑和AI智能工具 1. MTools简介与核心功能 1.1 什么是MTools&#xff1f; MTools是一款现代化桌面工具集&#xff0c;将图片处理、音视频编辑、AI智能工具和开发辅助功能整合到一个界面精美的应用中。它就像数字工作台上一把…...

Go语言的defer语句执行时机与panic恢复机制的错误处理模式

Go语言以简洁高效的并发模型著称&#xff0c;其独特的错误处理机制更是开发者津津乐道的设计。其中defer语句的延迟执行特性与panic/recover的异常恢复机制&#xff0c;共同构成了Go风格化的错误处理模式。本文将深入剖析这两个关键特性的协作原理&#xff0c;揭示它们如何优雅…...

从电机控制到新能源并网:深入浅出图解Clark/Park变换的工程应用场景

从电机控制到新能源并网&#xff1a;深入浅出图解Clark/Park变换的工程应用场景 坐标变换技术就像电力电子领域的"瑞士军刀"&#xff0c;在不同应用场景中展现出惊人的适应性。第一次接触Clark和Park变换时&#xff0c;许多工程师都会被矩阵运算吓退&#xff0c;但真…...

从航模到创客:手把手教你用Arduino UNO和好盈40A电调DIY一个小型动力测试台

从航模到创客&#xff1a;用Arduino UNO和好盈40A电调构建专业级动力测试平台 当无刷电机从航模领域走向创客工作台&#xff0c;如何安全高效地测试其性能成为每个硬件爱好者的必修课。本文将带你用Arduino UNO和好盈40A电调打造一个可测量转速、绘制特性曲线、适配多种负载的…...

龙虾配置文件OpenClaw Workspace MD 文件源码分析总览

OpenClaw Workspace MD 文件源码分析总览 / Summary 分析日期: 2026-04-18 分析基准: OpenClaw 源码 C:\github\openclaw 文件数: 7 核心发现一览 文件 角色 排序 子Agent可见 压缩后保留 特殊代码处理 AGENTS.md 员工手册 10 (最高) ✅ ✅ Session Startup + Red Lines 提取章…...

HR必备:OpenClaw批量筛选简历、发送面试通知,优化招聘流程

OpenClaw&#xff1a;重塑高效招聘&#xff0c;批量筛选简历与智能发送面试通知的实践指南引言&#xff1a;数字化时代招聘的挑战与机遇在当今竞争激烈的人才市场中&#xff0c;招聘已成为企业发展的核心驱动力之一。人力资源部门&#xff08;HR&#xff09;肩负着寻找、吸引、…...