当前位置: 首页 > news >正文

MusicHiFi: Fast High-Fidelity Stereo Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding

相关链接:arxiv github
关键字:音乐生成高保真立体声立体声编解码器生成对抗网络频带扩展

摘要

MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频,并通过频带扩展提高音频分辨率,最终通过立体声混音生成立体声音频。与以往的工作相比,MusicHiFi提出了一个统一的基于生成对抗网络(GAN)的生成器和鉴别器架构,以及每个阶段的训练过程。此外,还提出了一种新的快速、与下采样兼容的频带扩展模块,以及一种新的快速、与下混音兼容的单声道到立体声混音器,确保输出中保留单声道内容。通过客观和主观的听力测试评估了该方法,并发现其在音频质量、空间化控制方面具有可比性或更优,并且推理速度显著快于以往的工作。

核心方法

在这里插入图片描述
在这里插入图片描述

  1. 统一的GAN架构:MusicHiFi采用了三个生成对抗网络(GAN)的级联,每个GAN都使用相同的生成器和鉴别器架构,以及训练目标和模型大小。
  2. 频带扩展(BWE):通过在低分辨率音频和高分辨率音频之间添加残差连接,并使用sinc插值块进行上采样,以生成高频内容。
  3. 单声道到立体声(M2S)混音:使用中侧(mid-side)立体声编码将单声道音频信号转换为立体声信号,并通过调整中侧能量比来控制空间化宽度。

实验说明

实验使用了1800小时的授权器乐音乐(立体声44.1 kHz)作为内部数据集。对于vocoder,使用16,384个样本的随机裁剪,并应用特定的预处理。对于BWE模块,使用与vocoder相同的预处理,但窗口和跳跃大小减半。对于M2S模块,使用与vocoder相同的STFT设置。训练目标使用了特定的权重,并在500k步后选择了最优的检查点。

实验结果数据

数据集方法Mel-D↓STFT-D↓ViSQOL↑SI-SDR↑RTF↑
DSD100HiFi-GAN [14]1.090.654.4728.623488
FMAMusicHiFi-V0.870.354.6731.571807

结论

MusicHiFi提出了一种新的高效、高保真的立体声编解码方法。该方法通过三个GAN模型的级联,将mel频谱图转换为低质量的音频波形,通过频带扩展将低分辨率音频上采样为高分辨率音频,并最终渲染出高分辨率的立体声音频。与以往的工作相比,MusicHiFi贡献了一个统一的基于GAN的鉴别器和生成器设计,一个新的与下采样兼容的BWE模块,以及一个新颖的保留单声道内容的单声道到立体声模块。通过客观评估和两次主观听力测试,发现MusicHiFi在vocding和BWE结果上具有可比性或更优,并且在空间化宽度控制方面表现更好,效率极高。

相关文章:

MusicHiFi: Fast High-Fidelity Stereo Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding 相关链接:arxiv github 关键字:音乐生成、高保真立体声、立体声编解码器、生成对抗网络、频带扩展 摘要 MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频…...

完美解决 RabbitMQ可视化界面Overview不显示折线图和队列不显示Messages

问题场景: 今天使用docker部署了一个RabbitMQ,浏览器打开15672可视化页面发送消息后不显示Overview中的折线图,还有队列中的Messages,因为我要看队列中的消息数量。 解决方案: 进入容器内部 docker exec -it 容器id…...

matlab 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面

1、内容简介 略 65-可以交流、咨询、答疑 2、内容说明 matlab 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面 李雅普洛夫指数谱、相图、分岔图、庞加莱界面 3、仿真分析 略 4、参考论文 略...

Linux-docker安装数据库mysql

1、拉去mysql镜像: docker pull mysql2、创建容器挂载路径 mkdir -p /usr/local/jiuxiang/mysql/data # 数据存储位置 mkdir -p /usr/local/jiuxiang/mysql/logs # 日志存储位置 mkdir -p /usr/local/jiuxiang/mysql/conf # 配置文件3、启动容器 docker run -…...

网工内推 | 七险一金,上市公司招信息安全工程师,大牛带队

01 启明星辰信息技术集团股份有限公司 招聘岗位:数据安全服务工程师 职责描述: 1、负责数据安全服务项目的管理,统筹组织并协调资源落实项目交付实施; 3、负责数据安全风险评估、数据分类分级、数据安全管理制度、数据安全体系规划等数据安…...

04.组件的组成和组件间通信

一、scoped解决样式冲突 1.默认情况: 写在组件中的样式会 全局生效 → 因此很容易造成多个组件之间的样式冲突问题。 全局样式: 默认组件中的样式会作用到全局,任何一个组件中都会受到此样式的影响 局部样式: 可以给组件加上scoped 属性,可以让样式只…...

【Sql Server】通过Sql语句批量处理数据,使用变量且遍历数据进行逻辑处理

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《Sql Server》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对…...

MySQL中group_concat()用法

函数用法见链接处 https://www.cnblogs.com/mcj123/articles/17189384.html 使用过程问题:group_concat()拼接后的字符串长度默认限制为1024位字节,超长会被自动截取。 解决: 修改group_concat限制长度。 1.数据库直接通过sql修改 查询限制长…...

栈队列数组试题(四)——数组和特殊矩阵

01.对特殊矩阵采用压缩存储的主要目的是( D ). A.表达变得简单 B.对矩阵元素的存取变得简单 C.去掉矩阵中的多余元素 D.减少不必要的存储空间解析:特殊矩阵中含有很多相同元素…...

数据结构的概念大合集01(含数据结构的基本定义,算法及其描述)

概念大合集01 1、数据结构基础的定义2、数据结构2.1 数据元素之间关系的集合2.2数据结构的三要素2.2.1数据的逻辑结构2.2.2数据的存储(物理)结构2.2.3数据的运算 3、数据类型4、抽象数据类型类型(ADT)5、算法及其描述5.1算法的5个…...

.NET高级面试指南专题十七【 策略模式模式介绍,允许在运行时选择算法的行为】

介绍: 策略模式是一种行为设计模式,它允许在运行时选择算法的行为。它定义了一系列算法,将每个算法封装到一个对象中,并使它们可以互相替换。这使得算法可独立于使用它的客户端变化。 原理: 策略接口(Strat…...

突飞猛进,智能饮品机器人如何助力实体经济?

近日,财务部公布了2024年第一季度及全年财报。数据显示,连锁品牌增长速度惊人,这其中不得不提到智能饮品机器人的使用,为不同的品牌门店拼速度、抢点位立下了不小的功劳,那么智能饮品机器人到底如何助力各门店&#xf…...

AI:150-基于深度学习的医学数据挖掘与病症关联发现

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望…...

c语言:最大公约数

最大公约数 任务描述 最大公约数(也称最大公因数、最大公因子),指两个或多个整数共有约数中最大的一个。 编程输入两个正整数,输出它们的最大公约数。 输入示例 36 24输出示例 12代码 方法1:辗转相除法 #inclu…...

12 对称加密AES和非对称加密RSA

文章目录 一、对称加密算法AES1. AES简介2. AES代码 二、非对称加密RSA1. RSA简介2. 生成公钥私钥3. RSA代码 一、对称加密算法AES 1. AES简介 对称加密算法AES是目前广泛使用的一种加密技术,它采用相同的密钥来进行数据的加密和解密。 AES的优点 高效性&#x…...

Vue2(二):计算属性、监视属性、二者的区别

一、计算属性 1. 使用插值语法和methods拼接姓名 如果样式要求不多的话这样写没问题&#xff0c;如下代码是截取我输入的姓的前三个字母 <div id"root">姓&#xff1a;<input type"text" v-moudel"firstName">名&#xff1a;<…...

CTF题型 SSTI(2) Flask-SSTI典型题巩固

CTF题型 SSTI(2) Flask-SSTI典型题巩固 文章目录 CTF题型 SSTI(2) Flask-SSTI典型题巩固前记1.klf__sstiSSTI_Fuzz字典&#xff08;网上收集自己补充&#xff09; 2.klf_2数字问题如何解决了&#xff1f;|count |length都被禁&#xff1f; 3.klf_3 前记 从基础到自己构造paylo…...

计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习

文章目录 0 前言1 课题背景2 实现目标3 当前市面上疲劳驾驶检测的方法4 相关数据集5 基于头部姿态的驾驶疲劳检测5.1 如何确定疲劳状态5.2 算法步骤5.3 打瞌睡判断 6 基于CNN与SVM的疲劳检测方法6.1 网络结构6.2 疲劳图像分类训练6.3 训练结果 7 最后 0 前言 &#x1f525; 优…...

小字辈[天梯赛]

文章目录 题目描述思路AC代码 题目描述 思路 深度优先搜索 具体流程 1.读入每个人的祖先&#xff0c;标记辈分最高的老祖宗对应的下标pos 2.从pos开始dfs&#xff0c;每次判断当前遍历的深度&#xff0c;如果>原来的深度&#xff0c;更新&#xff0c;并将存储最小辈分的数组…...

Linux常用操作命令、端口、防火墙、磁盘与内存

目录 1.Linux常用操作命令 1.1 基本命令 1.2 高级命令 2.Linux防火墙 2.1 iptables 2.2 firewalld 3.Linux端口号 3.1 netstat&#xff08;查看网络连接&#xff09; 3.2 lsof&#xff08;查找占用端口的进程&#xff09; 3.3 ps&#xff08;查看进程服务路径&#x…...

跳跃表与跳跃树:Antithesis 如何用奇特数据结构解决测试难题?

BugBash 2026导航栏信息 导航栏包含产品相关、解决方案、公司信息和资源四个板块。产品相关板块有 What is Antithesis?、How Antithesis works、How were different 等内容&#xff1b;解决方案板块涵盖 Problems we solve、Security approach、Fintech、Blockchain、Databas…...

5分钟快速上手:Android Studio中文语言包完整配置指南

5分钟快速上手&#xff1a;Android Studio中文语言包完整配置指南 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本&#xff09; 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 还在为Android …...

联想小新Air14 AMD版装Ubuntu 20.04,升级内核到5.11解决触控板和亮度问题(附详细步骤)

联想小新Air14 AMD版Ubuntu 20.04深度优化指南&#xff1a;从内核调优到桌面效率革命 当AMD锐龙5500U遇上Ubuntu 20.04&#xff0c;这本应是开源世界与高性能硬件的完美邂逅&#xff0c;但预装的5.8内核却让触控板和亮度调节成了摆设。这不是个例——2023年硬件兼容性报告显示&…...

运维监控体系的搭建与智能告警系统的实现

运维监控体系的搭建与智能告警系统的实现 在数字化转型的浪潮下&#xff0c;企业IT系统的复杂性和规模不断增长&#xff0c;运维团队面临着前所未有的挑战。如何高效监控系统运行状态&#xff0c;并在故障发生时快速响应&#xff0c;成为保障业务连续性的关键。运维监控体系的…...

ssm社区物业信息管理系统小程序(文档+源码)_kaic

系统实现登录模块的实现系统的登录窗口是用户的入口&#xff0c;用户只有在登录成功后才可以进入访问。通过在登录提交表单&#xff0c;后台处理判断是否为合法用户&#xff0c;进行页面跳转&#xff0c;进入系统中去。登录合法性判断过程&#xff1a;用户输入账号和密码后&…...

保姆级教程:用7811张车牌数据集,从零训练一个YOLOv8车牌识别模型(附完整代码)

从零构建YOLOv8车牌识别模型的实战指南 1. 环境准备与数据集处理 在开始训练车牌识别模型之前&#xff0c;我们需要搭建一个稳定的开发环境并准备好数据集。这个阶段是整个项目的基础&#xff0c;任何疏忽都可能导致后续训练过程出现问题。 1.1 搭建Python开发环境 推荐使用Ana…...

UnSHc技术解密:突破Shell脚本加密壁垒的逆向工程实践

UnSHc技术解密&#xff1a;突破Shell脚本加密壁垒的逆向工程实践 【免费下载链接】UnSHc UnSHc - How to decrypt SHc *.sh.x encrypted file ? 项目地址: https://gitcode.com/gh_mirrors/un/UnSHc 在Shell脚本安全防护领域&#xff0c;SHc加密技术长期被视为保护敏感…...

【AGI时代招聘生存指南】:错过2026奇点大会这4个信号,你的技术团队将在6个月内掉队2个代际

第一章&#xff1a;2026奇点智能技术大会&#xff1a;AGI与人才招聘 2026奇点智能技术大会(https://ml-summit.org) AGI招聘范式的结构性转变 传统技术岗位JD正被AGI原生能力模型重构。企业不再仅评估编程语言熟练度&#xff0c;而是聚焦于候选人在多模态推理、自主目标分解、…...

马文(Maven)与Palantir、Anthropic 的关系

Maven&#xff08;梅文项目&#xff09; 是美国国防部于2017年启动的AI军事项目&#xff0c;旨在将人工智能和机器学习整合到军事行动中。Palantir 是该项目的主要承包商&#xff0c;而 Anthropic 则是其AI技术供应商之一。1. Maven 与 Palantir 的关系- 主要承包商&#xff1a…...

FPGA资源优化实战:如何给你的脉动阵列矩阵乘法IP核‘瘦身’

FPGA资源优化实战&#xff1a;脉动阵列矩阵乘法IP核的深度瘦身指南 当你的脉动阵列矩阵乘法器在FPGA上跑起来的那一刻&#xff0c;成就感往往会被资源占用报告瞬间冲淡——LUT用量爆表、寄存器堆满、时序裕度所剩无几。这不是个例&#xff0c;而是每个FPGA工程师优化计算密集型…...