当前位置: 首页 > news >正文

【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本,研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题,即未经授权可能滥用个人数据进行模型训练。最近的工作(例如 CUDA)提出了这个问题的解决方案,通过添加类模糊来使数据集变得不可学习,即模型永远不能使用获取的数据集进行学习。然而,这些方法通常会降低数据的质量,使其在实际应用中毫无用处。我们引入了 PosCUDA,一种基于位置的卷积,用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥,因此模型学习位置模糊和标签之间的关系,但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成,而无需任何微调。然而,流行的方法在适应域外设置的新说话人方面遇到了限制,这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制,我们提出了一种创新的否定特征学习范例,该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。此外,为了促进不同说话者属性的学习,我们利用多流 Transformer,它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示,我们采用了注意力池。最后,鉴于以所需语音生成目标文本话语的必要性,我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合,而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力,当赞美一首音乐时,我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复,因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox(一种开源商用神经网络)的能力,以准确复制节奏游戏中常见的两种音乐类型:艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐,但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来,人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而,对于安装在移动人形机器人上的阵列来说,情况不一定如此。如果没有适当考虑阵列运动,可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型,提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号,并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究,证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成,为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法,该方法实现了最大方向性,为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究,结果表明,刚性球形阵列特别适合实重设计,因为它们不会受到栅瓣的影响,而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中,经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源,因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战,并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中,我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练,这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习,并在可用时从精心策划的标签中学习,从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述,而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻,但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛,针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中,我们提出了一种动态跳层方法,该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外,我们对CTC输出分布进行因子分解,并对中间层进行知识蒸馏,以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关文章:

【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野今日CS.Sound 声学论文速览 Fri, 5 Jan 2024 Totally 10 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers PosCUDA: Position based Convolution for Unlearnable Audio Datasets Authors Vignesh Gokul, Shlomo Dubnov深度学习模型需要大量干净的…...

Java中如何使用SQLite数据库

目录 SQLite简介SQLite优势安装 SQLite基本使用Java使用SQLite Springboot使用SQLite1.添加依赖2.配置数据库3.创建实体类 4.创建Repository接口5.创建控制器6.运行应用程序 SQLite简介 SQLite 是一个开源的嵌入式关系数据库,实现了自给自足的、无服务器的、配置无…...

kettle的基本介绍和使用

1、 kettle概述 1.1 什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 以XML形式存储以资源库方式存储…...

数据结构第2章 栈和队列

名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 本篇笔记整理:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 0、思维导图栈和队列1、栈1)特点2&#xff0…...

Axure鲜花商城网站原型图,网上花店订花O2O本地生活电商平台

作品概况 页面数量:共 30 页 兼容软件:仅支持Axure RP 9/10,非程序软件无源代码 应用领域:鲜花网、花店网站、本地生活电商 作品特色 本作品为「鲜花购物商城」网站模板,高保真高交互,属于O2O本地生活电…...

【docker】centos 使用 Nexus Repository 搭建私有仓库

Nexus Repository 是一种流行的软件仓库管理工具,它可以帮助您搭建私有仓库,以便在内部网络或私有云环境中存储、管理和分发各种软件包和组件。 它常被用于搭建Maven的镜像仓库。本文演示如何用Nexus Repository搭建docker 私有仓库。 使用Nexus Repos…...

RabbitMQ(八)消息的序列化

目录 一、为什么需要消息序列化?二、常用的消息序列化方式1)Java原生序列化(默认)2)JSON格式3)Protobuf 格式4)Avro 格式5)MessagePack 格式 三、总结 RabbitMQ 是一个强大的消息中间…...

23款奔驰GLC260L升级原厂540全景影像 安装效果分享

嗨 今天给大家介绍一台奔驰GLC260L升级原厂360全景影像 新款GLC升级原厂360全景影像 也只需要安装前面 左右三个摄像头 后面的那个还是正常用的,不过不一样的是 升级完成之后会有多了个功能 那就是新款透明底盘,星骏汇小许Xjh15863 左右两边只需要更换后…...

【CSS】文字描边的三种实现方式

目录 1. 可行的几种方式1.1. text-shadow 描边代码优缺点 1.2. text-stroke 描边实现优缺点 1.3. svg 描边实现优缺点 总结 1. 可行的几种方式 text-shadow–webkit-text-strokesvg 1.1. text-shadow 描边 MDN text-shadow 代码 <div class"text stroke">…...

【事务】事务传播级别

Spring事务定义了7种传播机制&#xff1a; PROPAGATION_REQUIRED&#xff1a;默认的Spring事物传播级别&#xff0c;若当前存在事务&#xff0c;则加入该事务&#xff0c;若不存在事务&#xff0c;则新建一个事务。 PAOPAGATION_REQUIRE_NEW&#xff1a;若当前没有事务&#x…...

Android WiFi 连接

Android WiFi 连接 1、设置中WiFi显示2、WiFi 连接流程2.1 获取PrimaryClientModeManager2.2 ClientModeImpl状态机ConnectableState2.3 ISupplicantStaNetworkCallback 回调监听 3、 简要时序图4、原生低层驱动5、关键日志 1、设置中WiFi显示 Android WiFi基础概览 packages/a…...

PLC与上位机PN通讯时,如何防止连接失败?

连接西门子PLC时失败&#xff0c;或者连接不上PLC&#xff0c;你可能需要做以下几点设置才可以。 一般来说每个PLC都有自己的IP地址&#xff0c;如果你的地址与PLC的地址冲突也就是地址重复是连接不上PLC的&#xff0c;如果地址没有冲突&#xff0c;但是不是在一个网段上也会导…...

LDD学习笔记 -- Linux错误码

LDD学习笔记 -- Linux错误码 EACCES(Permission Denied) 13EEXIST(File Exits) 17EINVAL(Invalid Argument) 22ENOENT(No Such File or Directory)ENOMEM(Out of Memory)EIO(Input/Output Error) 5ENOSPC(No space Left on Device)ENOTTY(Not a Typewrite)EPIPE(Broken Pipe)EI…...

华为交换机入门(六):VLAN的配置

VLAN&#xff08;Virtual Local Area Network&#xff09;即虚拟局域网&#xff0c;是将一个物理的LAN在逻辑上划分成多个广播域的通信技术。VLAN内的主机间可以直接通信&#xff0c;而VLAN间不能直接互通&#xff0c;从而将广播报文限制在一个VLAN内。 VLAN 主要用来解决如何…...

登录验证

目录 会话技术 Cookie Session JWT JWT生成 JWT校验 会话技术 会话 打开浏览器&#xff0c;访问web服务器的资源&#xff0c;会话建立&#xff0c;直到有一方断开连接&#xff0c;会话结束。在一次会话中可以包含多次请求与响应 会话跟踪 一种维护浏览器的方法 服务器需要…...

利用Podman构建基于Fission env/builder的镜像

镜像准备 构建Dockerfile fission的基础环境包括两种&#xff1a;env 以及 builder。如果仅基于code构建function&#xff08;i.e., 只创建deployachive&#xff09;&#xff0c;仅构建env即可&#xff1b;但如果需要构建sourcearchive&#xff0c;则需要同时创建env和builde…...

php加减乘除函数

目录 第一部分&#xff1a;简单示例 1、加法 2、减法 3、乘法 4、除法 第二部分&#xff1a;官方文档 1、加法 2、减法 3、乘法 4、除法 第一部分&#xff1a;简单示例 1、加法 $result bcadd(1.2, 1.4, 2); echo $result;//2.60 2、减法 $result bcsub(1.6, 1.…...

Go语言学习记录——用正则表达式(regexp包)来校验参数

前言 最近坐毕设ing&#xff0c;简单的一个管理系统。 其中对于用户注册、登录功能&#xff0c;需要进行一些参数校验。 因为之前使用过&#xff0c;因此这里计划使用正则表达式进行校验。但是之前的使用也仅限于使用&#xff0c;因此这次专门进行一次学习&#xff0c;并做此记…...

公司办公电脑文件防泄密系统

电脑文件防泄密系统是一种用于保护企业机密文件的软件系统&#xff0c;它采用一系列的安全技术手段&#xff0c;如数据加密、访问控制、审计跟踪等&#xff0c;来确保企业机密文件不被非法获取、窃取或泄漏。这种系统通常适用于企业、政府机构等需要对重要文件进行保密的机构。…...

手把手带你死磕ORBSLAM3源代码(三十四)Tracking.cc MonocularInitialization编辑

目录 一.前言 二.代码 2.1完整代码 2.2 单目视觉跟踪初始化 一.前言 这段代码是一个名为MonocularInitialization的函数,它属于Tracking类。从函数名称和代码内容来看,这个函数主要用于单目视觉跟踪的初始化过程。以下是代码的详细解读: 首先,函数检查一个名为m...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API&#xff0c;用于在函数组件中使用 state 和其他 React 特性&#xff08;例如生命周期方法、context 等&#xff09;。Hooks 通过简洁的函数接口&#xff0c;解决了状态与 UI 的高度解耦&#xff0c;通过函数式编程范式实现更灵活 Rea…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求&#xff0c;设计一个邮件发奖的小系统&#xff0c; 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其…...

论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)

HoST框架核心实现方法详解 - 论文深度解读(第二部分) 《Learning Humanoid Standing-up Control across Diverse Postures》 系列文章: 论文深度解读 + 算法与代码分析(二) 作者机构: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学 论文主题: 人形机器人…...

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…...

连锁超市冷库节能解决方案:如何实现超市降本增效

在连锁超市冷库运营中&#xff0c;高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术&#xff0c;实现年省电费15%-60%&#xff0c;且不改动原有装备、安装快捷、…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...

08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险

C#入门系列【类的基本概念】&#xff1a;开启编程世界的奇妙冒险 嘿&#xff0c;各位编程小白探险家&#xff01;欢迎来到 C# 的奇幻大陆&#xff01;今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类&#xff01;别害怕&#xff0c;跟着我&#xff0c;保准让你轻松搞…...

LabVIEW双光子成像系统技术

双光子成像技术的核心特性 双光子成像通过双低能量光子协同激发机制&#xff0c;展现出显著的技术优势&#xff1a; 深层组织穿透能力&#xff1a;适用于活体组织深度成像 高分辨率观测性能&#xff1a;满足微观结构的精细研究需求 低光毒性特点&#xff1a;减少对样本的损伤…...

破解路内监管盲区:免布线低位视频桩重塑停车管理新标准

城市路内停车管理常因行道树遮挡、高位设备盲区等问题&#xff0c;导致车牌识别率低、逃费率高&#xff0c;传统模式在复杂路段束手无策。免布线低位视频桩凭借超低视角部署与智能算法&#xff0c;正成为破局关键。该设备安装于车位侧方0.5-0.7米高度&#xff0c;直接规避树枝遮…...

【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验

Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...