当前位置：首页 > news >正文

声场合成新方法：基于声波传播的框架

news 2025/7/6 9:59:19

声场合成是指在房间内的麦克风阵列上，根据来自房间内其他位置的声源信号，合成每个麦克风的音频信号。它是评估语音/音频通信设备性能指标的关键任务，因为它是一种成本效益高的方法，用于数据生成以替代真实的数据收集，后者通常是缓慢的、昂贵的，并且容易出错的过程。

1 现有声场合成方法的局限性

1.1 基于测量的方法

准确，但成本高，需要大量人力进行测量。
需要对每个源/接收器位置组合和每种不同形状的设备进行重复测量。
需要设备硬件，不适合硬件开发阶段。

1.2 基于模拟的方法

通过计算声学波方程来估计房间脉冲响应 (RIR)。
需要大量的计算资源，尤其是在宽带频谱下。
需要对每种不同形状的设备进行重复模拟。

2 新方法

本文提供一种新方法，它结合了经验方法和模拟方法，为声场合成提供了两种方法之间的平衡。它将声场分解为两个独立的成分：房间成分和设备成分。整体声场是两个成分的复合映射。

2.1 理论基础

声学平面波是齐次亥姆霍兹方程的特征函数，是分析波动方程的强大工具。远场点源产生的声场可以用声学平面波很好地近似。

2.1.1 平面波分解

平面波分解 (PWD) 是一种将声场近似为不同方向和权重的平面波叠加的方法。
PWD 可以近似齐次亥姆霍兹方程的局部解，并用于声场重建和声场再现等应用。

2.1.2 平面波分解的稀疏性

平面波分解的系数 αl 通常具有稀疏性，即只有少量平面波对声场有显著贡献。
稀疏性为使用稀疏恢复技术计算平面波分解提供了理论基础。

2.1.3 平面波分解的应用

声场重建：通过测量麦克风阵列上的声场，可以计算平面波分解，并重建声源位置和声源信号。
声场再现：通过控制扬声器的声场，可以再现特定的声场，例如音乐会现场的声音。
声场合成：将平面波分解应用于声场合成，可以生成麦克风阵列上的声场信号。

2.2 设备声学字典

设备声学字典是一组向量，每个向量表示设备麦克风阵列在受到特定方向和频率的声学平面波照射时的总声场。

2.2.1 获取方法

无响室测量：在无响室中，使用单频远场声源照射设备，并测量麦克风阵列上的声场，得到设备声学字典。
数值模拟：使用有限元法 (FEM) 或边界元法 (BEM) 等数值方法，在设备表面上求解亥姆霍兹方程，得到设备声学字典。

2.2.2 作用

设备声学字典是声场合成框架中连接房间分量和设备分量的桥梁。
通过将房间分量的平面波分解结果与设备声学字典相结合，可以合成设备麦克风阵列上的声场信号。
设备声学字典可以用于多种设备，无需针对每种设备重新计算。

2.2.3 数值模拟的细节

使用 FEM 或 BEM 等数值方法，在设备表面上求解亥姆霍兹方程，得到总声场。
设备表面被建模为声硬边界。
为了模拟开放边界，使用完美匹配层 (PML) 技术消除内部域的反射和折射。
使用标准偏微分方程求解软件包进行模拟，并通过与无响室测量结果进行比较验证模拟的准确性。

2.2.4 设备声学字典的应用

声场合成：将房间分量的平面波分解结果与设备声学字典相结合，合成设备麦克风阵列上的声场信号。
麦克风阵列处理：使用设备声学字典设计波束形成器，提高波束形成性能。
声源定位和分离：利用设备声学字典进行声源定位和分离。
去混响：使用设备声学字典进行去混响处理。

2.3 技术框架

2.3.1 框架组成

房间分量：将房间内某点的声场表示为声学平面波的叠加，通过使用大麦克风阵列进行测量和稀疏恢复技术计算得到平面波分解结果。
设备分量：计算设备表面对于声学平面波的响应，得到设备声学字典。
合成分量：将房间分量的平面波分解结果与设备分量的设备声学字典相结合，合成设备麦克风阵列上的声场信号。

2.3.2 框架步骤

2.3.2.1 房间分量计算

使用大麦克风阵列（例如 EigenMike）进行测量，获取房间内某点的声场信号。
使用稀疏恢复技术对测量信号进行平面波分解，得到平面波的方向和权重。
重复以上步骤，为每个房间和每个位置生成房间分量的平面波分解结果，形成房间数据库。

2.3.2.2 设备分量计算

使用无响室测量或数值模拟，计算设备表面对于声学平面波的响应，得到设备声学字典。

2.3.2.3 声场合成

选择房间数据库中与目标位置对应的房间分量平面波分解结果。
将设备声学字典与房间分量的平面波分解结果相结合，合成设备麦克风阵列上的声场信号。

2.3.3 框架优势

分离房间声学和设备声学：将房间声学和设备声学分离，简化了声场合成的复杂性，并实现了组件的复用。
减少测量/模拟开销：房间分量只需要进行一次测量，设备分量只需要进行一次计算，减少了测量/模拟的开销。
提高计算效率：设备分量的计算可以在无响室中进行，并高度并行化，提高了计算效率。
提高准确性：设备声学字典能够捕捉设备表面对于声学平面波的散射效应，提高了声场合成的准确性。

2.3.4 框架应用

数据生成：生成合成数据，用于评估设备性能指标（例如误识率、词错误率）和训练深度学习声学模型。
麦克风阵列处理：使用设备声学字典设计波束形成器，提高波束形成性能。
声源定位和分离：利用设备声学字典进行声源定位和分离。
去混响：使用设备声学字典进行去混响处理。

3 实验验证

本文通过三组实验来验证提出的声场合成框架的有效性

3.1 平面波分解验证

使用 EigenMike 麦克风阵列记录两个不同的源信号，并使用稀疏恢复技术进行平面波分解。
验证不同数量的平面波对声场重建误差的影响。

结果表明，少量平面波（例如 20-30 个）就能够以小于 -20 dB 的误差重建声场，证明了平面波分解的有效性。

3.2 房间脉冲响应（RIR）验证

在三个不同的房间内进行实验，每个房间包含 24 个不同的位置。
将 EigenMike 麦克风阵列与四种不同形状和麦克风阵列大小的设备进行共位。
使用提出的框架计算每个位置的 RIR，并与实测 RIR 进行比较。

结果表明，合成 RIR 与实测 RIR 在所有频率上都高度相似，重建信号噪声比（SNR）为 19-23 dB，证明了 RIR 计算的准确性。

3.3 高级指标评估

使用合成 RIR 和实测 RIR 对关键词误识率（FRR）进行评估。
计算实测 FRR 和合成 FRR 之间的相对误差。

结果表明，实测 FRR 和合成 FRR 之间的相对误差小于 10%，证明了框架在评估高级指标方面的有效性。

声场合成新方法：基于声波传播的框架

声场合成是指在房间内的麦克风阵列上，根据来自房间内其他位置的声源信号，合成每个麦克风的音频信号。它是评估语音/音频通信设备性能指标的关键任务，因为它是一种成本效益高的方法，用于数据生成以替代真实的数据收集，后…...

编程日记 2024/6/27 2:26:58

鸿蒙文件操作事前准备

13900001，沙箱13900002 首选授权 module授权配置 "requestPermissions": [{ "name": "ohos.permission.CAMERA",}, { "name": "ohos.permission.READ_MEDIA",}, { "name": "ohos.permission.WR…...

编程日记 2024/6/27 2:25:57

AI智能时代：ChatGPT如何在金融市场发挥策略分析与预测能力？

文章目录一、ChatGPT在金融策略制定中的深度应用客户需求分析与定制化策略市场动态跟踪与策略调整策略分析与优化二、ChatGPT在算法交易中的深度应用自动交易策略制定交易执行与监控风险管理三、未来展望《智能量化：ChatGPT在金融策略与算法交易中的实践》亮点内…...

编程日记 2024/6/27 2:23:55

C#面：C#属性能在接口中声明吗？

在C#中，接口是一种定义了一组方法、属性和事件的类型。在接口中，只能声明方法、属性和事件的签名，而不能包含字段、构造函数或实现代码。因此，C#属性不能直接在接口中声明。然而，你可以在接口中定义属性的签名&#…...

编程日记 2024/6/27 2:20:51

区块链的历史和发展：从比特币到以太坊

想象一下，你住在一个小镇上，每个人都有一个大账本，记录着所有的交易。这个账本很神奇，每当有人买卖东西，大家都会在自己的账本上记一笔，确保每个人的账本都是一致的。这就是区块链的基本思想。而区块链的故…...

编程日记 2024/6/27 2:19:50

input()函数——输入

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 input()函数可以提示并接收用户的输入，将所有的输入按照字符串进行处理，并返回一个字符串，input()函数的…...

编程日记 2024/6/27 2:16:47

CST 时间格式减去八小时

问题： 查看服务器时间是正确的,但输出出来的时间，比此时多出来八个小时。这里直接把时间减去八个小时。 public static void main(String[] args) throws ParseException {// 设定原始时间格式try {SimpleDateFormat dateFormat new SimpleDateFormat(&…...

编程日记 2024/6/27 2:14:45

植物大战僵尸杂交版技巧大全（附下载攻略）

《植物大战僵尸杂交版》为策略游戏爱好者带来了全新的挑战和乐趣。如果你是新手玩家，可能会对游戏中的植物和僵尸感到困惑。以下是一些实用的技巧，帮助你快速掌握游戏并享受其中的乐趣。技巧一：熟悉基本玩法游戏的基本玩法与原版相似&…...

编程日记 2024/6/27 2:12:43

HTTPS 代理的优点和缺点是什么？

HTTPS代理的优点包括提供更好的安全性、支持验证、速度、匿名性、节省带宽。安全性：HTTPS代理通过使用SSL/TLS协议对传输的数据进行加密，保护用户的数据传输安全，防止中间人攻击和窃听，确保数据的安全性。速度：HTTPS…...

编程日记 2024/6/27 2:10:40

Mac安装多版本node

Mac下使用n模块去安装多个指定版本的Node.js，并使用命令随时切换。 node中的n模块是，node专门用来管理node版本的模块，可以进行node版本的切换，下载，安装。 1.安装n npm install -g n 2.查看版本 n --version 3.展…...

编程日记 2024/6/27 2:08:38

HTML静态网页成品作业(HTML+CSS)——动漫猪猪侠网页(4个页面)

🎉不定期分享源码，关注不丢失哦文章目录一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码五、源码获取一、作品介绍 🏷️本套采用HTMLCSS，未使用Javacsript代码，共有4个页面。二、作品演示三、代…...

编程日记 2024/6/27 2:05:35

【机器学习300问】125、什么是双向循环神经网络（BRNN）？什么是深度循环神经网络（DRNN）？

一、双向循环神经网络 （1）诞生背景双向循环神经网络（Bidirectional Recurrenct Neural Network, BRNN）是在深度学习领域发展起来的一种特殊类型的循环神经网络（RNN），它诞生的背景是为了解决传…...

编程日记 2024/6/27 2:02:32

办公软件汇总

1、OCR 1.1 pearOCR pearOCR 是一个免费的免费在线文字提取OCR工具网站。PearOCR界面简洁，所有过程均在网页端完成,无需下载任何软件，点开即用。官方地址：https://pearocr.com/ 参考：9款文字识别（OCR）工具…...

编程日记 2024/6/27 2:01:30

Docker 搭建 MinIO 对象存储

Docker 搭建 MinIO 对象存储一、MinIO MinIO 是一个高性能的对象存储服务器，用于构建云存储解决方案。MinIO 允许你存储非结构化数据（如图片、视频、日志文件等）以对象的形式。MinIO 提供简单的部署选项和易于使用的界面，允许你…...

编程日记 2024/6/27 2:00:29

主干网络篇 | YOLOv5/v7 更换骨干网络之 PP-LCNet | 轻量级CPU卷积神经网络

主干网络篇 | YOLOv5/v7 更换骨干网络之 PP-LCNet | 轻量级CPU卷积神经网络：中文详解 1. 简介 YOLOv5 和 YOLOv7 是目前主流的目标检测算法之一，具有速度快、精度高的特点。但 YOLOv5 和 YOLOv7 的原始模型结构中使用的是 MobileNetV3 作为骨干网络&am…...

编程日记 2024/6/27 1:58:26

CubeFS - 新一代云原生存储系统

CubeFS 是一种新一代云原生存储系统，支持 S3、HDFS 和 POSIX 等访问协议，支持多副本与纠删码两种存储引擎，为用户提供多租户、多 AZ 部署以及跨区域复制等多种特性。官方文档 CubeFS 作为一个云原生的分布式存储平台，提供了多种访问协议，因此其应用场景也非常广泛，下面…...

编程日记 2024/6/27 1:57:25

推动多模态智能模型发展：大型视觉语言模型综合多模态评测基准

随着人工智能技术的飞速发展，大型视觉语言模型（LVLMs）在多模态应用领域取得了显著进展。然而，现有的多模态评估基准测试在跟踪LVLMs发展方面存在不足。为了填补这一空白，本文介绍了MMT-Bench，这是一个全面的…...

编程日记 2024/6/27 1:56:24

深度学习31-33

1.负采样方案 （1）为0是负样本，负样本是认为构造出来的。正样本是有上下文关系负采样的target是1，说明output word 在input word之后。 2.简介与安装 （1）caffe:比较经常用于图像识别，有卷积网…...

编程日记 2024/6/27 1:53:20

Docker多种场景下设置代理

20240623 - 公司内网环境下需要对Docker进行代理设置；此时需要对拉取镜像的时候的命令设置代理；例如平时经常使用的wget设置代理一样。但对docker进行设置，并不能简单的直接export。文章[1]指出，拉取镜像的时候实际执行的是doc…...

编程日记 2024/6/27 1:51:17

node 实现导出, 在导出excel中包含图片（附件）

如果想查看 node mySql 实现数据的导入导出，以及导入批量插入的sql语句，连接如下 node mySql 实现数据的导入导出，以及导入批量插入的sql语句-CSDN博客https://blog.csdn.net/snows_l/article/details/139998373 一、效果如图： 二…...

编程日记 2024/6/27 1:50:16

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2025/7/5 21:22:21

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/6/16 11:04:37

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增：通道注意力模块（SE模块） class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

编程新知 2025/7/6 5:46:14

站群服务器的应用场景都有哪些？

站群服务器主要是为了多个网站的托管和管理所设计的，可以通过集中管理和高效资源的分配，来支持多个独立的网站同时运行，让每一个网站都可以分配到独立的IP地址，避免出现IP关联的风险，用户还可以通过控制面板进行管理功…...

编程新知 2025/6/17 5:04:55

三分算法与DeepSeek辅助证明是单峰函数

前置单峰函数有唯一的最大值，最大值左侧的数值严格单调递增，最大值右侧的数值严格单调递减。单谷函数有唯一的最小值，最小值左侧的数值严格单调递减，最小值右侧的数值严格单调递增。三分的本质三分和二分一样都是通过不断缩…...

编程新知 2025/7/6 4:31:52

Caliper 负载(Workload)详细解析

Caliper 负载(Workload)详细解析负载(Workload)是 Caliper 性能测试的核心部分，它定义了测试期间要执行的具体合约调用行为和交易模式。下面我将全面深入地讲解负载的各个方面。一、负载模块基本结构一个典型的负载模块(如 workload.js)包含以下基本结构： use strict;/…...

编程新知 2025/6/21 12:54:36

ubuntu22.04有线网络无法连接，图标也没了

今天突然无法有线网络无法连接任何设备，并且图标都没了错误案例往上一顿搜索，试了很多博客都不行，比如 Ubuntu22.04右上角网络图标消失最后解决的办法下载网卡驱动，重新安装操作步骤查看自己网卡的型号 lspci | gre…...

编程新知 2025/7/6 8:47:21

python打卡第47天

昨天代码中注意力热图的部分顺移至今天知识点回顾： 热力图作业：对比不同卷积层热图可视化的结果 def visualize_attention_map(model, test_loader, device, class_names, num_samples3):"""可视化模型的注意力热力图，展示模…...

编程新知 2025/7/5 8:22:25