为什么我们能判断声音的远近
想象一下,当我们走在路上时,听到了头顶的鸟儿在树梢间的叫声,即使无法透过浓密的树叶看见它,也可以大致知道鸟儿的距离。此时身后传来由远到近自行车铃铛声,我们并不需要回过头去看,便为它让开了道路。这些现象都说明了在不依靠视觉的情况下,我们的耳朵和大脑仅从声音中也可以感知到声源的距离。为了实现这一功能,声音中必然包含着某些信息或者线索来协助我们判断距离。
通常来说,人类对于距离的感知是非常不准确的。大约以一米处为分界点,当小于这个距离时,人对声源的感知距离往往高于实际距离,而当声源与人的距离大于一米时,声音的距离是被低估的。
平均估计距离(实验人数n=5)作为物理声源距离的函数,试验结果可以被一个指数为0.45、乘法常数为1.17的压缩幂函数很好地近似【1】.
从图上可以看到,只有在距离人较近的位置,听觉系统的距离感知才是可靠的。当声源远离人时,距离感知仿佛被“压缩”了。比如,当一个声源距离我们十米时,我们很难仅通过声音来判断出一个相对准确的距离。此时的声音给我们的听觉刺激,与声源位于八米或者十二米时的很相近。
影响距离感知的听觉线索
一个音频中,有多种声学线索可以用于感知听者和声源之间的距离。在这个章节中,总结了一些公认的可以影响距离感知的线索。
声压级 (SPL)
声压级是声音的压力级,以分贝(dB) 为单位。长久以来声压级一直被当做距离感知中主要的声学线索,这是因为大多数情况下它都被认为是一种可以使用的提示。在理想环境下(在自由场中放置的固定声功率的声源),声源和接收者之间的声压级和距离之间的关系以平方反比定律为特征,声源距离每增加一倍,声压级就会下降约6 dB。利用这个特征,我们的大脑会根据听到的声音大小来估计距离。
有趣的是,根据研究,声源的类型(如噪声和语音)以及角度位置(如声源正对着听众或者成90度)对我们使用声压级作为距离线索的权重也有很大影响【2】。也就是说,在不同的情境下,我们可能更依赖或者更不依赖声压级来感知距离。
直达声与混响声能量之比 (DRR)
在室内环境中,声音源发出的声波可以直接传播到我们的耳朵(直达声),也可以在墙壁、天花板和地板等表面反射后到达我们的耳朵(混响声)。DRR是指到达我们耳朵的直达声能量与混响声能量之比。这里存在着一个问题,就是对直达声的能量应该如何来定义。一般来说,直达声能量是指从直达声的峰值开始,到之后一段时间内的声能之和。而对于直达声的时长,不同的学者会使用不同的的数值,其长度可以从1.5 ms【3】 到8 ms【4】。混响声能量则是从直达声结束后到脉冲响应结束之间所有的声能量。
一个房间中的脉冲响应,红色箭头处代表直达声峰值,蓝色的框代表着直达声能量的计算范围。
混响声的存在会不利于人们对于声源的方向的定位【5】,但是却对距离的感知有帮助【6】,这是因为DRR在其中提供了一些信息。由于混响声在空间内的分布特性,其能量会在整个空间内相对均匀。这意味着,当我们在一个空间内改变声源与接收点的距离时,对混响声的影响相对较小。然而,直达声的能量随着距离的增加呈指数式衰减,因此,对于处于较远离声源的接收点,其混响声相对于直达声的比例更大,这使得DRR在空间内随着听众与声源之间的距离的增加而减小,通过这一变化我们可以大概判断声源的距离。
频谱(spectrum)
在音频和信号处理领域,频谱表示一个信号或声音在频率域上的分布情况。通过对信号进行频谱分析,可以了解信号中各个频率成分的相对强度。当声音在空气中传播时,较高频率的声音成分比频率较低的衰减更大,从而改变了频谱形状。需要注意的是,频谱可以用于当听众距离声源超过15米的情况下【7】,而在15米之内时,频谱线索不提供距离信息,因为声音传播的距离不足以在较高频率下损失掉令人类可察觉的能量,并且头部周围衍射提供的低频线索太小而无法检测到【8】。
图a为相同角度测量得到的2米和8米处的房间脉冲响应的频谱,图b为2米与8米频谱相减得到的差值以及线性拟合曲线,可以看到随着频率的增加,频谱差略微增大。
双耳提示(binaural cues)
双耳差异是我们在定位声源时使用的一种关键线索,包括双耳声级差(interaural level difference, 简称ILD),双耳声音到达时间差(interaural time difference, 简称ILD)以及头部相关传递函数(HRTF)。它们的存在有助于我们确定声源的方向和距离。
当声源在距离听众不远的地方时,两耳之间的声级差异较大。当声源距离头部一米以内时,如果这个声源位于头部的两侧,声源的距离变化会导致ILD变化高达20分贝,但是,如果声源位于听众的正前方,此时由于声源到左耳和右耳的路径对称,ILD的数值很小,因此无法提供距离信息【9】。如果声源和听众的距离超过一米,ILD变得大致独立于源距离【10】。而对于ITD来说,它在接近听众时随着声源距离而变化的程度不如ILD剧烈,因此对距离判断的贡献较小。
HRTF视差(parallax)是指由于听者的耳朵和声源之间的距离差异而导致的HRTF变化,它也可用于确定到离听众相对较近的声源的距离。当声音相对靠近头部时,就会发生声学视差,导致声源相对于左耳的角度与声源相对于右耳的角度之间存在差异。对于位于听众前方的声源来说,它在较近的位置处会产生更大的视差角,因此HRTF视差可以解释听众在没有ILD和ITD线索的情况下,也能够在声源较近时分辨出它与自己的距离【11】。
总结
在本文中,我们探讨了双耳听觉在距离感知方面的重要性。并详细介绍了四个关键参数——声压级、直达声与混响声能量之比、频谱和双耳差异对距离感知的影响。其中声压级和DRR在任何距离都适用,而频谱仅在声源与听众距离较远时能够帮助判断距离,双耳差异则是需要在声源十分接近听众时才能对距离判断有贡献,因此频谱和双耳差异的适用范围不如声压级和DRR。
当然除了上面四个参数,还有其他线索也可以帮助我们判断距离,比如动态线索,声源的熟悉度等等。了解这些参数对听觉中距离感知的影响,有助于我们深入理解人类的听觉系统是如何在复杂的声学环境中解析空间信息的。在未来,这些知识将为改善助听设备、设计更自然的虚拟现实音频系统以及优化音响设计等方面提供有力支持。
作者简介:郭智涵,DTU声学专业在读硕士,主要兴趣方向为心理声学、听觉化等。
Linkedin:https://www.linkedin.com/in/zhihan-guo-91272a19b/
参考链接
【1】Zahorik, P., & Wightman, F. L. (2001). Loudness constancy with varying sound source distance. Nature neuroscience, 4(1), 78-83.
【2】Zahorik, P. (2002). Assessing auditory distance perception using virtual acoustics. The Journal of the Acoustical Society of America, 111(4), 1832-1846.
【3】Werner, S., & Liebetrau, J. (2014, September). Adjustment of direct-to-reverberant-energy-ratio and the just-noticable-difference. In 2014 Sixth International Workshop on Quality of Multimedia Experience (QoMEX) (pp. 1-3). IEEE.
【4】Xiong, F., Goetze, S., Kollmeier, B., & Meyer, B. T. (2018). Joint estimation of reverberation time and early-to-late reverberation ratio from single-channel speech signals. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27(2), 255-267.
【5】Hartmann, W. M. (1983). Localization of sound in rooms. The Journal of the Acoustical Society of America, 74(5), 1380-1391.
【6】Bronkhorst, A. W., & Houtgast, T. (1999). Auditory distance perception in rooms. Nature, 397(6719), 517-520.
【7】Blauert, J. (1997). Spatial hearing: the psychophysics of human sound localization. MIT press.
【8】Kolarik, A. J., Moore, B. C., Zahorik, P., Cirstea, S., & Pardhan, S. (2016). Auditory distance perception in humans: a review of cues, development, neuronal bases, and effects of sensory loss. Attention, Perception, & Psychophysics, 78, 373-395.
【9】Hartley, R. V. L., & Fry, T. C. (1921). The Binaural Location of Pure Tones. Physical Review, 18(6), 431.
【10】Brungart, D. S., Durlach, N. I., & Rabinowitz, W. M. (1999). Auditory localization of nearby sources. II. Localization of a broadband source. The Journal of the Acoustical Society of America, 106(4), 1956-1968.
【11】Ashmead, D. H., Leroy, D., & Odom, R. D. (1990). Perception of the relative distances of nearby sound sources. Perception & psychophysics, 47, 326-331.
封面来源:https://theheadphonelist.com/ces-2015-detour-3d-audio-headphones-fraunhofer-3d-sound-labs/fig_binaural_sound/
相关文章:

为什么我们能判断声音的远近
想象一下,当我们走在路上时,听到了头顶的鸟儿在树梢间的叫声,即使无法透过浓密的树叶看见它,也可以大致知道鸟儿的距离。此时身后传来由远到近自行车铃铛声,我们并不需要回过头去看,便为它让开了道路。这些…...

那些关于DIP器件不得不说的坑
了解什么是DIP DIP就是插件,采用这种封装方式的芯片有两排引脚,可以直接焊在有DIP结构的芯片插座上或焊在有相同焊孔数的焊位中。其特点是可以很方便地实现PCB板的穿孔焊接,和主板有很好的兼容性,但是由于其封装面积和厚度都比较…...

论文笔记:基于U-Net深度学习网络的地震数据断层检测
0 论文简介 论文:基于U-Net深度学习网络的地震数据断层检测 发表:2021年发表在石油地球物理勘探 1 问题分析和主要解决思路 问题:断层智能识别,就是如何利用人工智能技术识别出断层。 解决思路:结合U-N…...

kafka单节点快速搭建
1.搭建使用centos7主机,关闭防火墙和selinux服务 2.创建kafka存放目录 mkdir /etc/kafka 3.从kafka官网下载安装包 我这里下载了3.3.1版本的kafka,放到kafka目录中 下载地址:Apache Kafka 4.解压安装包并更改名称 tar -zxvf /etc/kaf…...
【MySQL】(6)常用函数
文章目录 日期函数获取日期日期计算 字符串函数charsetconcatlengthsubstringreplaceinstrstrcmpltrim, rtrim, trim 数学函数absbin, hexconvceiling, floorrandformatmod 其他函数user() 查询当前用户密码加密md5()password() database() 查看当前数据库ifnull() 日期函数 函…...
Linux学习 Day1
注意: 以下内容均为本人初学阶段学习的内容记录,所以不要指望当成查漏补缺的字典使用。 目录 1. ls指令 2. pwd指令 3. cd指令 4. touch指令 5. mkdir指令(重要) 6. rmdir指令 && rm 指令(重要ÿ…...
Hibernate中的一对多和多对多关系
Hibernate的一对多和多对多 Hibernate是一个优秀的ORM框架,它简化了Java应用程序与关系型数据库之间的数据访问。在Hibernate中,我们可以使用一对多和多对多的关系来处理复杂的数据模型。本文将介绍Hibernate中的一对多和多对多,包括配置和操…...

Linux系统之部署Samba服务
Linux系统之部署Samba服务 一、Samba服务介绍1.Samba服务简介2.NFS和CIFS简介3.Smaba服务相关包4.samba监听端口4.samba相关工具及命令 二、环境规划介绍1.环境规划2.本次实践介绍 三、Samba服务端配置1.检查yum仓库2.安装smaba相关软件包3.创建共享目录4.设置共享目录权限5.新…...
回顾产业互联网的发展历程,技术的支撑是必不可少的
从以新零售、全真互联网为代表的产业互联网的概念诞生的那一天开始,互联网的玩家们就一直都在寻找着它们的下一站。尽管在这个过程当中,遭遇到了很多的困难,走过了很多的弯路,但是,产业互联网的大方向,却始…...
关于gas费优化问题
关于gas费优化问题 首先我们先来看一下这段代码 // SPDX-License-Identifier: MIT pragma solidity ^0.8.0; contract GasGolf{uint public total;//[1,2,3,4,5,100]function sum(uint[] memory nums) external{for(uint i 0;i<nums.length;i1){bool isEven nums[i] % 2…...

Linux——中断和时间管理(中)
目录 驱动中的中断处理 中断下半部 软中断 tasklet 工作队列 驱动中的中断处理 通过上一节的分析不难发现,要在驱动中支持中断,则需要构造一个 struct irqaction的结构对象,并根据IRQ 号加入到对应的链表中(因为 irq_des 已经在内核初始…...

嵌入式软件中常见的 8 种数据结构详解
目录 第一:数组 1、数组的应用 第二:链表 1、链表操作 2、链表的应用 第三:堆栈 1、堆栈操作 2、堆栈的应用 第四:队列 1、队列操作 2、队列的应用 第五:哈希表 1、哈希函数 2、哈希表的应用 第六&#…...
vue 修改当前路由参数并刷新界面
项目中经常用到的需求是在当前页面修改路由中的参数,并刷新页面。 我们只用this. r o u t e r . r e p l a c e 或者 t h i s . router.replace或者this. router.replace或者this.router.go是不行的,需配合下面的代码 方法一: this.$router.…...
视频处理之视频抽帧的python脚本
在计算机视觉研究中,处理视频的时候,往往需要将视频抽帧成图片。如果多个视频都存放在一个文件夹里,并且希望抽帧出来的图片,以一个视频对应一个文件夹的形式存放,可以用以下代码,抽帧频率可自己手动修改&a…...

【youcans 的 OpenCV 学习课】22. Haar 级联分类器
专栏地址:『youcans 的图像处理学习课』 文章目录:『youcans 的图像处理学习课 - 总目录』 【youcans 的 OpenCV 学习课】22. Haar 级联分类器 3. Haar 特征及其加速计算3.1 Haar 特征3.2 Haar 特征值的计算3.3 积分图像3.4 基于积分图像加速计算 Haar 特…...
如何避免知识盲区 《人生处处是修行》 读书笔记
如何避免知识盲区 多元化学习:不要只关注自己擅长的领域,应该尝试学习其他领域的知识,例如文学、艺术、科学等。 拓宽阅读:阅读不同领域的书籍、文章、博客等,可以帮助你了解更多的知识和观点。 参加培训和课程&…...
vue返回上一页自动刷新方式
再vue中,返回上一页时:如果页面是打开的状态,页面不会自动刷新,会保持着上次跳转的状态不更新; 原因:vue-router的切换不同于传统的页面切换,而是路由之间的切换,其实就是组件之间的…...
查询SERVER正在执行的SQL语句
--方法一 select * from master..sysprocesses SELECT distinct [Spid] session_Id, ecid, [Database] DB_NAME(sp.dbid), [User] nt_username, [Status] er.status, [Wait] wait_type, [Individual Query] SUBSTRING(qt.text, er.statement_start_offset / 2,…...
现代密码学--结课论文---《70年代公钥传奇》
摘要:在70年代之前,密码学主要被军方用于通信保护。密码学的主要研究也是由情报机构(GCHQ、NSA等)或IBM等企业运营的获得许可的实验室中进行。这时公众几乎无法获得密码学知识,直到由三位密码学家Hellman、Diffie和Mer…...
cf1348B phoenix and beauty(双指针滑动窗口的构造)
C 题面 Problem - 1348B - Codeforces 输出标准输出 凤凰网喜欢美丽的数组。如果一个数组中所有长度为k的子数组 的子数都有相同的总和,那么这个数组就是美丽的。一个数组的子数组是任何连续元素的序列。 凤凰网目前有一个数组a 的长度为n . 他想在他的数组中插入…...

从零实现STL哈希容器:unordered_map/unordered_set封装详解
本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说,直接开始吧! 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

均衡后的SNRSINR
本文主要摘自参考文献中的前两篇,相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程,其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt 根发送天线, n r n_r nr 根接收天线的 MIMO 系…...

七、数据库的完整性
七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

排序算法总结(C++)
目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指:同样大小的样本 **(同样大小的数据)**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...

Python Ovito统计金刚石结构数量
大家好,我是小马老师。 本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构,但是无法直接输出结构的变化情况。 本文使用python调用ovito包的方法,可以持续统计各步的金刚石结构,具体代码如下: from ovito…...
C++.OpenGL (20/64)混合(Blending)
混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 定向转发机制
目录 节点的功能承载层(GATT/Adv)局限性: 拓扑关系定向转发机制定向转发意义 CG 节点的功能 节点的功能由节点支持的特性和功能决定。所有节点都能够发送和接收网格消息。节点还可以选择支持一个或多个附加功能,如 Configuration …...

windows系统MySQL安装文档
概览:本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容,为学习者提供全面的操作指导。关键要点包括: 解压 :下载完成后解压压缩包,得到MySQL 8.…...

mac:大模型系列测试
0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…...
xmind转换为markdown
文章目录 解锁思维导图新姿势:将XMind转为结构化Markdown 一、认识Xmind结构二、核心转换流程详解1.解压XMind文件(ZIP处理)2.解析JSON数据结构3:递归转换树形结构4:Markdown层级生成逻辑 三、完整代码 解锁思维导图新…...