【wespeaker】模型ECAPA_TDNN介绍
本次主要介绍开源项目wespeaker模型介绍
1. 模型超参数
model_args:
feat_dim: 80
embed_dim: 192
pooling_func: “ASTP”
projection_args:
project_type: “softmax” # add_margin, arc_margin, sphere, softmax
scale: 32.0
easy_margin: False
2. 模型结构
2.1 Layer1: input层
x:(B,F,T) F=80
将原始80维fbank特征进行映射;
x->conv->relu->bn->(B,F’,T) F’=512

进入下面的layer2-4
2.2 Layer2-4:核心空洞卷积层
Layer2和Layer3、Layer4相似,只有两个超参数不同。下面介绍Layer2的结构。
整体结构
x: (B,F,T) F=512
x -> block1~4 -> new_x
return x + new_x
block1
x:(B,F,T) F=512
x->conv->relu->bn->(B,F,T)
block2
x: (B,F,T) F=512
x分为8块->(B,F’,T) F’=64
x1~x7执行:
conv-relu->bn->(B,F’,T)
x8不变
x1~x8合并->(B,F,T) F=512
block3
x:(B,F,T) F=512
x->conv->relu->bn->(B,F,T)
block4
SE block,对F维进行缩放
x:(B,F,T) F=512
x对最后一个维度求mean->(B,F)
(B,F) -> Linear1->Relu->Linear2->(B,F)->sigmoid->unsqueeze->(B,F,1) 得到scale
x * scale ->(B,F,T)

上图中标红的部分分别为layer2/3/4的参数,其他均相同
2.3 pool:池化层
2.3.1前处理
out2、out3、out4按照dim=1进行拼接->(B,3*F,T) (F=512)
按照下图的卷积参数进行卷积->(B,3F,T)
ReLU->(B,3F,T)

然后进行下面的pool
2.3.2Attentive statistics pooling
x : (B,F,T) F=1536
对x在-1维度求mean,扩展为x维度;
对x在-1维度求std,扩展为x维度;
x拼接mean、std为(B,3*F,T) new_x
new_x->下图中的第一个卷积->tanh->下图中第二个卷积->(B,F,T) ->对最后一维度求softmax得到attention
attention * x ,最后一维度sum,得到mean;(B,F)
attention * x_2, 最后一维度sum - mean_2,得到std;(B,F)
拼接mean std->(B,2*F) 返回(B,3072)

2.3.3后处理(embed层)
x: (B,F) F=3072
x->bn-> (B,F) ->embed(下图的Linear)->(B,F’) F’=192

2.4 projection:映射层
根据具体的任务,将embed层映射为实际的分类;
x:(B,F) F=192
x->bn->relu->linear->(B,F’) F’=6

相关文章:
【wespeaker】模型ECAPA_TDNN介绍
本次主要介绍开源项目wespeaker模型介绍 1. 模型超参数 model_args: feat_dim: 80 embed_dim: 192 pooling_func: “ASTP” projection_args: project_type: “softmax” # add_margin, arc_margin, sphere, softmax scale: 32.0 easy_margin: False 2. 模型结构 2.1 Layer…...
GPT技术的广泛使用
GPT技术的广泛使用确实引发了一些关于其潜在影响的讨论,包括可能导致某些职业失业以及对一些互联网公司构成竞争压力的问题。然而,这个问题涉及到多个方面,而且不容易一概而论。 潜在影响: 自动化任务: GPT等自然语言…...
银河麒麟V10安装MySQL8.0.28并实现远程访问
参考资料: 银河麒麟V10安装MySQL8.0.28并实现远程访问-数据库运维技术服务 银河麒麟高级服务器操作系统V10安装mysql数据库_麒麟v10安装mysql-CSDN博客...
[AUTOSAR][诊断管理][ECU][$27] 安全访问
文章目录 一、简介$27服务有何作用,为什么要有27服务呢?功能描述应用场景安全解锁基本原理服务请求服务响应Verify Key负响应NRC支持二、常见Bug大揭秘三、示例代码uds27_security_access.c一、简介 $27服务有何作用,为什么要有27服务呢? 功能描述 根据ISO14119-1标准中…...
Android Studio编译旧的app代码错误及解决方法
‘android.injected.build.density’ is deprecated. The option ‘android.injected.build.density’ is deprecated. It was removed in version 8.0 of the Android Gradle plugin. Density property injection from Android Studio has been removed. 解决 app/build.gr…...
Docker的架构与自制镜像的发布
一. Docker 是什么 Docker与自动化测试及其测试实践 大家都知道虚拟机吧,windows 上装个 linux 虚拟机是大部分程序员的常用方案。公司生产环境大多也是虚拟机,虚拟机将物理硬件资源虚拟化,按需分配和使用,虚拟机使用起来和真实操…...
嵌入式系统中C++ 类的设计和实现分析
C代码提供了足够的灵活性,因此对于大部分工程师来说都很难把握。 本文介绍了写好C代码需要遵循的10个最佳实践,并在最后提供了一个工具可以帮助我们分析C代码的健壮度。 原文:10 Best practices to design and implement a C class。 1. 尽…...
【torch高级】一种新型的概率学语言pyro(02/2)
前文链接:【torch高级】一种新型的概率学语言pyro(01/2) 七、Pyro 中的推理 7.1 背景:变分推理 引言中的每项计算(后验分布、边际似然和后验预测分布)都需要执行积分,而这通常是不可能的或计算…...
Git基本概念与使用
一、Git基本概念 git,是一种分布式版本控制软件,与CVS、Subversion这类的集中式版本控制工具不同,它采用了分布式版本库的作法,不需要服务器端软件,就可以运作版本控制,使得源代码的发布和交流极其方便。g…...
Kubernetes数据卷Volume和数据卷分类(emptyDir、nfs、hostPath、ConfigMap)详解
Kubernetes数据卷Volume和数据卷分类详解 数据卷概述 Kubernetes Volume(数据卷)主要解决了如下两方面问题: 数据持久性:通常情况下,容器运行起来之后,写入到其文件系统的文件暂时性的。当容器崩溃后&am…...
【MATLAB源码-第59期】基于matlab的QPSK,16QAM164QAM等调制方式误码率对比,调制解调函数均是手动实现未调用内置函数。
操作环境: MATLAB 2022a 1、算法描述 正交幅度调制(QAM,Quadrature Amplitude Modulation)是一种在两个正交载波上进行幅度调制的调制方式。这两个载波通常是相位差为90度(π/2)的正弦波,因此…...
经典目标检测神经网络 - RCNN、SSD、YOLO
文章目录 1. 目标检测算法分类2. 区域卷积神经网络2.1 R-CNN2.2 Fast R-CNN2.3 Faster R-CNN2.4 Mask R-CNN2.5 速度和精度比较 3. 单发多框检测(SSD)4. YOLO 1. 目标检测算法分类 目标检测算法主要分两类:One-Stage与Two-Stage。One-Stage与…...
mysql存在10亿条数据,如何高效随机返回N条纪录,sql如何写
1 低效方案 1.使用ORDER BY RAND(): SELECT * FROM your_table ORDER BY RAND() LIMIT 1; 这将随机排序表中的所有行,并且通过LIMIT 1仅返回第一行,从而返回一个随机记录。然而,对于大型表来说,ORDER BY RAND()可能会…...
c语言中啥时候用double啥时候用float?
c语言中啥时候用double啥时候用float? 一般来说,可以使用double来表示具有更高精度要求的浮点数,因为它可以存储更大范围的数值并且具有更高的精度。 最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己从业十年…...
vscode 保存 “index.tsx“失败: 权限不足。选择 “以超级用户身份重试“ 以超级用户身份重试。
vscode 保存 "index.tsx"失败: 权限不足。选择 “以超级用户身份重试” 以超级用户身份重试。 操作:mac在文件夹中创建文件,sudo 创建umiJs项目 解决:修改文件夹权限 右键文件夹...
综合性练习
名片管理系统 综合性项目实现—详细请点这里 dict {} # 定义一个空字典,用于存储信息。 list [] # 定义一个列表,存储name值 list1 [] #存储age值 list2 [] #存储phone值 def people_tips(): #提示print("*****" * 10)print("…...
threejs(7)-精通粒子特效
一、初识Points与点材质 // 设置点材质 const pointsMaterial new THREE.PointsMaterial(); import * as THREE from "three"; // 导入轨道控制器 import { OrbitControls } from "three/examples/jsm/controls/OrbitControls"; // 导入动画库 import gsa…...
使用了百度OCR,记录一下
由于识别ocr有的频率不高,图片无保密性需求,也不想太大的库, 就决定还是用下api算了,试用了几家,决定用百度的ocr包,相对简单。 遇到的问题里面下列基本有提到:例如获取ID,KEY&…...
5.OsgEarth加载地形
愿你出走半生,归来仍是少年! 在三维场景中除了使用影像体现出地貌情况,还需要通过地形体现出地势起伏,还原一个相对真实的三维虚拟世界。 osgEarth可通过直接加载Dem数据进行场景内的地形构建。 1.数据准备 由于我也没有高程数据,…...
基于回溯搜索算法的无人机航迹规划-附代码
基于回溯搜索算法的无人机航迹规划 文章目录 基于回溯搜索算法的无人机航迹规划1.回溯搜索搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用回溯搜索算法来优化无人机航迹规划。 …...
中文语音识别工具实测:Fun-ASR识别准确率对比,效果令人惊喜
中文语音识别工具实测:Fun-ASR识别准确率对比,效果令人惊喜 1. 为什么选择Fun-ASR进行测试? 在当今语音识别技术百花齐放的市场中,Fun-ASR作为钉钉联合通义实验室推出的开源语音识别系统,凭借其本地化部署、中文优化…...
FlutterApp豆瓣电影模块:复杂列表与详情页性能优化全指南
FlutterApp豆瓣电影模块:复杂列表与详情页性能优化全指南 【免费下载链接】flutter_app 🔥🔥🔥本项目包括各种基本控件使用(Text、TextField、Icon、Image、Listview、Gridview、Picker、Stepper、Dialog、Slider、Row…...
Qwen-Image-Edit保姆级教程:3步搭建本地修图神器,隐私安全有保障
Qwen-Image-Edit保姆级教程:3步搭建本地修图神器,隐私安全有保障 想要一款既能保护隐私又能快速修图的AI工具?今天给大家介绍基于阿里通义千问Qwen-Image-Edit模型的本地化修图方案,无需联网、数据不出本地,3步就能搭…...
WTF, forms? CSS原理大揭秘:如何用纯CSS打造自定义表单控件
WTF, forms? CSS原理大揭秘:如何用纯CSS打造自定义表单控件 【免费下载链接】wtf-forms Friendlier HTML form controls with a little CSS magic. 项目地址: https://gitcode.com/gh_mirrors/wt/wtf-forms WTF, forms? 是一个通过纯CSS魔法打造友好HTML表…...
OpenClaw多模型对比:Qwen3-14b_int4_awq与开源小模型任务表现
OpenClaw多模型对比:Qwen3-14b_int4_awq与开源小模型任务表现 1. 测试背景与动机 最近在折腾OpenClaw自动化工作流时,发现一个关键问题:同样的任务脚本,换不同的大模型后端,执行效果差异巨大。为了找到最适合个人办公…...
SEO_资深运营揭秘,长期稳定排名的SEO策略介绍
SEO策略的核心要素:内容质量 在资深运营者的经验中,内容质量始终是SEO策略的核心要素。一个优质的网站,首先需要提供高质量、有价值的内容,这不仅能吸引用户,还能提升网站在搜索引擎中的排名。长期稳定的SEO排名离不开…...
IDToolsPico:Pico平台轻量级UUID与MAC生成库
1. IDToolsPico 库深度解析:面向嵌入式系统的 UUID 与 MAC 地址生成器 1.1 库定位与工程价值 IDToolsPico 是专为 Raspberry Pi Pico 平台设计的轻量级标识符生成库,核心目标是为资源受限的微控制器提供符合标准的、可重复使用的唯一设备标识能力。在物…...
SpringBoot 自动配置原理与实践
核心机制解析SpringBoot 的自动配置基于条件化装配思想,通过 Conditional 系列注解实现动态加载。spring-boot-autoconfigure 模块包含大量预定义配置类,例如 DataSourceAutoConfiguration 在检测到类路径存在 HikariCP 时自动初始化数据源。关键组件包括…...
模电学习难点解析与实战突破指南
1. 为什么模电让人如此头疼?作为一名在电子行业摸爬滚打多年的工程师,我完全理解大家学习模拟电路时的痛苦。记得我大学时第一次接触模电课,老师讲了三遍共射放大电路,我愣是没听懂。直到后来在实际项目中反复调试电路,…...
OpenClaw 太难装了?试试 LangTARS:一行命令部署 + WebUI 管理面板,还能接入 Dify/Coze/nn??
1. 什么是 Apache SeaTunnel? Apache SeaTunnel 是一个非常易于使用、高性能、支持实时流式和离线批处理的海量数据集成平台。它的目标是解决常见的数据集成问题,如数据源多样性、同步场景复杂性以及资源消耗高的问题。 核心特性 丰富的数据源支持&#…...
