当前位置：首页 > news >正文

Paraformer 语音识别原理

news 2026/1/9 11:00:10

在这里插入图片描述
Paraformer(Parallel Transformer)非自回归端到端语音系统需要解决两个问题：

准确预测输出序列长度，送入预测语音信号判断包含多少文字。如何从encoder 的输出中提取隐层表征，作为decoder的输入。

采用一个预测器（Predictor）来预测文字个数并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量

如何增强非自回归预测内部依赖的建模能力。

基于GLM的 Sampler模块来增强模型对上下文语义的建模

Paraformerr的组成：Encoder(编码器)，Predictor(预测器)，Sampler（采样器），Decoder（解码器），loss function。

Encoder(编码器)，把声学特征转变成固定维度的稠密向量.
Predictor(预测器)，预测文字个数𝑵^′,实现语音和文本对齐,并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量𝑬_𝒂。
Sampler（采样器），通过采样，将声学特征向量与目标文字向量变换成含有语义信息的特征向量，配合双向的Decoder来增强模型对于上下文的建模能力；采用Glangcing LM增强非自回归的上下文建模能力.
Decoder（解码器），把向量转变成目标文字

在这里插入图片描述

Encoder

采用SAN-M结构，对于语音建模来说，全局建模和局部建模都极为关键，所以标准的Self-attention层增加了局部建模模块Memory Block，从而增加Self-attention的局部建模能力。

Decoder

离线和流式系统采用不同结构。离线识别使用双向SAN-M，流式识别采用单向的SAN-M，并结合基于SCAMA的流式注意力机制来实现。SCAMA流式注意力机制原理如上图所示，首先针对语音特征进行分chunk操作，送入encoder建模后进入predictor分别预测每个chunk的输出token数目。Decoder在接受到token数目和隐层表征后，来基于SCAMA流式注意力机制预测每个chunk的输出。

Predictor

基于CIF来预测输出token的数目，并提取隐层表征作为decoder的输入。即将encoder预测输出送入函数，将每帧的预测输出转化为一个0-1之间的概率分布，连续给集合的概率得到一个域限门值 β，根据 β 输出一个token。
Continuous Integrate-and-Fire(CIF)来产生声学embedding。CIF是软单调对齐，被用来做流式语音识别。

训练的时候额外采用MAE Loss来使得预测的概率和等于整个输出的token数目。推理的时候采用门限值 β 为1，也就是累积到1的时候输出一个token，来预测整条语音的输出字数。

举例如下图， $\alpha$ 从左到右，0.3+0.5+0.3=1.1>1,于是fire一个token。 $E_{\alpha 1}=0.3*H1+0.5*H2+0.2*h3$ 。由于还剩0.1的值没有用，于是0.1用于下一个token计算。同理， $E_{\alpha 2}=0.1*H3+0.6*H4+0.3*H5$ , $E_{\alpha 3}=0.1*H5+0.9*H6$ 。 $E_{\alpha 4} =0.2*H7+0.6*H8$ . 共fire了4次，也就是4个 $E_\alpha$
。
在这里插入图片描述

Sampler

在这里插入图片描述

上图中展示了四种常见的建模方式：

第一个是自回归Decoder，即当前时刻依赖前一时刻的输出；
第二个是标准的单轮迭代的非自回归端到端Decoder，使用独立建模方式；
第三个是 MLM，它是多轮迭代非自回归常采用的方式，将某些时刻替换成mask，利用周边的token预测mask的位置，并通过多轮迭代的方式提升预测精度。
第四个是Paraformer采用的建模方式，通过GLM浏览语言模型对隐层表征和grand truth的label进行采样，预测隐层表征对应输出的token来提升token的内部建模能力，从而减少Paraformer中的替换错误。

假设输入 $(X, Y)$ , $X$ 表示语音，有 $T$ 帧， $Y$ 表示文字，有 $N$ 个文字。Encoder把输入 $X$ 映射到隐藏表示 $H$ 。然后Predictor把隐藏表示映射为预测的文字个数 $N^{'}$ 和对应的声学向量embedding $E_a$ 。输入 $E_a$ 和 $H$ 给Decoder，产生最后的预测 $Y^{'}$ ，这是第一次解码，主要为了得到预测的结果并通过Sampler模块来采样，这时梯度并不回传（其实代码里是可选择的）。Sampler 采样 $E_a$ 和目标 $E_c$ 来产生 $E_s$ ，需要依据 $Y^{'}$ 和 $Y$ 之间的距离。Decoder最后使用 $E_s$ 和 $H$ 来预测最终的结果 $Y^{''}$ ，这时才会回传梯度。最后， $Y^{''}$ 用来采样负例并计算MWER, 通过目标长度N和预测的 $N^{'}$ 来计算MAE。
推断时，Sampler模块可以去掉，只使用 $E_a$ 和 $H$ 来预测 $Y^{'}$ ，从而推理时并没有增加额外计算量。

loss

基于负样本采样的MWER训练准则。

https://zhuanlan.zhihu.com/p/649558283
https://zhuanlan.zhihu.com/p/637849790
https://arxiv.org/abs/2206.08317

Paraformer 语音识别原理

Encoder

Decoder

Predictor

Sampler

loss

相关文章：

Paraformer 语音识别原理

用户注册这样玩，保你平安

QXDM Filter使用指南

智能优化算法应用：基于蝴蝶算法无线传感器网络(WSN)覆盖优化 - 附代码

3dsMax插件Datasmith Exporter安装使用方法

Rocketmq架构

中兴亮相中国国际现代化铁路技术装备展览会筑智铁路5G同行

从零学算法15

《Effective C++》条款27

无图谱不AI之三元组数据保存Neo4j

Mybatisplus同时向两张表里插入数据[事务的一致性]

天眼销：精准的企业名录

TypeError: Cannot read properties of null (reading ‘shapeFlag‘)

视频监控平台EasyCVR多场景应用，AI视频分析技术助力行业升级转型

如何搭建外网可访问的Serv-U FTP服务器，轻松远程共享文件！

c++--类型的基础

Python with提前退出：坑与解决方案

Vue3-provide和inject

Python与设计模式--适配器模式

大模型能否生成搜索引擎的未来？

Spark 之入门讲解详细版（1）

postgresql|数据库|只读用户的创建和删除（备忘）

Nuxt.js 中的路由配置详解

【Go】3、Go语言进阶与依赖管理

JDK 17 新特性

Redis数据倾斜问题解决

LeetCode - 199. 二叉树的右视图

Spring是如何解决Bean的循环依赖：三级缓存机制

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

嵌入式学习笔记DAY33（网络编程——TCP）