当前位置：首页 > news >正文

【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

news 2026/2/10 18:43:47

模型亮点

模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳：
- ASR模型：Parformer-large模型结构为非自回归语音识别模型，多个中文公开数据集上取得SOTA效果，可快速地基于ModelScope对模型进行微调定制和推理。
- 热词版本：Paraformer-large热词版模型支持热词定制功能，基于提供的热词列表进行激励增强，提升热词的召回率和准确率。

FunASR介绍

GitHub源码地址: https://github.com/alibaba-damo-academy/FunASR

FunASR是由阿里巴巴通义实验室语音团队开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了社区软件包。支持以下几种服务部署：

中文离线文件转写服务（CPU版本），已完成
中文流式语音识别服务（CPU版本），已完成
英文离线文件转写服务（CPU版本），已完成
中文离线文件转写服务（GPU版本），进行中
更多支持中

中文离线文件转写服务（CPU版本）

中文语音离线文件服务部署（CPU版本），拥有完整的语音识别链路，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。

模型下载

模型介绍: https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx/summary
模型下载

# 安装git&git-lfs
yum install git
yum install git-lfs
git lfs installgit clone https://www.modelscope.cn/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx.git

拉取镜像并推送到私有harbor

# 从公网拉取镜像
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.3.0
# 公有镜像重新打个私有tag
docker tag registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.3.0 harbor.xxx.com:443/base/funasr:funasr-runtime-sdk-cpu-0.3.0
# 推送到私有harbor
docker push harbor.xxx.com:443/base/funasr:funasr-runtime-sdk-cpu-0.3.0

Docker运行

# 创建挂载目录
mkdir -p funasr-runtime-resources/models
# 如果已安装docker，忽略本步骤
docker run -d -p 10096:10096 -it --privileged=true \-v $PWD/funasr-runtime-resources/models:/workspace/models -v $PWD/funasr-runtime-resources/models/run_server.sh:/workspace/FunASR/runtime/run_server.sh \harbor.xxx.com:443/base/funasr:funasr-runtime-sdk-cpu-0.3.0# 把一步命令返回的container_id放到下面命令中
docker exec -it <container_id> bash

服务端启动

docker启动之后，启动 funasr-wss-server服务程序：

cd FunASR/runtime
# 会在./funasr-runtime-resources/damo目录下下载模型文件
nohup bash run_server.sh \--download-model-dir /workspace/models \--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \--model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx  \--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \--itn-dir thuduj12/fst_itn_zh \--hotword /workspace/models/hotwords.txt > log.out 2>&1 &
tail -fn200 log.out

run_server.sh命令参数介绍

--download-model-dir 模型下载地址，通过设置model ID从Modelscope下载模型
--model-dir  modelscope model ID 或者 本地模型路径
--quantize  True为量化ASR模型，False为非量化ASR模型，默认是True
--vad-dir  modelscope model ID 或者 本地模型路径
--vad-quant   True为量化VAD模型，False为非量化VAD模型，默认是True
--punc-dir  modelscope model ID 或者 本地模型路径
--punc-quant   True为量化PUNC模型，False为非量化PUNC模型，默认是True
--lm-dir modelscope model ID 或者 本地模型路径
--itn-dir modelscope model ID 或者 本地模型路径
--port  服务端监听的端口号，默认为 10095
--decoder-thread-num  服务端线程池个数(支持的最大并发路数)，脚本会根据服务器线程数自动配置decoder-thread-num、io-thread-num
--io-thread-num  服务端启动的IO线程数
--model-thread-num  每路识别的内部线程数(控制ONNX模型的并行)，默认为 1，其中建议 decoder-thread-num*model-thread-num 等于总线程数
--certfile  ssl的证书文件，默认为：../../../ssl_key/server.crt，如果需要关闭ssl，参数设置为0
--keyfile   ssl的密钥文件，默认为：../../../ssl_key/server.key
--hotword   热词文件路径，每行一个热词，格式：热词 权重(例如:阿里巴巴 20)，如果客户端提供热词，则与客户端提供的热词合并一起使用，服务端热词全局生效，客户端热词只针对对应客户端生效。

客户端测试与使用

下载客户端测试工具

cd funasr-runtime-resources
curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz
# 解压
tar -zxvf funasr_samples.tar.gz cd samples/python
python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "../audio/asr_example.wav"

使用nginx搭建web访问

把funasr-runtime-resources/samples/html下的static目录重命名为asr
在nginx已有域名转发下添加如下配置：

server {listen       80;server_name  xxx.com;location /asr {root /home/funasr-runtime-resources/samples/html;index index.html;}
}

在这里插入图片描述

【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

模型亮点模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorchParaformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳： ASR模型…...

编程日记 2023/12/16 6:31:13

C语言中的柔性数组

uint8_t data[0];代码的含义老虎开始对这个数组不太了解，查阅后得知这是个柔性数组。 C语言中的柔性数组（Flexible Array Member）是一种特殊的数组，它被定义在结构体的最后一个元素中，其大小未知，也就是所…...

编程日记 2023/12/16 6:30:12

ca-certificates.crt解析加载到nssdb中

openssl crl2pkcs7 -nocrl -certfile /etc/ssl/certs/ca-certificates.crt | openssl pkcs7 -print_certs -noout -text ca-certificates.crt为操作系统根证书列表。获取证书以后使用PK11_ImportDERCert将证书导入到nssdb中 base::FilePath cert_path base::FilePath("…...

编程日记 2023/12/16 6:29:11

聊聊Java中的常用类String

String、StringBuffer、StringBuilder 的区别从可变性分析 String不可变。StringBuffer、StringBuilder都继承自AbstractStringBuilder ，两者的底层的数组value并没有使用private和final修饰，所以是可变的。 AbstractStringBuilder 源码如下所示 ab…...

编程日记 2023/12/16 6:27:10

R语言piecewiseSEM结构方程模型在生态环境领域实践技术

结构方程模型（Sructural Equation Modeling，SEM）可分析系统内变量间的相互关系，并通过图形化方式清晰展示系统中多变量因果关系网，具有强大的数据分析功能和广泛的适用性，是近年来生态、进化、环境、地学、…...

编程日记 2023/12/16 6:26:09

IDEA设置查看JDK源码

问题我们在查看JDK源码时，可能会遇到这种情况，步入底层查看JDK源码时，出现一堆var变量，可读性非常之差，例如笔者最近想看到nio包下的SocketChannelImpl的write方法，结果看到这样一番景象： pu…...

编程日记 2023/12/16 6:25:08

SSM—Mybatis

目录和其它持久化层技术对比搭建MyBatis 开发环境创建maven工程创建MyBatis的核心配置文件创建mapper接口创建MyBatis的映射文件通过junit测试功能加入log4j日志功能核心配置文件详解 MyBatis的增删改查新增删除修改查询一个实体类对象查询list集…...

编程日记 2023/12/16 6:24:08

MYSQL在不删除数据的情况下，重置主键自增id

MYSQL在不删除数据的情况下，重置主键自增id 方法一： SET num : 0; UPDATE table_name SET id num : (num1); ALTER TABLE table_name AUTO_INCREMENT 1; 方法二： 背景(mysql 数据在进行多次删除新增之后id变得很大，但是并没…...

编程日记 2023/12/16 6:23:07

SpringMVC-servlet交互

servlet交互 1.1 引入servlet依赖 <dependency><groupId>javax.servlet</groupId><artifactId>javax.servlet-api</artifactId><version>4.0.1</version><scope>provided</scope></dependency>1.2 创建testservl…...

编程日记 2023/12/16 6:21:05

DICOM 文件中，VR，VL，SQ，图像二进制的几个注意点

DICOM 文件的结构，在网上有很多的学习资料，这里只介绍些容易混淆的概念，作为回看笔记。 1. 传输语法每个传输语法，起都是表达的三个概念：大小端、显隐式、压缩算法 DICOM Implicit VR Little Endian: 1.2.840.1000…...

编程日记 2023/12/16 6:20:04

git 的使用

git reset详解-CSDN博客 git reset 命令详解 git revert命令详解。-CSDN博客关于Git分支中HEAD和Master的理解 - 知乎 (zhihu.com) 一文带你精通 Git（Git 安装与使用、Git 命令精讲、项目的推送与克隆）-CSDN博客 Git 常用操作（5&#xff…...

编程日记 2023/12/16 6:18:02

详解—【C++】lambda表达式

目录前言一、lambda表达式二、lambda表达式语法 2.1. lambda表达式各部分说明 2.2. 捕获列表说明三、函数对象与lambda表达式前言在C98中，如果想要对一个数据集合中的元素进行排序，可以使用std::sort方法。 #include <algorithm> #i…...

编程日记 2023/12/16 6:17:02

Qt Desktop Widgets 控件绘图原理逐步分析拆解

Qt 是目前C语言首选的框架库。之所以称为框架库而不单单是GUI库，是因为Qt提供了远远超过GUI的功能封装，即使不使用GUI的后台服务，也可以用Qt大大提高跨平台的能力。仅就界面来说，Qt 保持各个平台绘图等效果的统一，并…...

编程日记 2023/12/16 6:15:00

什么是rocketmq❓

在大规模分布式系统中，各个服务之间的通信是至关重要的，而RocketMQ作为一款分布式消息中间件，为解决这一问题提供了强大的解决方案。本文将深入探讨RocketMQ的基本概念、用途，以及在实际分布式系统中的作用，并对Produc…...

编程日记 2023/12/16 6:13:59

【网络安全】HTTP Slowloris攻击原理解析

文章目录 Slowloris攻击的概念Slowloris攻击原理Slowloris攻击的步骤其他的DDoS攻击类型UDP FloodICMP (Ping) FloodSYN FloodPing of DeathNTP AmplificationHTTP FloodZero-day DDoS 攻击推荐阅读 Slowloris攻击的概念 Slowloris是在2009年由著名Web安全专家RSnake提出的一…...

编程日记 2023/12/16 6:12:58

从最近爆火的ChatGPT，我看到了电商的下一个形态

爆火的ChatGPT似乎让每个行业有了改造的可能性，电商行业也不例外。在讨论了很多流量红利消失的话题后，我们看到互联网电商行业不再性感，从淘宝天猫，京东，到拼多多，再到抖音，快手，电…...

编程日记 2023/12/16 6:11:57

云原生向量计算引擎 PieCloudVector：为大模型提供独特记忆

拓数派大模型数据计算系统（PieDataComputingSystem，缩写：πDataCS）在10月24日程序员节「大模型数据计算系统」2023拓数派年度技术论坛正式发布。πDataCS 以云原生技术重构数据存储和计算，「一份存储，多引擎…...

编程日记 2023/12/16 6:10:57

大创项目推荐深度学习 opencv python 实现中国交通标志识别

文章目录 0 前言1 yolov5实现中国交通标志检测2.算法原理2.1 算法简介2.2网络架构2.3 关键代码 3 数据集处理3.1 VOC格式介绍3.2 将中国交通标志检测数据集CCTSDB数据转换成VOC数据格式3.3 手动标注数据集 4 模型训练5 实现效果5.1 视频效果 6 最后 0 前言 🔥 优质…...

编程日记 2023/12/16 6:08:55

深度学习实战67-基于Stable-diffusion的图像生成应用模型的搭建，在Kaggle平台的搭建部署，解决本地没有算力资源问题

大家好，我是微学AI，今天给大家介绍一下深度学习实战67-基于Stable-diffusion的图像生成应用模型的搭建，在Kaggle平台的搭建部署，解决本地没有算力资源问题。稳定扩散模型（Stable Diffusion Model）是一种用于图像增强和去噪的计算机视觉算法。它通过对输入图像进行扩散过程…...

编程日记 2023/12/16 6:07:55

云原生之深入解析Kubernetes本地持久化存储方案OpenEBS LocalPV的最佳实践

一、K8s 本地存储 K8s 支持多达 20 种类型的持久化存储，如常见的 CephFS 、Glusterfs 等，不过这些大都是分布式存储，随着社区的发展，越来越多的用户期望将 K8s 集群中工作节点上挂载的数据盘利用起来，于是就有了 loca…...

编程日记 2023/12/16 6:06:54

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/9 2:42:51

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章传送阵>> 点我查看说明：假设每台服务器已…...

编程新知 2026/2/10 11:45:58

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/10 1:20:48

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2026/2/9 6:48:28

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2026/2/10 13:18:55

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/10/17 21:16:57

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上，看到基于小智 AI DIY 玩具的演示，感觉有点意思，想着自己也来试试。如果只是想烧录现成的固件，乐鑫官方除了提供了 Windows 版本的 Flash 下载工具之外，还提供了基于网页版的 ESP LA…...

编程新知 2026/2/3 8:13:35

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

AI编程插件对比分析：CodeRider、GitHub Copilot及其他随着人工智能技术的快速发展，AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者，分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

编程新知 2026/2/9 2:15:44