当前位置: 首页 > article >正文

FunASR:几行代码搞定语音识别全流程的开源工具包,GitHub已获15.2k Star!

导读语音识别ASR是人工智能落地最广泛的方向之一但学术界的前沿模型与工业界的实际部署之间一直存在距离。阿里达摩院开源的FunASR正是为弥合这一差距而生。它提供基于大规模工业语料训练的预训练模型支持训练、微调和服务部署覆盖语音识别、语音活动检测、标点恢复、说话人分离、情感识别等任务。项目自 2023 年开源以来持续更新除自研的 Paraformer 系列外还集成了通义实验室的 Fun-ASR-Nano支持中文 7 种方言和 26 种地方口音、SenseVoice 等外部模型目前在 GitHub 上已获得 15.2k Star。本文将从项目定位、模型体系、使用方式和服务部署几个方面对 FunASR 做一个全面的介绍。一、FunASR 是什么图片来源于原论文FunASRFundamental ASR是一个基于 PyTorch 的端到端语音识别工具包由阿里达摩院语音实验室开发并开源。项目的核心目标有两个提供工业级预训练模型在 ModelScope 和 Hugging Face 上发布多个基于工业数据训练的模型涵盖语音识别、语音活动检测、标点恢复、情感识别等任务用户可以直接调用。打通训练到部署的全链路FunASR 不仅支持模型推理还提供从零训练的学术流水线和面向工业场景的微调脚本并提供 Docker 化的服务部署方案包括实时流式转录和离线文件转录直接对接生产环境需求。FunASR 的核心价值在于工具包能力——统一的AutoModel接口、灵活的模型组合、一键服务部署。它不仅提供自研模型Paraformer 系列还集成了来自其他团队的模型如通义实验室的 SenseVoice 和 Fun-ASR-Nano、OpenAI 的 Whisper、阿里云的 Qwen-Audio 等让开发者用几行代码就能完成从一段音频到一段带标点、带时间戳、带说话人标签的文字的全过程。二、核心模型一览FunASR 的模型库覆盖了语音处理的多个环节。需要说明的是FunASR 作为工具包既包含达摩院自研的模型也集成了其他团队的模型以下按来源分类列出达摩院自研模型图片来源于原论文模型名称语言参数量特点Paraformer-zh中文220M6 万小时中文数据训练支持时间戳非流式Paraformer-zh-streaming中文220MParaformer 的流式版本Paraformer-en英文220M5 万小时英文数据训练非流式Conformer-en英文220M5 万小时英文数据训练非流式Paraformer 是 FunASR 的自研核心模型发表于 INTERSPEECH 2022/2023。它是一个单步非自回归NAR模型相比自回归模型实现了 12 倍推理加速。在 AISHELL test 上 CER 为 1.95%。需要注意的是随着领域的快速发展Paraformer 在中文识别精度上已不是最新 SOTA如 FireRedASR 在 AISHELL-1 上 CER 已达 0.57%但 FunASR 的优势在于工具包层面的模型组合和部署能力。集成的外部模型模型名称来源语言参数量特点Fun-ASR-Nano通义实验室中/英/日800M数千万小时数据训练支持 7 种方言、26 种口音支持歌词与说唱识别SenseVoiceSmall通义实验室中/粤/英/日/韩234M40 万小时数据同时支持语种识别、情感识别、音频事件检测非自回归端到端架构处理 10 秒音频仅需 70msWhisper-large-v3OpenAI多语言1550M多语言语音识别带时间戳Whisper-large-v3-turboOpenAI多语言809M多语言语音识别带时间戳Qwen-Audio阿里云 Qwen 团队多语言8B音频-文本多模态预训练Qwen-Audio-Chat阿里云 Qwen 团队多语言8B音频-文本多模态对话这些模型由各自团队开发和维护FunASR 通过统一的AutoModel接口将它们集成在一起用户切换模型只需更改model参数。辅助任务模型模型名称任务参数量说明fsmn-vad语音活动检测0.4M检测音频中的有效语音段输出起止时间毫秒ct-punc标点恢复290M1 亿条样本训练为识别文本自动添加标点fsmn-kws关键词检测0.7M支持流式关键词检测fa-zh时间戳预测38M对已有文本进行精确时间对齐cam说话人验证/分离7.2M用于区分不同说话人emotion2veclarge情感识别300M4 万小时数据训练识别语音中的情感值得注意的是这些模型可以灵活组合使用。比如将 VAD Fun-ASR-Nano 标点恢复串联就可以实现长音频 → 分段识别 → 带标点文本的完整流水线。这种模型组合能力是 FunASR 作为工具包的核心优势。三、上手使用从几行代码开始安装FunASR 的安装非常简单要求 Python ≥ 3.8、PyTorch ≥ 1.13pip3 install -U funasrFunASR 提供了统一的AutoModel接口通过切换模型名称和组合不同模块即可完成各类语音任务。命令行调用最快捷的方式是直接用命令行一行命令即可完成 VAD 分段 语音识别 标点恢复funasr modelparaformer-zh vad_modelfsmn-vad punc_modelct-punc inputasr_example_zh.wav支持单个音频文件或 Kaldi 风格的 wav.scp 文件列表。Python API非流式Fun-ASR-Nano以下示例使用 Fun-ASR-Nano 模型配合 VAD 进行语音识别from funasr import AutoModel model AutoModel( modelFunAudioLLM/Fun-ASR-Nano-2512, vad_modelfsmn-vad, vad_kwargs{max_single_segment_time: 30000}, devicecuda:0, ) res model.generate(input[wav_path], cache{}, batch_size_s0) text res[0][text]Python API多能力识别SenseVoiceSmallSenseVoiceSmall 的调用方式类似通过languageauto自动检测语种use_itnTrue启用标点和反向文本规范化from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess model AutoModel( modeliic/SenseVoiceSmall, vad_modelfsmn-vad, vad_kwargs{max_single_segment_time: 30000}, devicecuda:0, ) res model.generate( inputf{model.model_path}/example/en.mp3, cache{}, languageauto, use_itnTrue, batch_size_s60, merge_vadTrue, merge_length_s15, ) text rich_transcription_postprocess(res[0][text])两个示例使用的都是 FunASR 统一的AutoModel接口切换模型只需更改model参数。主仓库 README 中还提供了流式识别、VAD、标点恢复、时间戳预测、情感识别等完整的代码示例详见项目仓库。四、服务部署面向生产环境FunASR 不只是一个研究工具它提供了面向生产的服务部署方案离线文件转录服务FFmpeg 音频格式处理时间戳生成热词模型动态批处理CPU 和 GPU 两种部署方式SenseVoiceSmall ONNX 模型支持实时流式转录服务支持边说边转的实时识别支持先出流式结果、再用离线模型修正的两阶段模式性能表现GPU 离线转录服务单线程 RTF 为0.0076多线程加速比1200CPU 上使用 ONNX Int8 量化 RTF 为 0.0446CER 无损失AMP 量化提升推理速度约 40%多平台与模型导出Windows SDKv2.0ARM64 平台 Docker 镜像ONNX 模型导出一行命令完成funasr-export modelparaformer quantizefalse devicecpu社区生态围绕 FunASR 的模型社区贡献了多种部署方案Triton GPU 部署sherpa-onnx支持 C/Python/Java 等 10 种编程语言覆盖 iOS/Android/Raspberry PiSenseVoice.cpp基于 GGML 的纯 C/C 实现支持 3/4/5/8 位量化SenseVoice FastAPI 服务部署支持 Python、C、Java、C# 等多种语言调用五、总结FunASR 适合谁FunASR 的定位介于纯学术框架和商业 API 之间它的价值在于开源、可控、可定制。具体来说需要私有化部署语音识别的团队不依赖第三方 API数据不出本地适合对数据安全有要求的场景。需要多任务组合的开发者VAD、ASR、标点、说话人分离、情感识别可以灵活串联通过统一的AutoModel接口构建定制化的语音处理流水线。需要实时转录的应用场景会议记录、直播字幕、客服质检等场景可以直接使用其流式和离线转录服务。需要在特定领域微调的团队FunASR 支持在预训练模型基础上进行微调适配垂直行业的专业词汇和口音。从 2023 年至今FunASR 保持着稳定的更新节奏从自研的 Paraformer 到集成通义实验室的 SenseVoice 和 Fun-ASR-Nano工具包的模型覆盖和部署能力持续扩展。相关仓库FunASR 主仓库https://github.com/modelscope/FunASRFun-ASR 模型仓库https://github.com/FunAudioLLM/Fun-ASRSenseVoice 模型仓库https://github.com/FunAudioLLM/SenseVoice论文Zhifu Gao, Zerui Li, Jiaming Wang, et al. FunASR: A Fundamental End-to-End Speech Recognition Toolkit. INTERSPEECH 2023.许可证代码采用 MIT License模型使用需遵守 Model License Agreement。

相关文章:

FunASR:几行代码搞定语音识别全流程的开源工具包,GitHub已获15.2k Star!

导读语音识别(ASR)是人工智能落地最广泛的方向之一,但学术界的前沿模型与工业界的实际部署之间一直存在距离。阿里达摩院开源的 FunASR,正是为弥合这一差距而生。它提供基于大规模工业语料训练的预训练模型,支持训练、…...

Comsol 探索变质量注浆理论:压力与沉积颗粒、渗透率的奇妙关联

comsol变质量注浆理论,根据魏建平《裂隙煤体注浆浆液扩散规律及变质量渗流模型研究》,考虑不同注浆压力,进行了不同压力下的注浆封堵模拟,沉积颗粒浓度随着注浆压力增大会变大,渗透率负相关。最近在研究注浆相关的课题…...

神州路由器vlan 10访问电信,vlan 20访问移动的配置

SWA配置: CS6200-28X-Pro> CS6200-28X-Pro>ena CS6200-28X-Pro#conf CS6200-28X-Pro(config)#vlan 10;20;100;1017;1018 CS6200-28X-Pro(config)#int vlan 10 CS6200-28X-Pro(config-if-vlan10)#ip add 192.168.10.254 255.255.255.0 CS6200-28X-Pro(config-if-vlan10…...

SQL优化全攻略:从索引设计到执行计划的深度解析

SQL优化全攻略:从索引设计到执行计划的深度解析 在数据爆炸的时代,一条低效的SQL查询可能拖垮整个系统。本文通过索引策略示例、查询优化案例及Explain工具对比,为你揭开SQL优化的神秘面纱,实现从“慢查询”到“毫秒级响应”的质变…...

微电网分层控制与二次控制策略下的顶刊复现:事件触发控制图与模型研究

微电网分层控制,二次控制,顶刊复现,有事件触发控制图和模型微电网的二次控制就像给系统装了个智能调节器,传统的一次控制扛得住电压频率的瞬时波动,但真要玩长期稳定还得靠二次层出手。最近复现某顶刊的模型时发现&…...

PCB壳状结构-硬件一体化设计革命性突破

做过硬件量产的工程师都懂,传统硬件生产有一个绕不开的“繁琐流程”:先设计平面PCB,完成电路布线与元器件贴片,再单独开模做塑料或金属外壳,后期通过螺丝、卡扣将PCB与外壳组装成型。这套模式沿用了数十年,…...

FreeRTOS内部机制(二)

文章目录FreeRTOS内部机制(二)3.队列(Queue)3.1队列的核心:关中断、环形缓冲区、链表3.1.1怎么互斥访问数据3.1.2 怎么传递数据?3.1.3 怎么休眠/唤醒3.2操作示例3.2.1创建队列3.2.2读队列3.2.3写队列4.信号量(semaphore)4.1优先级…...

python-flask新能源汽车租赁管理系统的设计与实现_django pycharm vue

目录技术栈选择系统模块设计开发流程数据库设计部署方案扩展功能建议项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作以下是关于使用Python Flask、Django、PyCharm和Vue.js实现新能源汽车租赁管理系统…...

智慧农业农业四情监测系统 农情定点监测系统

AI害虫自动识别,精准辨虫、智能预警系统搭载行业先进的AI智能图像识别算法,搭配高清户外摄像头,24小时不间断自动捕捉田间害虫动态,告别传统人工下田查虫、肉眼辨认、耗时费力的弊端。AI模型经过海量农业害虫样本训练,…...

同花顺公式语法实战笔记

文章目录2026-03-17报错代码修正后代码报错报错 行3: 语法错误, 变量<开始测试>未定义报错 行5: 语法错误, 错误的输出线型错误代码正确代码-DOTLINE版本正确代码-LINETHICK1版本其他调试技巧2026-03-17 报错代码 MA5 : MA(CLOSE, 5); MA10 : MA(CLOSE, 10); { 新增&am…...

SQL-忘记sa密码,如何安全的尝试旧密码,如何修改新密码

Q: 现是记住密码的状态&#xff0c;所以可以直接登录。但是操作员忘了sa的密码&#xff0c;想尝试一下sa密码&#xff0c;如果不正确仍可保证能登录进去&#xff0c;那么当前的密码状态是否要勾选记住密码。 当前是勾选了记住密码&#xff0c;但想验证 sa 密码&#xff0c;且要…...

猫头虎AI分享:什么是QClaw?QClaw 是基于 OpenClaw 的极简封装,QClaw的下载、安装、配置指南

猫头虎AI分享&#xff1a;什么是QClaw&#xff1f;QClaw 是基于 OpenClaw 的极简封装&#xff0c;QClaw的下载、安装、配置指南 &#x1f42f; 猫头虎博主按&#xff1a;腾讯终于出手了&#xff01;这款"龙虾"Agent让我看到了国产AI工具的新可能——不用配环境、不用…...

python-flask的美食分享交流平台_django pycharm vue

目录技术选型与框架说明后端实现&#xff08;Flask&#xff09;数据库模型设计前端实现&#xff08;Vue&#xff09;功能模块划分开发环境配置部署方案测试策略项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行…...

肽质量指纹图谱提取区域检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]【完整源码+数据集+部署教程】

一、背景意义 在生物医学研究和药物开发领域&#xff0c;肽作为生物活性分子的关键组成部分&#xff0c;受到越来越多的关注。肽质量指纹图谱的提取与分析&#xff0c;能够为新药的发现、疾病的诊断及生物标志物的筛选提供重要的信息。然而&#xff0c;传统的肽质量指纹图谱分析…...

Windows 本地部署 OpenClaw 超详细图文教程(保姆级)

本文以 PowerShell 一键部署 为核心方案&#xff0c;兼顾新手友好与稳定性&#xff0c;全程附操作说明与避坑要点&#xff0c;30 分钟内可完成部署。&#x1f4cb; 一、部署前准备&#xff08;必看&#xff09;1. 硬件与系统要求项目最低配置推荐配置说明系统Windows 10 64位&a…...

【C++算法入门】贪心算法-分糖果问题

本题取自LeetCode 135题 分糖果问题一 原题复现有n个小孩&#xff0c;每个小孩对应一个rating条件&#xff1a;每个小孩至少得到一颗糖&#xff0c;评分高的小孩要比相邻小孩多一颗糖求&#xff1a;最少需要多少糖二 思路分析本题利用贪心算法&#xff0c;需要两次遍历贪心。…...

OpenClaw 在 Ubuntu 22.04.5 LTS 上的安装与问题处理记录

整理说明&#xff1a;本记录通过小龙虾OpenClaw依据本地记忆文件、历史会话记录和当前运行配置整理&#xff0c;重点保留可复用的安装步骤、故障现象、根因判断和解决办法。一、环境概况操作系统&#xff1a;Ubuntu 22.04.5 LTSOpenClaw 状态目录&#xff1a;/home/node/.openc…...

解锁细胞奥秘:BMKMANU Cell Marker

在单细胞测序和空间转录组学日益成为生命科学研究基石的今天&#xff0c;研究人员常常面临一个核心难题&#xff1a;我检测到的这群细胞究竟是什么类型&#xff1f; 面对海量的基因表达数据&#xff0c;如何准确、快速地为细胞"贴上"正确的身份标签&#xff0c;成为制…...

基于深度强化学习的虚拟重联列车LQR自适应控制:理论、实现与代码详解

基于深度强化学习的虚拟重联列车LQR自适应控制:理论、实现与代码详解 摘要 虚拟重联(Virtual Coupling)作为下一代轨道交通的关键技术,通过无线通信实现列车之间的协同运行,大幅提升线路容量和运行效率。然而,虚拟重联列车组在运行过程中面临复杂的非线性动力学特性、时…...

RK3588 Linux系统GPIO口测试方法及自动化测试脚本

1、GPIO编号计算... 2 2、测试举例... 2 2.1 gpio_request申请导出相应的gpio. 2 2.2 gpio_direction_output 设置相应gpio为输出方向... 3 2.3 gpio_set_value 设置输出电平... 3 设置输出为高电平... 3 设置输出为低电平... 3 2.4 gpio_get_value 获取gpio当前状态值…...

KA品牌进化论

凌克客服如何以八大核心能力&#xff0c;重构全域增长新范式2026年&#xff0c;中国电商行业进入存量博弈的深水区。流量成本持续攀升&#xff0c;平台规则日新月异&#xff0c;消费者对服务体验的要求水涨船高。对于年销售额千万级乃至亿级的KA品牌而言&#xff0c;单一维度的…...

中小企业为什么要重视业财一体化

一、业财一体化的核心定义与背景1. 什么是业财一体化业财一体化是指将企业的业务流程与财务管理深度融合&#xff0c;形成数据闭环管理的一种管理模式。 它通过打通业务系统与财务系统的数据孤岛&#xff0c;实现信息实时共享和协同运作。这种模式不仅提升了企业运营效率&#…...

吃透HTTP及相关协议核心区别,从基础到进阶全覆盖

在后端开发、网络通信领域&#xff0c;HTTP协议及相关的传输层协议、加密方式、会话机制等&#xff0c;是面试高频考点&#xff0c;也是日常开发中避不开的基础知识点。很多开发者在实际工作中能熟练使用&#xff0c;但对其底层原理和核心区别一知半解&#xff0c;导致遇到问题…...

【C语言学习笔记】(1)

一&#xff0c;c语言总览。 1&#xff0c;c语言被选择的原因 c语言在嵌入式中为主要的高级汇编语言&#xff0c;可直接驱动大多数的多核心开发板。 嵌入式可以嵌入多种电子设备&#xff0c;帮助设备进行多种策略与行为。 由于嵌入式设备可能没有系统环境只能运行二进制机器…...

二十、Kubernetes基础-13-kubeadm-ha-kubernetes-deployment-guide-03-haproxy-keepalived

kubeadm 部署高可用 Kubernetes 集群完全指南&#xff08;三&#xff09;&#xff1a;HAProxyKeepalived 高可用负载均衡部署 作者&#xff1a;云原生架构专家 技术栈&#xff1a;Kubernetes 1.21, HAProxy, Keepalived, VRRP, 负载均衡 难度等级&#xff1a;★★★★★&#x…...

TCP vs UDP 怎么选(偏实战:别背概念,用场景做决策)

项目里真正让人纠结的不是“TCP 可靠/UDP 不可靠”这种结论&#xff0c;而是这些更具体的问题&#xff1a; 这个接口/链路到底能不能丢&#xff1f;丢了能不能重试补救&#xff1f;延迟更重要还是正确更重要&#xff1f;连接数很多、短连接很多时&#xff0c;系统扛不扛得住&am…...

mysql数据库常规操作2

对列表的增删改# 添加表列alter table 表名 add 新列名 类型&#xff08;长度&#xff09;[约束];#修改表列alter table 表名 change 旧列名 新列名 类型&#xff08;长度&#xff09;[约束];#修改表删除列alter table 表名 drop 列名;#重命名表名rename table 库名.表名 to 库…...

求你了,别用 YYYY-MM-dd!

昨天下午看同事提交的代码&#xff0c;扫到这么一行&#xff0c;心里顿时咯噔一下&#xff1a; new SimpleDateFormat(“YYYY-MM-dd”) 很多人敲代码顺手&#xff0c;或者被代码补全带偏&#xff0c;喜欢把 Y 和 M 全大写。但这在 Java 里&#xff0c;等于给系统埋了一颗隐蔽性…...

【JUC并发 | 第八篇】AQS的底层原理

目录 AQS AQS 概念 AQS的底层原理 差异&#xff1a;ReentrantLock、CountDownLatch、Semaphore重写了AQS的哪几个关键函数 【JUC并发 | 第七篇】简析Future 和 CompletableFuture类https://blog.csdn.net/h52412224/article/details/159078192 【JUC并发 | 第六篇】深入理解…...

虚拟电厂与运营商的主从博弈:考虑风光出力、电动汽车充放电、火电出力及储能设备充放电的优化策略与...

考虑风光出力的虚拟电厂和运营商的主从博弈&#xff0c;分别考虑电动汽车充放电&#xff0c;火电出力&#xff0c;储能设备充放电充放电价格等因素外层用改进粒子群算法&#xff0c;目标函数线性加权。最近在折腾虚拟电厂和运营商的主从博弈模型&#xff0c;发现把风光出力、电…...