当前位置: 首页 > article >正文

FunASR:语音识别与合成一体化,企业级开发实战详解

简介

FunASR是由阿里巴巴达摩院开源的高性能语音识别工具包,它不仅提供语音识别(ASR)功能,还集成了语音端点检测(VAD)、标点恢复、说话人分离等工业级模块,形成了完整的语音处理解决方案。 FunASR支持离线和实时两种模式,能够高效处理多语言音频,并提供高精度的识别结果。结合ModelScope生态,FunASR可以与文本到语音(TTS)模型无缝衔接,实现语音识别与合成一体化。本文将从零开始,详细介绍FunASR的环境搭建、模型选择、核心功能实现及企业级部署优化,帮助开发者快速掌握这一前沿技术。

一、环境搭建与模型安装

FunASR的环境搭建相对简单,主要依赖Python和PyTorch生态。首先需要准备开发环境,确保系统满足最低要求:Python≥3.8、PyTorch≥1.13和Torchaudio。FunASR支持多种部署方式,包括本地Python部署和Docker容器化部署。对于新手开发者,推荐使用本地Python部署;而对于企业级应用,Docker部署更加安全高效,支持高并发处理。

1. 本地Python部署

本地部署主要分为三个步骤:克隆FunASR仓库、安装依赖库和配置模型路径。首先,从GitHub克隆FunASR仓库:

git clone https://github.com/modelscope/FunASR.git
cd FunASR

然后,安装必要的依赖库。FunASR支持Conda和pip两种安装方式,推荐使用Conda创建独立的开发环境:

conda create -n funasr python=3.9
conda activate funasr
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=11.8 -c pytorch -c nvidia

完成环境配置后,安装FunASR库:

pip install -U funasr

如果需要使用工业预训练模型,还需安装ModelScope和HuggingFace:

pip install -U modelscope huggingface huggingface_hub

首次运行时,FunASR会自动下载所需模型到本地缓存目录(.cache/modelscope/hub/iic)。开发者也可以手动下载模型并放置在指定路径下。

2. Docker容器部署

对于企业级应用,Docker部署更加适合。FunASR提供了预构建的Docker镜像,支持CPU和GPU两种配置。以下是Docker部署的步骤:

首先,拉取FunASR镜像:

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

然后,创建模型存储目录并启动容器:

mkdir -p ./funasr-runtime-resources/models
docker run -p 10095:10095 -it --privileged=true \-v $PWD/funasr-runtime-resources/models:/workspace/models \registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

进入容器后,启动服务:

cd FunASR/runtime
nohup bash run_server.sh \--download-model-dir /workspace/models \--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \--punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \--itn-dir thuduj12/fst_itn_zh \--certfile 0 \--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

企业级应用通常需要高并发处理能力,可以通过docker-compose实现多实例部署:

version: "3.7"
services:funasronline:image: funasr-cpu:0.4.6container_name: funasronlinerestart: alwaysprivileged: truenetworks:- asrnetports:- "10095:10095"volumes:- "./funasr-runtime-resources/models:/workspace/models"command: bash -c "cd /workspace/FunASR/runtime && nohup bash run_server.sh --download-model-dir /workspace/models --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx --model-dir damo/speech_paraformer-large-vad-punc_asr nat-zh-cn-16k-common-vocab8404-onnx --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx --certfile 0 --hotword /workspace/models/hotwords.txt"
networks:asrnet:driver: bridge

运行docker-compose up启动服务。Docker部署支持SSL证书配置和热词模型加载,通过--certfile 0可以关闭SSL,--hotword参数指定热词文件路径。

二、模型选择与核心功能实现

FunASR提供了丰富的预训练模型,涵盖了多种语音处理任务。根据不同的应用场景,可以选择合适的模型组合。以下是FunASR的主要模型及其用途:

模型名称任务类型训练数据参数量
paraformer-zh语音识别(非实时)60,000小时中文220M
paraformer-zh-streaming语音识别(实时)60,000小时中文220M
paraformer-en语音识别(非实时)50,000小时英文220M
fsmn-vad语音活动检测(VAD)5,000小时中英文0.4M
ct-punc标点恢复100M中英文290M
cam++说话人分离5,000小时7.2M
damo/speech_campplus Sv_zh-cn_16k-common说话人确认5,000小时7.2M
1. 语音识别(ASR)

语音识别是FunASR的核心功能,支持离线和实时两种模式。离线模式适合处理完整的音频文件,实时模式则适用于流式音频输入。以下是离线语音识别的代码示例:

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess# 初始化模型
model = AutoModel(model=

相关文章:

FunASR:语音识别与合成一体化,企业级开发实战详解

简介 FunASR是由阿里巴巴达摩院开源的高性能语音识别工具包,它不仅提供语音识别(ASR)功能,还集成了语音端点检测(VAD)、标点恢复、说话人分离等工业级模块,形成了完整的语音处理解决方案。 FunASR支持离线和实时两种模式,能够高效处理多语言音频,并提供高精度的识别结果。…...

rust-candle学习笔记11-实现一个简单的自注意力

参考:about-pytorch 定义ScaledDotProductAttention结构体: use candle_core::{Result, Device, Tensor}; use candle_nn::{Linear, Module, linear_no_bias, VarMap, VarBuilder, ops};struct ScaledDotProductAttention {wq: Linear,wk: Linear,wv: …...

读入csv文件写入MySQL

### 使用 Spark RDD 读取 CSV 文件并写入 MySQL 的实现方法 #### 1. 环境准备 在使用 Spark 读取 CSV 文件并写入 MySQL 数据库之前,需要确保以下环境已配置完成: - 添加 Maven 依赖项以支持 JDBC 连接。 - 配置 MySQL 数据库连接参数,包括 …...

Andorid之TabLayout+ViewPager

文章目录 前言一、效果图二、使用步骤1.主xml布局2.activity代码3.MyTaskFragment代码4.MyTaskFragment的xml布局5.Adapter代码6.item布局 总结 前言 TabLayoutViewPager功能需求已经是常见功能了,我就不多解释了,需要的自取。 一、效果图 二、使用步骤…...

C++GO语言微服务之用户信息处理②

目录 01 03-获取用户信息-上 02 04-获取用户信息-下 03 05-更新用户名实现 01 06-中间件简介和中间件类型 02 07-中间件测试和模型分析 03 08-中间件测试案例和小结 04 09-项目使用中间件 01 03-获取用户信息-上 ## Cookie操作 ### 设置Cookie go func (c *Context) …...

26考研——中央处理器_指令流水线_流水线的冒险与处理 流水线的性能指标 高级流水线技术(5)

408答疑 文章目录 六、指令流水线流水线的冒险与处理结构冒险数据冒险延迟执行相关指令采用转发(旁路)技术load-use 数据冒险的处理 控制冒险 流水线的性能指标流水线的吞吐率流水线的加速比 高级流水线技术超标量流水线技术超长指令字技术超流水线技术 …...

Java 与 Go 语言对比

Java 和 Go (Golang) 是两种流行的编程语言,各有其设计哲学和应用场景。以下是它们的详细对比: 1. 基本特性 特性JavaGo诞生时间1995 (Sun Microsystems)2009 (Google)设计目标“Write Once, Run Anywhere”简洁、高效的系统编程语言语言类型面向对象多…...

OpenUCX 库介绍与使用指南

OpenUCX 库介绍与使用指南 OpenUCX 简介 OpenUCX (Unified Communication X) 是一个高性能、开源通信框架,专为大规模分布式计算和加速计算设计。它提供了统一的API,支持多种网络硬件和协议,包括InfiniBand、RoCE、TCP等。 主要特点 高性…...

酒店旅游类数据采集API接口之携程数据获取地方美食品列表 获取地方美餐馆列表 景点评论

携程 API 接入指南 API 地址: 调用示例: 美食列表 景点列表 景点详情 酒店详情 参数说明 通用参数说明 请谨慎传递参数,避免不必要的费用扣除。 URL 说明:https://api-gw.cn/平台/API类型/ 平台:淘宝,京…...

Lora原理及实现浅析

Lora 什么是Lora Lora的原始论文为《LoRA: Low-Rank Adaptation of Large Language Models》,翻译为中文为“大语言模型的低秩自适应”。最初是为了解决大型语言模在进行任务特定微调时消耗大量资源的问题;随后也用在了Diffusion等领域,用于…...

GitHub 趋势日报 (2025年05月13日)

本日报由 TrendForge 系统生成 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日整体趋势 Top 10 排名项目名称项目描述今日获星总星数语言1harry0703/MoneyPrinterTurbo利用ai大模型,一键生成高清短视频使用…...

【设计模式】- 创建者模式

单例模型 饿汉式 静态方法创建对象 public class Singleton {// 私有构造方法private Singleton(){}private static Singleton instance new Singleton();// 提供一个外界获取的方法public static Singleton getInstance(){return instance;} }静态代码块创建对象 public …...

服务器时间发生跳变导致hghac中对应主机状态频繁切换为crash或stop

文章目录 环境症状问题原因解决方案相关文档报错编码 环境 系统平台:N/A 版本:N/A 症状 集群状态: [rootbthbj-hgywsjkjq-ip28-cen76 ~]# hghactl list Cluster: highgo-ee-cluster —---------------------—---------- | Member | Ho…...

南审计院考研分享会 经验总结

汪学长 – 中科大 计科专硕 初试准备 数学先做真题,模拟题刷的越多分越高;408真题最重要,模拟题辅助;英语只做真题;政治9月份开始背 代码能力在低年级培养的重要性和路径 考研不选择机构原因 因为机构里面学习的框…...

牛客练习赛138(首篇万字题解???)

赛时成绩如下: 1. 小s的签到题 小s拿到了一个比赛榜单,他要用最快的速度找到签到题,但是小s脑子还是有点晕,请你帮帮小s,助力他找到签到题。 比赛榜单是一个 2 行 n 列的表格: 第一行是 n 个大写字母&#…...

Rust 中的 `String`、`str` 和 `str`:深入解析与使用指南

在 Rust 编程中,字符串是不可或缺的数据类型,但 Rust 的字符串系统与其他语言有所不同。Rust 提供了 String、str 和 &str 三种主要的字符串类型,每种类型都有其独特的用途和特点。本文将详细介绍这三种字符串类型,帮助你更好…...

深入理解高性能网络通信:从内核源码到云原生实践

深入理解高性能网络通信:从内核源码到云原生实践 (示意图:Linux网络协议栈与通信架构分层模型) 随着互联网业务规模的不断扩大,系统对网络通信性能的要求也在迅速提升。从内核事件机制的演进到云原生架构下的极致优化&…...

10 web 自动化之 yaml 数据/日志/截图

文章目录 一、yaml 数据获取二、日志获取三、截图 一、yaml 数据获取 需要安装 PyYAML 库 import yaml import os from TestPOM.common import dir_config as Dir import jsonpathclass Data:def __init__(self,keyNone,file_name"test_datas.yaml"):file_path os…...

ubuntu清除缓存

pip pip cache purgeconda conda clean -a -yapt apt cleanapt-get apt-get cleanmodelscope modelscope clear-cachehuggingface rm -rf ~/.cache/huggingface/*...

OSI 7层模型

OSI 7层模型: 1、物理层(光纤等把电脑连接起来的物理手段) 2、数据链路层(以太网,确认0和1电信号的分组方式,负责MAC地址,MAC地址用于在网络中唯一标示一个网卡,相当于网卡的身份证…...

用git下载vcpkg时出现Connection was reset时的处理

用git安装vcpkg时出现Connect was rest(如上图)。多谢这位网友的博文解决了问题: 通过:http.sslVerify false全局来设置,执行以下命令: git config --global http.sslVerify "false" 原文链接&#xff1a…...

deepseek梳理java高级开发工程师算法面试题

Java高级工程师算法面试题与答案 一、数据结构与算法基础 1. 红黑树与AVL树比较 题目:详细说明红黑树和AVL树的区别及各自的适用场景,并用Java实现红黑树的插入操作。 答案: 区别对比: ┌─────────────────…...

leetcode - 滑动窗口问题集

目录 前言 题1 长度最小的子数组: 思考: 参考代码1: 参考代码2: 题2 无重复字符的最长子串: 思考: 参考代码1: 参考代码2: 题3 最大连续1的个数 III: 思考&am…...

一分钟在Cherry Studio和VSCode集成火山引擎veimagex-mcp

MCP的出现打通了AI模型和外部数据库、网页API等资源,成倍提升工作效率。近期火山引擎团队推出了 MCP Server SDK: veimagex-mcp。本文介绍如何在Cherry Studio 和VSCode平台集成 veimagex-mcp。 什么是MCP MCP(Model Context Protocol&…...

Tomcat与纯 Java Socket 实现远程通信的区别

Servlet 容器​​(如 Tomcat) 是一个管理 Servlet 生命周期的运行环境,主要功能包括: ​​协议解析​​:自动处理 HTTP 请求/响应的底层协议(如报文头解析、状态码生成); ​​线程…...

为什么企业建站或独立站选用WordPress

与大多数组织相比,企业业务更需要保持可扩展和可靠的网络存在,以保持竞争力。为此,许多大型企业的 IT 领导者历来寻求昂贵的网络解决方案,这些方案需要签订专有支持合同来保证质量。不过,还有另一种方法。WordPress问世…...

镜头内常见的马达类型(私人笔记)

① 螺杆式马达 驱动来源:机身内马达。镜头尾部有一个接收“螺杆”的接口,通过机械传动带动镜头对焦组。缺点:慢、吵、不能用于无机身马达的相机。✅ 典型镜头:尼康 AF、AF-D 系列;美能达老镜头。尼康传统的AF镜头通过…...

docker-compose——安装mysql8

一、编写Dockerfile FROM mysql:8.0.39 ENV TZAsia/Shanghai RUN ln -sf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone二、编写docker-compose.yml version : 3.8services:zaomeng-mysql:build:context: ./mysqlimage: mysql:8.0.39conta…...

从代码学习深度学习 - 语义分割和数据集 PyTorch版

文章目录 前言什么是语义分割?图像分割和实例分割Pascal VOC2012 语义分割数据集Pascal VOC2012 语义分割数据集介绍基本信息语义分割部分特点数据格式评价指标应用价值数据集获取使用提示辅助工具代码 (`utils_for_huitu.py`)读取数据预处理数据自定义语义分割数据集类读取数…...

4G物联网模块实现废气处理全流程数据可视化监控配置

一、项目背景 随着工业化进程的加速,工业废气的排放对环境造成了严重影响,废气处理厂应运而生。然而,废气处理厂中的设备众多且分散,传统的人工巡检和数据记录方式效率低下,难以及时发现问题。为了实现对废气处理设备…...