当前位置：首页 > news >正文

本地部署与使用SenseVoice语音大模型简析

news 2026/2/9 14:47:29

前言

SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型，使其尽可能方便用户使用。

SenseVoice

Github 仓库链接: https://github.com/FunAudioLLM/SenseVoice

在线演示Demo: https://huggingface.co/spaces/FunAudioLLM/SenseVoice

SenseVoice的亮点

SenseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测。

多语言语音识别：经过超过40万小时的数据训练，支持50多种语言，识别性能超越Whisper模型。

高效推理：SenseVoice-Small 模型采用非自回归端到端框架，从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms，比 Whisper-Large 快 15 倍。

情绪识别：提供声音事件检测能力，支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。

便捷的微调：提供方便的微调脚本和策略，让用户根据自己的业务场景轻松解决长尾样本问题。

服务部署：提供服务部署管道，支持多并发请求，客户端语言包括 Python、C++、HTML、Java 和 C# 等。

如何部署安装SenseVoice

步骤 1. 克隆项目并创建 python 3.8+ 虚拟环境

首先克隆官方项目并创建一个独立的 Python 虚拟环境。

git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice#创建一个独立的 Python 3.8 虚拟环境并激活它
conda create -n sensevoice python=3.8
conda activate sensevoice

步骤 2. 然后安装依赖项

至此，虚拟环境已被激活。现在下载并安装项目所依赖的第三方软件包。

# 如果在GPUMart上租赁的服务器上
pip install -r requirements.txt# 如果租赁的服务器在中国大陆，需要使用国内的镜像 
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

步骤 3. 启动 SenseVoice WebUI

模型文件非常大，下载需要很长时间。完成后，使用以下命令启动服务：

python webui.py

现在，您可以通过访问局域网 IP 和端口号 7860 访问由gradient库构建的 WebUI 网络应用程序。

SenseVoice WebUI

如何使用SenseVoice

方法 1. 在 Web UI 中使用

使用网页界面非常简单，只需上传音频文件，选择语言（可选），然后点击开始按钮，等待后台处理完成，识别出的文本就会输出到结果区域。

我们使用GPUMart 的 RTX A4000 测试了 90 分钟的音频，耗时约七八分钟。

方法 2. 使用 Python 编程调用

如果需要基于模型进行应用程序开发，或调整更详细的参数，则需要对模型提供的应用程序接口进行封装和二次开发。

推理使用示例 - 支持任何格式和任何持续时间的音频输入。

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocessmodel_dir = "iic/SenseVoiceSmall"model = AutoModel(model=model_dir,trust_remote_code=True,remote_code="./model.py",vad_model="fsmn-vad",vad_kwargs={"max_single_segment_time": 30000},device="cuda:0",
)# en
res = model.generate(input=f"{model.model_path}/example/en.mp3",cache={},language="auto",  # "zh", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

对于更高级的用户，还可以使用以下命令将模型导出到 ONNX 或 Libtorch：

# 以 Libtorch 为例
from pathlib import Path
from funasr_torch import SenseVoiceSmall
from funasr_torch.utils.postprocess_utils import rich_transcription_postprocessmodel_dir = "iic/SenseVoiceSmall"model = SenseVoiceSmall(model_dir, batch_size=10, device="cuda:0")wav_or_scp = ["{}/.cache/modelscope/hub/{}/example/en.mp3".format(Path.home(), model_dir)]res = model(wav_or_scp, language="auto", use_itn=True)
print([rich_transcription_postprocess(i) for i in res])

本地部署与使用SenseVoice语音大模型简析

前言 SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型，使其尽可能方便用户使用。 Github 仓库链接: ht…...

编程日记 2025/2/5 3:38:31

文章目录 Kafka SASL/SCRAM介绍1. SASL/SCRAM 认证机制2. SASL/SCRAM 认证工作原理2.1 SCRAM 认证原理2.1.1 密码存储和加盐2.1.2 SCRAM 认证流程 2.2 SCRAM 认证的关键算法2.3 SCRAM 密码存储2.4 SCRAM 密码管理 3. 配置和使用 Kafka SASL/SCRAM3.1 Kafka 服务器端配置3.2 创建…...

编程日记 2025/2/5 3:35:27

中间件漏洞之CVE-2024-53677

目录什么是struts？CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复什么是struts？ 在早期的 Java Web 开发中，代码往往混乱不堪，难以维护和扩展。比如，一个简单的用户登录功能，可能在不同的 Java 类…...

编程日记 2025/2/5 3:33:25

pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）

以下是一个完整的词嵌入（Word Embedding）示例代码，使用 modelscope 下载 tiansz/bert-base-chinese 模型，并通过 transformers 加载模型，获取中文句子的词嵌入。 from modelscope.hub.snapshot_download import snaps…...

编程日记 2025/2/5 3:32:24

Windows电脑本地部署运行DeepSeek R1大模型（基于Ollama和Chatbox）

文章目录一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、常见问题解答六、使用Chatbox进行交互6.1 …...

编程日记 2025/2/5 3:30:21

区间覆盖问题

文章目录 1. 题面2. 简单分析3. 代码解答4. TLE的2点可能 1. 题面给定 N N N个区间 [ a i , b i ] [a_i,b_i] [ai,bi] 以及一个区间 [ s , t ] [s,t] [s,t]，请你选择尽量少的区间，将指定区间完全覆盖。输出最少区间数，如果无法完全…...

编程日记 2025/2/5 3:29:18

【LLM-agent】(task2)用llama-index搭建AI Agent

note LlamaIndex 实现 Agent 需要导入 ReActAgent 和 Function Tool，循环执行：推理、行动、观察、优化推理、重复进行。可以在 arize_phoenix 中看到 agent 的具体提示词，工具被装换成了提示词ReActAgent 使得业务自动向代码转换成为可能&am…...

编程日记 2025/2/5 3:28:15

SpringAI 人工智能

随着 AI 技术的不断发展，越来越多的企业开始将 AI 模型集成到其业务系统中，从而提升系统的智能化水平、自动化程度和用户体验。在此背景下，Spring AI 作为一个企业级 AI 框架，提供了丰富的工具和机制，可以帮助开发者将…...

编程日记 2025/2/5 3:23:09

【axios二次封装】

axios二次封装安装封装使用安装 pnpm add axios封装 // 进行axios二次封装：使用请求与响应拦截器 import axios from axios import { ElMessage } from element-plus//创建axios实例 const request axios.create({baseURL: import.meta.env.VITE_APP_BASE_API,…...

编程日记 2025/2/5 3:18:01

P7497 四方喝彩 Solution

Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1,a2,⋯,an)，有 m m m 个操作，分四种： add ⁡ ( l , r , v ) \operatorname{add}(l,r,v) add(l,r,v)：对于所有 i ∈ [ l , r ] i \in [l,r…...

编程日记 2025/2/5 3:17:00

深入剖析 Bitmap 数据结构：原理、应用与优化策略

深入理解 Bitmap 数据结构一、引言在计算机科学领域，数据的高效存储和快速处理一直是核心问题。随着数据量的不断增长，如何用最少的空间和最快的速度来表示和操作数据变得至关重要。Bitmap（位图）作为一种简洁而强大的数据结构…...

编程日记 2025/2/5 3:08:51

bypass hcaptcha、hcaptcha逆向

可以过steam，已支持并发，欢迎询问！ 有事危，ProfessorLuoMing...

编程日记 2025/2/5 3:07:49

WebForms DataList 深入解析

WebForms DataList 深入解析引言在Web开发领域，控件是构建用户界面（UI）的核心组件。ASP.NET WebForms框架提供了丰富的控件，其中DataList控件是一个灵活且强大的数据绑定控件。本文将深入探讨WebForms DataList控件的功能、用法以及在实际开发中的应用。 DataList控件…...

编程日记 2025/2/5 3:03:43

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结 1、一个数组解决很麻烦引出的问题1.1、RAW 文件尾部数据如下:1.2、自定义标头 ADD 或 DEL 的数据结构如下： 2、程序 C# 源代码的编写和剖析2.1、使用 ref 关键字，通过引用将参数传递，以…...

编程日记 2025/2/5 2:59:38

【C++基础】字符串/字符读取函数解析

最近在学C以及STL，打个基础参考： c中的char[] ,char* ,string三种字符串变量转化的兼容原则 c读取字符串和字符的6种函数字符串结构首先明确三种字符串结构的兼容关系：string>char*>char [] string最灵活，内置增删查改…...

编程日记 2025/2/5 2:53:26

大模型-CLIP 详细介绍

CLIP简介 CLIP（Contrastive Language–Image Pre-training）是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练，从而学会理解图像内容，并能将这些内容与相应的自然语言描述相匹配。CLIP的核心…...

编程日记 2025/2/5 2:52:24

1.4 Go 数组

一、数组 1、简介数组是切片的基础数组是一个固定长度、由相同类型元素组成的集合。在 Go 语言中，数组的长度是类型的一部分，因此 [5]int 和 [10]int 是两种不同的类型。数组的大小在声明时确定，且不可更改。简单来说，数组…...

编程日记 2025/2/5 2:50:22

WebSocket——环境搭建与多环境配置

一、前言：为什么要使用多环境配置？ 在开发过程中，我们通常会遇到多个不同的环境，比如开发环境（Dev）、测试环境（Test）、生产环境（Prod）等。每个环境的配置和需…...

编程日记 2025/2/5 2:47:17

三、递推关系与母函数，《组合数学(第4版)》卢开澄卢华明

文章目录一、似函数、非函数1.1 母函数1.2 母函数的简单应用1.3 整数拆分1.4 Ferrers 图像1.5 母函数能做什么1.6 递推关系1.6.1 Hanoi 问题1.6.2 偶数个5怎么算 1.7 Fibonacci 序列1.7.1 Fibonacci 的奇妙性质1.7.2 Fibonacci 恒等式1.7.3 Fibonacci 的直接表达式1.7.4 Fibon…...

编程日记 2025/2/5 2:46:16

线程互斥同步

前言： 简单回顾一下上文所学，上文我们最重要核心的工作就是介绍了我们线程自己的LWP和tid究竟是个什么，总结一句话，就是tid是用户视角下所认为的概念，因为在Linux系统中，从来没有线程这一说法，…...

编程日记 2025/2/5 2:41:10

Psychopy音频的使用

Psychopy音频的使用本文主要解决以下问题： 指定音频引擎与设备；播放音频文件本文所使用的环境： Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

编程新知 2026/1/31 15:09:31

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2026/1/29 17:12:17

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路在Android中，可以通过监听键盘的显示和隐藏事件，动态调整弹窗的位置。关键点在于获取键盘高度，并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

编程新知 2025/10/6 18:46:56

在WSL2的Ubuntu镜像中安装Docker

Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包： for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

编程新知 2026/2/4 16:23:56