【python ASR】win11-从0到1使用funasr实现本地离线音频转文本
文章目录
- 前言
- 一、前提条件
- 安装环境
- Python 安装
- 安装依赖,使用工业预训练模型
- 最后安装 - torch
- 1. 安装前查看显卡支持的最高CUDA的版本,以便下载`torch `对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
- 2. 前往网站下载[Pytorch](https://pytorch.org/get-started/locally/)
- 二、使用步骤
- 总结
前言
python本地离线跑模型,需要下载许多依赖以及依赖版本都要互相对应。本文总结从0到1到运行funasr的过程。希望帮助友友们,能够快速上手,避免浪费时间在环境和依赖版本的校对上。
一、前提条件
安装环境
仓库
可以看到一些前提条件
python>=3.8
torch>=1.13
torchaudio
Python 安装
3.8 比较旧了,这里我取中间,安装 Python3.11
- 下载地址python 3.11
- 详细步骤:参考保姆教程
安装依赖,使用工业预训练模型
pip3 install -U modelscope huggingface
最后安装 - torch
1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch
对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
nvidia-smi.exe
如果你发现你的CUDA是10.1或者11以下比较旧的,建议升级下显卡驱动就可以了。
2. 前往网站下载Pytorch
由于我最高支持12.6
所以我这里下载12.4
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
如果你像下面被限速了
科学就行,最好重新打开终端。
二、使用步骤
from funasr import AutoModel
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc" )
res = model.generate(input="demo.mp3", batch_size_s=300, hotword='魔搭')
print(res)
源音频URL对比
[{'key': 'demo', 'text': '是有哪些学校的GPA特别难拿?行,我跟大家盘一盘吧,也刚好避一个坑。那第一个说一说BU吧,它处于波士顿的核心地带,常年都会在这个final最难的几所美国大学的排行榜上榜上有名。还有呢,就是像这个MIT申请的时候,难度也就特别高,考试难度拿GP的难度也非常高。还有呢就是像普林斯顿,虽然说很多藤校会有GPA inflation,但是呢普林斯顿在这一点上卡的很严严,我们 的GPA一点活路都不留。还有呢就是像普渡大学工科相关的专业,学起来难度也比较大。还有就是哈维姆德,它其实是一个科学和工程专业的强校,录取难度也很高,读下来拿高GP的难度也很高。', 'timestamp': [[130, 310], [310, 430], [430, 670], [730, 830], [830, 950], [950, 1070], [1070, 1190], [1190, 1550], [1550, 1630], [1630, 1730], [1730, 1970], [2450, 2690], [2690, 2810], [2810, 2930], [2930, 3050], [3050, 3130], [3130, 3290], [3290, 3410], [3410, 3590], [3590, 3710], [3710, 3830], [3830, 3950], [3950, 4070], [4070, 4190], [4190, 4310], [4310, 4410], [4410, 4650], [4650, 4770], [4770, 4890], [4890, 5010], [5010, 5210], [5210, 5310], [5310, 5430], [5430, 5610], [5610, 5790], [5790, 6210], [6210, 6450], [6510, 6690], [6690, 6930], [6930, 7050], [7050, 7170], [7170, 7290], [7290, 7430], [7430, 7510], [7510, 7710], [7710, 7870], [7870, 8070], [8070, 8290], [8290, 8530], [8550, 8650], [8650, 8830], [8830, 9070], [9090, 9190], [9190, 9290], [9290, 9490], [9490, 9970], [9970, 10210], [10210, 10450], [10470, 10630], [10630, 10850], [10850, 10990], [10990, 11190], [11190, 11350], [11350, 11470], [11470, 11610], [11610, 11710], [11710, 11890], [11890, 12130], [12130, 12330], [12330, 12490], [12490, 12610], [12610, 12790], [12790, 13030], [13090, 13170], [13170, 13330], [13330, 13450], [13450, 13570], [13570, 13650], [13650, 13850], [13850, 13990], [13990, 14110], [14110, 14230], [14230, 14950], [14950, 15070], [15070, 15210], [15210, 15310], [15310, 15430], [15430, 15550], [15550, 15670], [15670, 15770], [15770, 15910], [15910, 16010], [16010, 16129], [16129, 16370], [16510, 16610], [16610, 16810], [16810, 17030], [17030, 17150], [17150, 17350], [17350, 17450], [17450, 17670], [17670, 17790], [17790, 17890], [17890, 18010], [18010, 18210], [18210, 18310], [18310, 18550], [18550, 18730], [18730, 18850], [18850, 19030], [19030, 19150], [19150, 19270], [19270, 19350], [19350, 19530], [19530, 19630], [19630, 19770], [19770, 19930], [19930, 20130], [20130, 20290], [20290, 20470], [20470, 20710], [20750, 20890], [20890, 21090], [21090, 21250], [21250, 21490], [21630, 21790], [21790, 22030], [22150, 22530], [22530, 23170], [23250, 23410], [23410, 23570], [23570, 23710], [23710, 23810], [23810, 23990], [23990, 24170], [24170, 24410], [24490, 24730], [24790, 24950], [24950, 25070], [25070, 25310], [25310, 25510], [25510, 25610], [25610, 25730], [25730, 25850], [25850, 26090], [26230, 26390], [26390, 26470], [26470, 26570], [26570, 26650], [26650, 27070], [27070, 27170], [27170, 27350], [27350, 27470], [27470, 27650], [27650, 27770], [27770, 27850], [27850, 28090], [28210, 28310], [28310, 28490], [28490, 28610], [28610, 28730], [28730, 28810], [28810, 29050], [29050, 29210], [29210, 29410], [29410, 29570], [29570, 29810], [29930, 30050], [30050, 30250], [30250, 30470], [30470, 30650], [30650, 30790], [30790, 30890], [30890, 31130], [31150, 31310], [31310, 31430], [31430, 31570], [31570, 31730], [31730, 31850], [31850, 31970], [31970, 32070], [32070, 32189], [32189, 32430], [32470, 32549], [32549, 32730], [32730, 32830], [32830, 32910], [32910, 33030], [33030, 33210], [33210, 33390], [33390, 33630], [33770, 33910], [33910, 34050], [34050, 34230], [34230, 34330], [34330, 34410], [34410, 34610], [34610, 34830], [34830, 35010], [35010, 35230], [35230, 35430], [35430, 35670], [35710, 35850], [35850, 36030], [36030, 36170], [36170, 36410], [36450, 36690], [36950, 37050], [37050, 37230], [37230, 37350], [37350, 37470], [37470, 37650], [37650, 37770], [37770, 38010], [38070, 38190], [38190, 38310], [38310, 38490], [38490, 38610], [38610, 38810], [38810, 39090], [39090, 39210], [39210, 39310], [39310, 39410], [39410, 39590], [39590, 39710], [39710, 40015]]}]
总结
以上是使用Python跑 funasr
模型的过程。
总的来说就是 torch
安装需要对应你的显卡版本,要小于你的显卡CUDA最大支持版本。
后续会记录Python爬取抖音主页的数据,拿到点赞量及无水印视频等。
相关文章:

【python ASR】win11-从0到1使用funasr实现本地离线音频转文本
文章目录 前言一、前提条件安装环境Python 安装安装依赖,使用工业预训练模型最后安装 - torch1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。2. 前往网站下载[Pytorch](https://pytorch.o…...
myqld二进制安装和破解数据库密码(linux)
安装和基本配置 1.首先把下载下来的mysql安装包放到本地这里下载的是5.7版本为演示 1)解压 tar xf mysql-5.7.20-linux-glibc2.12-x86_64.tar.gz -C /usr/local -把安装包解压到/usr/local cd /usr/local …...
防重方案-订单防重方案笔记
订单防重设计 订单重复提交概念解决方案前端防重机制后端防重机制利用Token机制基于数据库的唯一索引 Token机制方案介绍 其他 订单重复提交概念 重复提交指,连点按钮进行重复提交操作,不包括刷新后的重新下单,重新下单已非同一订单的概念。…...

HTML、JavaScript和CSS实现注册页面设计
目录 一、实现要求 二、实现页面图 1、注册页面 2.用户ID、用户名、口令验证成功后显示页面 三、用户ID、用户名、口令、确定口令验证逻辑js代码 1、验证用户ID 2、验证用户名 3、验证口令密码 四、总结 五、代码仓库 一、实现要求 综合使用HTML、JavaScript和CSS进…...
Counter对象的使用样例
1. Counter类的定义和功能说明 Counter是一个用于跟踪值出现次数的有序集合。它可以接收一个可迭代对象作为参数,并生成一个字典,其中包含每个元素作为键,其计数作为值。 2. 统计列表或字符串中元素的出现次数 示例代码: from…...

大模型中的token是什么;常见大语言模型的 token 情况
目录 大模型中的token是什么 常见大语言模型的 token 情况 大模型中的token是什么 定义 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理…...
Python小白学习教程从入门到入坑------第十七课 内置函数拆包(语法基础)
一、内置函数 1.1 查看所有内置函数 内置函数:Python 提供了许多内置函数,这些函数无需导入任何模块即可直接使用。它们涵盖了各种用途,从数学运算到类型检查,再到输入输出操作等。 如何查看内置函数呢? 在Pycharm…...

动态规划 —— 路径问题-最小路径和
1. 最小路径和 题目链接: 64. 最小路径和 - 力扣(LeetCode)https://leetcode.cn/problems/minimum-path-sum/description/ 2. 算法原理 状态表示:以莫一个位置位置为结尾 dp[i,j]表示:到达[i,j…...

《链表篇》---删除链表的倒数第N个节点(中等)
题目传送门 方法一:计算链表长度(迭代) 1.计算链表长度,并且定义哑节点链接链表。 2.从哑节点开始前进length-n次。即为被删除节点的前置节点。 3.进行删除操作。 4.返回哑节点的后置节点 class Solution {public ListNode remo…...

duilib 进阶 之 TileListBox 列表
目录 一、TileListBox 1、样式 1)、整体列表分列设置 2)、列表项样式设置 3)、选中后出现√号,horver时 出现边框色 的实例 2、代码 1)、普通动态添加列表项 2)、列表项样式中有自定义控件时 3)、获得选中项 一、TileListBox Tile [taɪl] ,瓦片 棋子 Ti…...

Web应用安全—信息泄露
从书本和网上了解到Web应用安全的信息泄露的知识,今天跟大家分享点。 robots.txt泄漏敏感信息 漏洞描述:搜索引擎可以通过robots文件可以获知哪些页面可以爬取,哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范,…...

大数据治理:策略、技术与挑战
随着信息技术的飞速发展,大数据已经成为现代企业运营和决策的重要基础。然而,大数据的复杂性、多样性和规模性给数据管理带来了前所未有的挑战。因此,大数据治理应运而生,成为确保数据质量、合规性、安全性和可用性的关键手段。本…...

vscode插件-08 Golang
文章目录 Go安装其他必须软件 Go Go语言环境,只需安装这一个插件。然后通过vscode命令下载安装其他go环境需要的内容。 程序调试,需要创建.vscode文件夹并编写launch.json文件。 安装其他必须软件 ctrlshiftp,调出命令面板,输入…...
数据结构+算法分析与设计[15-18真题版]
2015年考试试题 一、给出数组A[3..8,2..6]0F integer,当它在内存中按行存放和按列存放时,分别写出元素A[i,j]的地址计算公式(设每个元素占两个存储单元)。(10分) 二、已知一棵二叉树的中序序列的结果是BDCEAFHG,后序序列的结果是DECBHGFA,试画出这棵二叉树。(10分…...

单链表OJ题(2):反转链表(三指针法)、找中间节点(快慢指针)
目录 1.反转链表 反转链表总结: 2.链表的中间节点(快慢指针法) 快慢指针法总结 1.反转链表 在这道题中,我们需要把一个单链表反转它们的指向,这里,我们给出了一个好理解的简单解法,就是用三…...
Rows 行
Goto Data Grid 数据网格 Rows 行...

十个常见的软件测试面试题,拿走不谢
所有面试问题一般建议先总后分的方式来回答,这样可以让面试官感觉逻辑性很强。 1. 自我介绍 之所以让我们自我介绍,其实是面试官想找一些时间来看简历,所以自我介绍不用太长的时间,1-2分 钟即可。 自我介绍一般按以下方式进行介…...
windows 11 配置 kafka 使用SASL SCRAM-SHA-256 认证
1. 下载安装apache-zookeeper-3.9.2 配置 \conf\zoo.cfg # The number of milliseconds of each tick tickTime2000 # The number of ticks that the initial # synchronization phase can take initLimit10 # The number of ticks that can pass between # sending a requ…...

Elasticsearch —— ES 环境搭建、概念、基本操作、文档操作、SpringBoot继承ES
文章中会用到的文件,如果官网下不了可以在这下 链接: https://pan.baidu.com/s/1SeRdqLo0E0CmaVJdoZs_nQ?pwdxr76 提取码: xr76 一、 ES 环境搭建 注:环境搭建过程中的命令窗口不能关闭,关闭了服务就会关闭(除了修改设置后重启的…...

ElSelect 组件的 onChange 和 onInput 事件的区别
偶然遇到一个问题,在 ElSelect 组件中设置 filterable 属性后,监测不到复制粘贴的内容,也就意味着不能调用接口,下拉框内容为空。 简要代码如下: <ElSelectstyle"width: 256px"multiplev-model{siteIdL…...

基于FPGA的PID算法学习———实现PID比例控制算法
基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...

简易版抽奖活动的设计技术方案
1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...

MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...

网络编程(UDP编程)
思维导图 UDP基础编程(单播) 1.流程图 服务器:短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程
STM32F1 本教程使用零知标准板(STM32F103RBT6)通过I2C驱动ICM20948九轴传感器,实现姿态解算,并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化,适合嵌入式及物联网开发者。在基础驱动上新增…...

tauri项目,如何在rust端读取电脑环境变量
如果想在前端通过调用来获取环境变量的值,可以通过标准的依赖: std::env::var(name).ok() 想在前端通过调用来获取,可以写一个command函数: #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...

Linux部署私有文件管理系统MinIO
最近需要用到一个文件管理服务,但是又不想花钱,所以就想着自己搭建一个,刚好我们用的一个开源框架已经集成了MinIO,所以就选了这个 我这边对文件服务性能要求不是太高,单机版就可以 安装非常简单,几个命令就…...

海云安高敏捷信创白盒SCAP入选《中国网络安全细分领域产品名录》
近日,嘶吼安全产业研究院发布《中国网络安全细分领域产品名录》,海云安高敏捷信创白盒(SCAP)成功入选软件供应链安全领域产品名录。 在数字化转型加速的今天,网络安全已成为企业生存与发展的核心基石,为了解…...

【51单片机】4. 模块化编程与LCD1602Debug
1. 什么是模块化编程 传统编程会将所有函数放在main.c中,如果使用的模块多,一个文件内会有很多代码,不利于组织和管理 模块化编程则是将各个模块的代码放在不同的.c文件里,在.h文件里提供外部可调用函数声明,其他.c文…...