语音识别技术paddlespeech的安装和使用
PaddleSpeech 介绍
PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译(英译中)、语音合成、标点恢复等应用示例。
安装paddlespeech
PaddleSpeech 快速安装方式有两种,一种是 pip 安装,一种是源码编译(官方推荐)。
使用pip安装paddlespeech
$ pip install pytest-runner
$ pip3 install paddleaudio==1.0.1
$ pip3 install paddlespeech==1.0.1
使用源码编译安装
$ git clone https://github.com/PaddlePaddle/PaddleSpeech.git
$ cd PaddleSpeech
$ pip install pytest-runner
$ pip install .
提示:安装过程可能因为缺少各种的库报错,如:librosa 依赖的系统库,gcc 环境问题,kaldi 安装等可以在网上查找。
音频示例下载
$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav
paddlespeech工具
查看帮助
$ paddlespeech help
$ paddlespeech asr help
基本使用
语音合成
$ paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
如果报错
$ pip install numpy==1.23.0
$ sudo apt-get install libsndfile1
执行过程
$ ts-paddle /paddle/PaddleSpeech paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
grep: warning: GREP_OPTIONS is deprecated; please use an alias or script
/usr/local/lib/python3.7/dist-packages/librosa/core/constantq.py:1059: DeprecationWarning: `np.complex` is a deprecated alias for the builtin `complex`. To silence this warning, use `complex` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.complex128` here.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecationsdtype=np.complex,
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 489M/489M [01:01<00:00, 7.96MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 915M/915M [01:51<00:00, 8.22MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 589M/589M [01:01<00:00, 9.57MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 107k/107k [00:00<00:00, 1.33MB/s]
W0606 13:22:41.408085 2451 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 7.5, Driver API Version: 11.7, Runtime API Version: 11.7
W0606 13:22:41.412684 2451 gpu_resources.cc:91] device: 0, cuDNN Version: 8.4.
/paddle/PaddleSpeech/output.wavλ ts-paddle /paddle/PaddleSpeech ls
语音识别
识别中文
$ paddlespeech asr --lang zh --input zh.wav
指定模型识别,识别英文
$ paddlespeech asr --lang en --model deepspeech2offline_librispeech --input en.wav
标点恢复
恢复文本标点,可与ASR模型配合使用
$ paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭
声音分类
适配多场景的开放领域声音分类工具
基于 AudioSet 数据集 527 个类别的声音分类模型
$ paddlespeech cls --input zh.wav
声纹提取
工业级声纹提取工具
$ paddlespeech vector --task spk --input zh.wav
语音翻译
端到端英译中语音翻译工具,使用预编译的 kaldi 相关工具,只支持在 Ubuntu 系统中体验
$ paddlespeech st --input en.wav
相关文章:
语音识别技术paddlespeech的安装和使用
PaddleSpeech 介绍 PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpe…...
【机器学习】034_多层感知机Part.2_从零实现多层感知机
一、解决XOR问题 1. 回顾XOR问题: 如图,如何对XOR面进行分割以划分四个输入 对应的输出 呢? 思路:采用两个分类器分类,每次分出两个输入 ,再借助这两个分类从而分出 。 即采用同或运算,当两…...
2023年中职“网络安全“—Web 渗透测试①
2023年中职"网络安全"—Web 渗透测试① Web 渗透测试任务环境说明:1.访问地址http://靶机IP/task1,分析页面内容,获取flag值,Flag格式为flag{xxx};2.访问地址http://靶机IP/task2,访问登录页面。…...
Android——资源IDnonFinalResIds和“Attribute value must be constant”错误
一、异常描述 通过资源ID引用资源提示错误 Attribute value must be constant 二、解决方案 在根目录下的文件 gradle.properties 中添加如下配置,然后Sync Project android.nonFinalResIdsfalse 三、问题原因 android.nonFinalResIds 是Android开发中一个用于解…...
批量创建表空间数据文件(DM8:达梦数据库)
DM8:达梦数据库 - - 批量创建表空间数据文件 环境介绍1 批量创建表空间SQL2 达梦数据库学习使用列表 环境介绍 在某些场景(分区表子表)需要批量创建表空间,给不同的表使用,以下代码是批量创建表空间的SQL语句; 1 批量创建表空间SQL --创建 24个数据表空间,每个表空间有3个数…...
简单聊聊加密和加签的关系与区别
大家好,我是G探险者。 平时我们在项目上一定都听过加密和加签,加密可能都好理解,知道它是保障的数据的机密性,那加签是为了保障啥勒?它和加密有啥区别? 带着这个疑问,我们就来聊聊二者的区别。…...
视频转码方法:多种格式视频批量转FLV视频的技巧
随着互联网的发展,视频已成为日常生活中不可或缺的一部分。然而,不同的视频格式可能适用于不同的设备和平台,因此需要进行转码。在转码之前,要了解各种视频格式的特点和适用场景。常见的视频格式包括MP4、AVI、MKV、FLV等。其中&a…...
【Java 进阶篇】Redis 数据结构:轻松驾驭多样性
引言 Redis是一款强大的键值对存储系统,其数据结构的多样性是其引以为傲的特点之一。在这篇博客中,我们将深入探讨Redis的主要数据结构,包括字符串、哈希表、列表、集合和有序集合,并通过实例代码演示它们的用法。 1. 字符串&am…...
东用科技智能公交识别系统无线传输方案
在科技不断进步和人工智能快速发展的当下,人脸识别技术已逐渐应用于各个领域。其中,公共交通领域便是重要的应用场景之一。人脸识别技术的引入可以提高交通的安全性、效率及便利性。 为了实现公交公司对乘客的身份识别和安全管理的需求,提高运…...
Django批量插入数据及分页器
文章目录 一、批量插入数据二、分页1.分页器的思路2.用一个案例试试3.自定义分页器 一、批量插入数据 当我们需要大批量创建数据的时候,如果一条一条的去创建或许需要猴年马月 我们可以先试一试for循环试试 我们首先建立一个模型类来创建一个表 models.pyÿ…...
PHP 语法||PHP 变量
PHP 脚本在服务器上执行,然后将纯 HTML 结果发送回浏览器。 基本的 PHP 语法 PHP 脚本可以放在文档中的任何位置。 PHP 脚本以 <?php 开始,以 ?> 结束: <?php // PHP 代码 ?> 值得一提的是,通过设定php.ini的相…...
【python基础(四)】if语句详解
文章目录 一. 一个简单示例二. 条件测试1. 检查多个条件1.1. 使用and关联多个条件1.2. 使用or检查多个条件1.3. in的判断 2. 布尔表达式 三. if语句1. 简单的if语句2. if-else语句3. if-elif-else结构4. 使用多个elif代码块5. 省略else代码块 四. 使用if语句处理列表1. 检查特殊…...
Spring Boot中常用的参数传递注解
RequestParam:用于将请求参数绑定到控制器处理方法的参数上,适用于GET请求。PathVariable:用于获取请求URL中的动态参数,适用于RESTful风格的URL。RequestBody:用于将请求体中的JSON字符串绑定到控制器处理方法的参数上…...
Quartz .Net 的简单使用
参考了:c# .net framework 4.5.2 , Quartz.NET 3.0.7 - runliuv - 博客园 (cnblogs.com) https://www.cnblogs.com/personblog/p/11277527.html, Quartz.NET 作业调度(一):Test - 简书 自己要轮询的任务:…...
面试Java笔试题精选解答
文章目录 热身级别数组中重复的数字思路:使用map或HashSet来遍历一遍就可以找出重复的字符样例解答 用两个栈实现队列思路:Stack1正向进入,队头在栈底,用于进队列操作;Stack2是Stack1倒栈形成,队头在栈顶&a…...
使用Python画一棵树
🎊专栏【不单调的代码】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【如愿】 🥰欢迎并且感谢大家指出我的问题 文章目录 🌹Turtle模块🎄效果🌺代码🛸代码…...
nginx学习(4)Nginx 负载均衡
负载均衡:是将负载分摊到不同的服务单元,既保证服务的可用性,又保证响应 足够快,给用户很好的体验。 在 linux 下有 Nginx、LVS、Haproxy 等等服务可以提供负载均衡服 务, 而且 Nginx 提供了几种分配方式(策略)&#…...
WSL登录时提示nsenter: cannot open /proc/320/ns/time: No such file or directory的解决办法
在登录 WSL 的 Ubuntu 时,不仅要求 root 权限,还登录失败,提示“nsenter: cannot open /proc/320/ns/time: No such file or directory”。 解决办法是在 powershell 中执行 “wsl – sudo vi /etc/profile”命令,删除文件内容&a…...
git修改远程分支名称
先拉取old_branch最新代码到本地 git checkout old_branchgit pull origin old_branch本地修改后并推送 git branch -m old_branch new_branch # 修改分支名称git push --delete origin old_branch # 删除在远程的老分支推送新分支 git push origin new_branch本地分支与远…...
Django 入门学习总结7-静态文件管理
Django Web框架有关门的静态文件管理机制。 首先,在polls文件夹中创建static文件,Django 将会自动地在这里查询静态文件。 Django 框架在配置 STATICFILES_FINDERS中,指出了一系列静态文件所在位置。 依据配置 INSTALLED_APPS 的名称来查询…...
Qt 2D 绘制实战与性能优化深度解析
引言 上一篇文章解析了 Qt 2D 绘制系统的三层架构原理,本文聚焦实战。从绘制目标选型(QPixmap vs QImage vs QPicture)、双缓冲绘制、自定义控件 paintEvent 优化、图形基元的高效组合,到 Qt 6 硬件加速与 Vulkan 后端——每个实…...
【Eclipse】运行easyx
EasyX是针对 Visual C 的免费绘图库,只支持C文件。假设EasyX静态库路径: D:\SoftwareBackup\GreenSoftware\RedPandaIDE\MinGW64\x86_64-w64-mingw32\lib\libeasyx.a 头文件路径: D:\SoftwareBackup\GreenSoftware\RedPandaIDE\MinGW64\x86_6…...
Python代码审查评估基准CodeFuse-CR-Bench解析
1. 项目概述CodeFuse-CR-Bench是首个面向Python项目的端到端代码审查评估基准,旨在解决当前自动化代码审查(CR)评估中的"现实差距"问题。传统评估方法通常将代码审查过程分解为孤立的子任务,使用简化且缺乏上下文的数据…...
终极免费游戏启动器:Bedrock Launcher完整使用指南
终极免费游戏启动器:Bedrock Launcher完整使用指南 【免费下载链接】BedrockLauncher 项目地址: https://gitcode.com/gh_mirrors/be/BedrockLauncher Bedrock Launcher是一款专为Minecraft基岩版设计的免费开源游戏启动器,它彻底改变了传统游戏…...
Google账号登录无标题-配置文件1
重启电脑之后发现需要谷歌登录的poner和chatGPT都是Google一直转圈圈,科学上网是没问题的,不然都不会到这一步 有搜到可能是DNS修改出现的问题,也贴上帖主解决问题的过程,不过我的问题不在这里(99 封私信 / 8 条消息) 谷歌账号登…...
保姆级教程:在Windows/Linux上用C++和ONNX Runtime部署TensorRT模型(附环境生命周期避坑指南)
从零构建:C与ONNX Runtime的TensorRT模型部署全流程实战 第一次将ONNX模型部署到生产环境时,我盯着屏幕上"0xC0000005"的内存访问错误整整发呆了半小时。这个看似简单的错误背后,隐藏着ONNX Runtime环境生命周期管理的核心机制。本…...
LED全感技术加持,超元力无限方舟打造沉浸式文旅新体验
当文旅行业从“观光式”向“体验式”深度转型,沉浸式娱乐已成为破局关键。据行业数据显示,2025年底全国成型的沉浸式体验空间项目已达600个,而游客对“深度参与感”的诉求,正推动着体验类产品向更精细、更具代入感的方向升级。超元…...
CICD-Goat CI/CD安全最佳实践:企业级防护方案完整指南
CICD-Goat CI/CD安全最佳实践:企业级防护方案完整指南 【免费下载链接】cicd-goat A deliberately vulnerable CI/CD environment. Learn CI/CD security through multiple challenges. 项目地址: https://gitcode.com/gh_mirrors/ci/cicd-goat CICD-Goat是一…...
ADAS功能测试:ACC/AEB/LKA验证方法
🎯 ADAS功能测试:ACC/AEB/LKA验证方法> 系统讲解高级驾驶辅助系统(ADAS)的功能测试方法,包括自适应巡航、自动紧急制动、车道保持等。—## 一、ADAS概述### 1.1 ADAS定义ADAS(Advanced Driver Assistanc…...
机器视觉工业缺陷检测全解析(下篇):工业镜头选型及硬件适配
目录 一、工业镜头选型:成像清晰的“核心纽带”,适配决定细节 (一)工业镜头核心参数详细解析(量化选型依据) 1. 焦距(f) 2. 光圈(F) 3. 分辨率(镜头分辨率) 4. 畸变 5. 景深(DOF) 6. 工作距离(WD) 7. 芯片尺寸适配 (二)工业镜头类型详细对比与场景…...
