当前位置: 首页 > news >正文

语音识别技术paddlespeech的安装和使用

PaddleSpeech 介绍

PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译(英译中)、语音合成、标点恢复等应用示例。

安装paddlespeech

PaddleSpeech 快速安装方式有两种,一种是 pip 安装,一种是源码编译(官方推荐)。

使用pip安装paddlespeech

$ pip install pytest-runner
$ pip3 install paddleaudio==1.0.1
$ pip3 install paddlespeech==1.0.1

使用源码编译安装

$ git clone https://github.com/PaddlePaddle/PaddleSpeech.git
$ cd PaddleSpeech
$ pip install pytest-runner
$ pip install .

提示:安装过程可能因为缺少各种的库报错,如:librosa 依赖的系统库,gcc 环境问题,kaldi 安装等可以在网上查找。

音频示例下载

$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

paddlespeech工具

查看帮助

$ paddlespeech  help
$ paddlespeech asr help

基本使用

语音合成

 $ paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

如果报错

$ pip install numpy==1.23.0
$ sudo apt-get install libsndfile1

执行过程

$  ts-paddle /paddle/PaddleSpeech paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
grep: warning: GREP_OPTIONS is deprecated; please use an alias or script
/usr/local/lib/python3.7/dist-packages/librosa/core/constantq.py:1059: DeprecationWarning: `np.complex` is a deprecated alias for the builtin `complex`. To silence this warning, use `complex` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.complex128` here.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecationsdtype=np.complex,
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 489M/489M [01:01<00:00, 7.96MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 915M/915M [01:51<00:00, 8.22MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 589M/589M [01:01<00:00, 9.57MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 107k/107k [00:00<00:00, 1.33MB/s]
W0606 13:22:41.408085  2451 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 7.5, Driver API Version: 11.7, Runtime API Version: 11.7
W0606 13:22:41.412684  2451 gpu_resources.cc:91] device: 0, cuDNN Version: 8.4.
/paddle/PaddleSpeech/output.wavλ ts-paddle /paddle/PaddleSpeech ls

语音识别

识别中文

$ paddlespeech asr --lang zh --input zh.wav

指定模型识别,识别英文

$ paddlespeech  asr --lang en --model deepspeech2offline_librispeech  --input en.wav

标点恢复

恢复文本标点,可与ASR模型配合使用

$ paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

声音分类

适配多场景的开放领域声音分类工具
基于 AudioSet 数据集 527 个类别的声音分类模型

$ paddlespeech cls --input zh.wav

声纹提取

工业级声纹提取工具

$ paddlespeech vector --task spk --input zh.wav

语音翻译

端到端英译中语音翻译工具,使用预编译的 kaldi 相关工具,只支持在 Ubuntu 系统中体验

$ paddlespeech st --input en.wav

相关文章:

语音识别技术paddlespeech的安装和使用

PaddleSpeech 介绍 PaddleSpeech是百度飞桨&#xff08;PaddlePaddle&#xff09;开源深度学习平台的其中一个项目&#xff0c;它基于飞桨的语音方向模型库&#xff0c;用于语音和音频中的各种关键任务的开发&#xff0c;包含大量基于深度学习前沿和有影响力的模型。PaddleSpe…...

【机器学习】034_多层感知机Part.2_从零实现多层感知机

一、解决XOR问题 1. 回顾XOR问题&#xff1a; 如图&#xff0c;如何对XOR面进行分割以划分四个输入 对应的输出 呢&#xff1f; 思路&#xff1a;采用两个分类器分类&#xff0c;每次分出两个输入 &#xff0c;再借助这两个分类从而分出 。 即采用同或运算&#xff0c;当两…...

2023年中职“网络安全“—Web 渗透测试①

2023年中职"网络安全"—Web 渗透测试① Web 渗透测试任务环境说明&#xff1a;1.访问地址http://靶机IP/task1&#xff0c;分析页面内容&#xff0c;获取flag值&#xff0c;Flag格式为flag{xxx}&#xff1b;2.访问地址http://靶机IP/task2&#xff0c;访问登录页面。…...

Android——资源IDnonFinalResIds和“Attribute value must be constant”错误

一、异常描述 通过资源ID引用资源提示错误 Attribute value must be constant 二、解决方案 在根目录下的文件 gradle.properties 中添加如下配置&#xff0c;然后Sync Project android.nonFinalResIdsfalse 三、问题原因 android.nonFinalResIds 是Android开发中一个用于解…...

批量创建表空间数据文件(DM8:达梦数据库)

DM8:达梦数据库 - - 批量创建表空间数据文件 环境介绍1 批量创建表空间SQL2 达梦数据库学习使用列表 环境介绍 在某些场景(分区表子表)需要批量创建表空间,给不同的表使用,以下代码是批量创建表空间的SQL语句; 1 批量创建表空间SQL --创建 24个数据表空间,每个表空间有3个数…...

简单聊聊加密和加签的关系与区别

大家好&#xff0c;我是G探险者。 平时我们在项目上一定都听过加密和加签&#xff0c;加密可能都好理解&#xff0c;知道它是保障的数据的机密性&#xff0c;那加签是为了保障啥勒&#xff1f;它和加密有啥区别&#xff1f; 带着这个疑问&#xff0c;我们就来聊聊二者的区别。…...

视频转码方法:多种格式视频批量转FLV视频的技巧

随着互联网的发展&#xff0c;视频已成为日常生活中不可或缺的一部分。然而&#xff0c;不同的视频格式可能适用于不同的设备和平台&#xff0c;因此需要进行转码。在转码之前&#xff0c;要了解各种视频格式的特点和适用场景。常见的视频格式包括MP4、AVI、MKV、FLV等。其中&a…...

【Java 进阶篇】Redis 数据结构:轻松驾驭多样性

引言 Redis是一款强大的键值对存储系统&#xff0c;其数据结构的多样性是其引以为傲的特点之一。在这篇博客中&#xff0c;我们将深入探讨Redis的主要数据结构&#xff0c;包括字符串、哈希表、列表、集合和有序集合&#xff0c;并通过实例代码演示它们的用法。 1. 字符串&am…...

东用科技智能公交识别系统无线传输方案

在科技不断进步和人工智能快速发展的当下&#xff0c;人脸识别技术已逐渐应用于各个领域。其中&#xff0c;公共交通领域便是重要的应用场景之一。人脸识别技术的引入可以提高交通的安全性、效率及便利性。 为了实现公交公司对乘客的身份识别和安全管理的需求&#xff0c;提高运…...

Django批量插入数据及分页器

文章目录 一、批量插入数据二、分页1.分页器的思路2.用一个案例试试3.自定义分页器 一、批量插入数据 当我们需要大批量创建数据的时候&#xff0c;如果一条一条的去创建或许需要猴年马月 我们可以先试一试for循环试试 我们首先建立一个模型类来创建一个表 models.py&#xff…...

PHP 语法||PHP 变量

PHP 脚本在服务器上执行&#xff0c;然后将纯 HTML 结果发送回浏览器。 基本的 PHP 语法 PHP 脚本可以放在文档中的任何位置。 PHP 脚本以 <?php 开始&#xff0c;以 ?> 结束&#xff1a; <?php // PHP 代码 ?> 值得一提的是&#xff0c;通过设定php.ini的相…...

【python基础(四)】if语句详解

文章目录 一. 一个简单示例二. 条件测试1. 检查多个条件1.1. 使用and关联多个条件1.2. 使用or检查多个条件1.3. in的判断 2. 布尔表达式 三. if语句1. 简单的if语句2. if-else语句3. if-elif-else结构4. 使用多个elif代码块5. 省略else代码块 四. 使用if语句处理列表1. 检查特殊…...

Spring Boot中常用的参数传递注解

RequestParam&#xff1a;用于将请求参数绑定到控制器处理方法的参数上&#xff0c;适用于GET请求。PathVariable&#xff1a;用于获取请求URL中的动态参数&#xff0c;适用于RESTful风格的URL。RequestBody&#xff1a;用于将请求体中的JSON字符串绑定到控制器处理方法的参数上…...

Quartz .Net 的简单使用

参考了&#xff1a;c# .net framework 4.5.2 , Quartz.NET 3.0.7 - runliuv - 博客园 (cnblogs.com) https://www.cnblogs.com/personblog/p/11277527.html&#xff0c; Quartz.NET 作业调度&#xff08;一&#xff09;&#xff1a;Test - 简书 自己要轮询的任务&#xff1a…...

面试Java笔试题精选解答

文章目录 热身级别数组中重复的数字思路&#xff1a;使用map或HashSet来遍历一遍就可以找出重复的字符样例解答 用两个栈实现队列思路&#xff1a;Stack1正向进入&#xff0c;队头在栈底&#xff0c;用于进队列操作&#xff1b;Stack2是Stack1倒栈形成&#xff0c;队头在栈顶&a…...

使用Python画一棵树

&#x1f38a;专栏【不单调的代码】 &#x1f354;喜欢的诗句&#xff1a;更喜岷山千里雪 三军过后尽开颜。 &#x1f386;音乐分享【如愿】 &#x1f970;欢迎并且感谢大家指出我的问题 文章目录 &#x1f339;Turtle模块&#x1f384;效果&#x1f33a;代码&#x1f6f8;代码…...

nginx学习(4)Nginx 负载均衡

负载均衡&#xff1a;是将负载分摊到不同的服务单元&#xff0c;既保证服务的可用性&#xff0c;又保证响应 足够快&#xff0c;给用户很好的体验。 在 linux 下有 Nginx、LVS、Haproxy 等等服务可以提供负载均衡服 务&#xff0c; 而且 Nginx 提供了几种分配方式(策略)&#…...

WSL登录时提示nsenter: cannot open /proc/320/ns/time: No such file or directory的解决办法

在登录 WSL 的 Ubuntu 时&#xff0c;不仅要求 root 权限&#xff0c;还登录失败&#xff0c;提示“nsenter: cannot open /proc/320/ns/time: No such file or directory”。 解决办法是在 powershell 中执行 “wsl – sudo vi /etc/profile”命令&#xff0c;删除文件内容&a…...

git修改远程分支名称

先拉取old_branch最新代码到本地 git checkout old_branchgit pull origin old_branch本地修改后并推送 git branch -m old_branch new_branch # 修改分支名称git push --delete origin old_branch # 删除在远程的老分支推送新分支 git push origin new_branch本地分支与远…...

Django 入门学习总结7-静态文件管理

Django Web框架有关门的静态文件管理机制。 首先&#xff0c;在polls文件夹中创建static文件&#xff0c;Django 将会自动地在这里查询静态文件。 Django 框架在配置 STATICFILES_FINDERS中&#xff0c;指出了一系列静态文件所在位置。 依据配置 INSTALLED_APPS 的名称来查询…...

Qt 2D 绘制实战与性能优化深度解析

引言 上一篇文章解析了 Qt 2D 绘制系统的三层架构原理&#xff0c;本文聚焦实战。从绘制目标选型&#xff08;QPixmap vs QImage vs QPicture&#xff09;、双缓冲绘制、自定义控件 paintEvent 优化、图形基元的高效组合&#xff0c;到 Qt 6 硬件加速与 Vulkan 后端——每个实…...

【Eclipse】运行easyx

EasyX是针对 Visual C 的免费绘图库&#xff0c;只支持C文件。假设EasyX静态库路径&#xff1a; D:\SoftwareBackup\GreenSoftware\RedPandaIDE\MinGW64\x86_64-w64-mingw32\lib\libeasyx.a 头文件路径&#xff1a; D:\SoftwareBackup\GreenSoftware\RedPandaIDE\MinGW64\x86_6…...

Python代码审查评估基准CodeFuse-CR-Bench解析

1. 项目概述CodeFuse-CR-Bench是首个面向Python项目的端到端代码审查评估基准&#xff0c;旨在解决当前自动化代码审查&#xff08;CR&#xff09;评估中的"现实差距"问题。传统评估方法通常将代码审查过程分解为孤立的子任务&#xff0c;使用简化且缺乏上下文的数据…...

终极免费游戏启动器:Bedrock Launcher完整使用指南

终极免费游戏启动器&#xff1a;Bedrock Launcher完整使用指南 【免费下载链接】BedrockLauncher 项目地址: https://gitcode.com/gh_mirrors/be/BedrockLauncher Bedrock Launcher是一款专为Minecraft基岩版设计的免费开源游戏启动器&#xff0c;它彻底改变了传统游戏…...

Google账号登录无标题-配置文件1

重启电脑之后发现需要谷歌登录的poner和chatGPT都是Google一直转圈圈&#xff0c;科学上网是没问题的&#xff0c;不然都不会到这一步 有搜到可能是DNS修改出现的问题&#xff0c;也贴上帖主解决问题的过程&#xff0c;不过我的问题不在这里(99 封私信 / 8 条消息) 谷歌账号登…...

保姆级教程:在Windows/Linux上用C++和ONNX Runtime部署TensorRT模型(附环境生命周期避坑指南)

从零构建&#xff1a;C与ONNX Runtime的TensorRT模型部署全流程实战 第一次将ONNX模型部署到生产环境时&#xff0c;我盯着屏幕上"0xC0000005"的内存访问错误整整发呆了半小时。这个看似简单的错误背后&#xff0c;隐藏着ONNX Runtime环境生命周期管理的核心机制。本…...

LED全感技术加持,超元力无限方舟打造沉浸式文旅新体验

当文旅行业从“观光式”向“体验式”深度转型&#xff0c;沉浸式娱乐已成为破局关键。据行业数据显示&#xff0c;2025年底全国成型的沉浸式体验空间项目已达600个&#xff0c;而游客对“深度参与感”的诉求&#xff0c;正推动着体验类产品向更精细、更具代入感的方向升级。超元…...

CICD-Goat CI/CD安全最佳实践:企业级防护方案完整指南

CICD-Goat CI/CD安全最佳实践&#xff1a;企业级防护方案完整指南 【免费下载链接】cicd-goat A deliberately vulnerable CI/CD environment. Learn CI/CD security through multiple challenges. 项目地址: https://gitcode.com/gh_mirrors/ci/cicd-goat CICD-Goat是一…...

ADAS功能测试:ACC/AEB/LKA验证方法

&#x1f3af; ADAS功能测试&#xff1a;ACC/AEB/LKA验证方法> 系统讲解高级驾驶辅助系统&#xff08;ADAS&#xff09;的功能测试方法&#xff0c;包括自适应巡航、自动紧急制动、车道保持等。—## 一、ADAS概述### 1.1 ADAS定义ADAS&#xff08;Advanced Driver Assistanc…...

机器视觉工业缺陷检测全解析(下篇):工业镜头选型及硬件适配

目录 一、工业镜头选型:成像清晰的“核心纽带”,适配决定细节 (一)工业镜头核心参数详细解析(量化选型依据) 1. 焦距(f) 2. 光圈(F) 3. 分辨率(镜头分辨率) 4. 畸变 5. 景深(DOF) 6. 工作距离(WD) 7. 芯片尺寸适配 (二)工业镜头类型详细对比与场景…...