当前位置：首页 > news >正文

WeNet语音识别+Qwen-72B-Chat Bot+Sambert-Hifigan语音合成

news 2026/2/7 10:31:56

WeNet语音识别+Qwen-72B-Chat Bot👾+Sambert-Hifigan语音合成

简介

利用 WeNet 进行语音识别，使用户能够通过语音输入与系统进行交互。接着，Qwen-72B-Chat Bot作为聊天机器人接收用户的语音输入或文本输入，提供响应并与用户进行对话。最后，系统利用 Sambert-Hifigan 进行语音合成，将机器人的响应转换为自然流畅的语音输出，使用户能够以语音方式接收机器人的回复。

特点

对话记忆功能：该系统能够记忆和追踪用户和聊天机器人之间的对话历史。这使得用户能够在对话中随时回顾之前的交流内容，从而实现更连贯的对话和更好的交互体验。
多语音模型切换：该系统支持多种语音模型的切换。用户可以根据需要选择不同的语音模型进行交互。这种多语音模型切换功能使得系统在不同语境下有更强的适用性和灵活性。

界面

体验一下

在这里插入图片描述

环境配置

在这里插入图片描述

完整代码

import os
os.system('pip install dashscope')
os.system('pip install modelscope')
import gradio as gr
from http import HTTPStatus
import dashscope
from dashscope import Generation
from dashscope.api_entities.dashscope_response import Role
from typing import List, Optional, Tuple, Dict
from urllib.error import HTTPError
import wenet
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksdefault_system = 'You are a helpful assistant.'
chs_model = wenet.load_model('chinese')
YOUR_API_TOKEN = os.getenv('YOUR_API_TOKEN')
dashscope.api_key = YOUR_API_TOKEN
History = List[Tuple[str, str]]
Messages = List[Dict[str, str]]# 加载四个不同的语音合成模型
sambert_hifigan_zh_model_id = 'damo/speech_sambert-hifigan_tts_zh-cn_16k'
sambert_hifigan_zh = pipeline(task=Tasks.text_to_speech, model=sambert_hifigan_zh_model_id)sambert_hifigan_ch_model_id = 'speech_tts/speech_sambert-hifigan_tts_chuangirl_Sichuan_16k'
sambert_hifigan_ch = pipeline(task=Tasks.text_to_speech, model=sambert_hifigan_ch_model_id)sambert_hifigan_ca_model_id = 'speech_tts/speech_sambert-hifigan_tts_jiajia_Cantonese_16k'
sambert_hifigan_ca = pipeline(task=Tasks.text_to_speech, model=sambert_hifigan_ca_model_id)sambert_hifigan_ws_model_id = 'speech_tts/speech_sambert-hifigan_tts_xiaoda_WuuShanghai_16k'
sambert_hifigan_ws = pipeline(task=Tasks.text_to_speech, model=sambert_hifigan_ws_model_id)def clear_session() -> History:return []def modify_system_session(system: str) -> str:if system is None or len(system) == 0:system = default_systemreturn system, system, []def history_to_messages(history: History, system: str) -> Messages:messages = [{'role': Role.SYSTEM, 'content': system}]for h in history:messages.append({'role': Role.USER, 'content': h[0]})messages.append({'role': Role.ASSISTANT, 'content': h[1]})return messagesdef messages_to_history(messages: Messages) -> Tuple[str, History]:assert messages[0]['role'] == Role.SYSTEMsystem = messages[0]['content']history = []for q, r in zip(messages[1::2], messages[2::2]):history.append([q['content'], r['content']])return system, historydef model_chat(path:str, history: Optional[History], system: str,model:str,voice:str
) -> Tuple[str, str, History]:if path is not None:query = chs_model.transcribe(path)['text']if query is None:query = ''if history is None:history = []messages = history_to_messages(history, system)messages.append({'role': Role.USER, 'content': query})gen = Generation.call(model = "qwen-72b-chat",messages=messages,result_format='message',stream=True)for response in gen:if response.status_code == HTTPStatus.OK:role = response.output.choices[0].message.roleresponse = response.output.choices[0].message.contentsystem, history = messages_to_history(messages + [{'role': role, 'content': response}])else:raise HTTPError('Request id: %s, Status code: %s, error code: %s, error message: %s' % (response.request_id, response.status_code,response.code, response.message))output=None# 进行语音合成sambert_hifigan_tts_model = {'默认': sambert_hifigan_zh,'四川话': sambert_hifigan_ch,'粤语': sambert_hifigan_ca,'上海话': sambert_hifigan_ws}# 使用对应的语音合成模型进行合成sambert_hifigan_tts = sambert_hifigan_tts_model.get(model)if model == '默认':output = sambert_hifigan_tts(input=response, voice=voice)else:output = sambert_hifigan_tts(input=response)wav = output[OutputKeys.OUTPUT_WAV]path = 'output.wav'with open(path, 'wb') as f:f.write(wav)return history, system, pathdef update_dropdowns(model,voice):   if model == "默认":  voice=gr.Dropdown(choices=['zhitian_emo', 'zhiyan_emo', 'zhizhe_emo', 'zhibei_emo'], value='zhitian_emo',label="声音",visible=True) else: voice=gr.Dropdown(choices=['zhitian_emo', 'zhiyan_emo', 'zhizhe_emo', 'zhibei_emo'], value='zhitian_emo',label="声音",visible=False)return voice
with gr.Blocks() as demo:gr.Markdown("""<p align="center"><img src="https://modelscope.cn/api/v1/models/qwen/Qwen-VL-Chat/repo?Revision=master&FilePath=assets/logo.jpg&View=true" style="height: 80px"/><p>""")gr.Markdown("""<center><font size=4>WeNet语音识别+Qwen-72B-Chat Bot👾+Sambert-Hifigan语音合成</center>""")textbox = gr.Microphone(type="filepath",label='录音')with gr.Row():with gr.Column(scale=3):system_input = gr.Textbox(value=default_system, lines=1, label='System', visible=False)with gr.Column(scale=1):modify_system = gr.Button("🛠️ 设置system并清除历史对话", scale=2, visible=False)system_state = gr.Textbox(value=default_system, visible=False)chatbot = gr.Chatbot(label='Qwen-72B-Chat', visible=False)model=gr.Dropdown(choices=['默认', '四川话', '粤语', '上海话'], value='默认',label="声音模型")voice = gr.Dropdown(choices=['zhitian_emo', 'zhiyan_emo', 'zhizhe_emo', 'zhibei_emo'], value='zhitian_emo',label="声音")audio_output = gr.Audio(type="filepath",label='输出音频',autoPlay=True)with gr.Row():clear_history = gr.Button("🎲 清除记忆")sumbit = gr.Button("🚀 发送")model.change(update_dropdowns,inputs=[model,voice],outputs=[voice])sumbit.click(model_chat,inputs=[textbox, chatbot, system_state,model,voice],outputs=[chatbot, system_input,audio_output],concurrency_limit=10)clear_history.click(fn=clear_session,inputs=[],outputs=[chatbot],concurrency_limit=10)modify_system.click(fn=modify_system_session,inputs=[system_input],outputs=[system_state, system_input, chatbot],concurrency_limit=10)
demo.queue(api_open=False).launch(height=800, share=False)

在这里插入图片描述

WeNet语音识别+Qwen-72B-Chat Bot+Sambert-Hifigan语音合成

WeNet语音识别Qwen-72B-Chat Bot👾Sambert-Hifigan语音合成简介利用 WeNet 进行语音识别，使用户能够通过语音输入与系统进行交互。接着，Qwen-72B-Chat Bot作为聊天机器人接收用户的语音输入或文本输入，提供响应并与用户进行对话…...

编程日记 2024/1/7 1:39:16

是否需要跟上鸿蒙（OpenHarmony）开发岗位热潮？

前言自打华为2019年发布鸿蒙操作系统以来，网上各种声音百家争鸣。尤其是2023年发布会公布的鸿蒙4.0宣称不再支持Android，更激烈的讨论随之而来。本文没有宏大的叙事，只有基于现实的考量。通过本文，你将了解到： Har…...

编程日记 2024/1/7 1:38:15

【Golang】Json 无法表示 float64 类型的 NaN 以及 Inf 导致的 panic

【Golang】Json 无法表示 float64 类型的 NaN 以及 Inf 导致的 panic 原因 golang 服务出现了 panic，根据 panic 打印出的堆栈找到了问题代码，看上去原因是：json 序列化时，遇到了无法序列化的内容 [panic]: json: unsupported …...

编程日记 2024/1/7 1:36:13

bootstrap5实现宠物商店网站 Cat-Master

一、需求分析宠物商店网站是指专门为宠物商店或宠物用品商家而建立的在线平台。这种网站的功能通常旨在提供以下服务： 产品展示：宠物商店网站通常会展示宠物食品、玩具、床上用品、健康护理产品等各种宠物用品的图片和详细信息。这样，潜在的…...

编程日记 2024/1/7 1:35:12

基于多反应堆的高并发服务器【C/C++/Reactor】（中）创建并初始化TcpServer实例以及启动

对于一个TcpServer来说，它的灵魂是什么？就是需要提供一个事件循环EventLop(EventLoop)，不停地去检测有没有客户端的连接到达，有没有客户端给服务器发送数据，描述的这些动作，反应堆模型能够胜任。当服务器和…...

编程日记 2024/1/7 1:34:11

边缘计算设备是什么意思。

问题描述：边缘计算设备是什么意思。问题解答： 边缘计算（Edge Computing）是一种计算模型，其主要思想是在距离数据产生源头更近的地方进行数据处理和计算，而不是将所有数据传输到远程云服务器进行处理。边…...

编程日记 2024/1/7 1:29:06

使用ChatGPT midjourney 等AI智能工具，能为视觉营销做些什么？

使用ChatGPT、Midjourney等AI智能工具，可以极大地提升视觉营销的效率和创意水平。以下是这些工具在视觉营销中的一些具体应用： 内容创作与文案撰写（ChatGPT） 广告文案生成：根据产品特点和目标受众，生成吸…...

编程日记 2024/1/7 1:28:05

图像分割实战-系列教程4：unet医学细胞分割实战2（医学数据集、图像分割、语义分割、unet网络、代码逐行解读）

🍁🍁🍁图像分割实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传 unet医学细胞分割实战1 unet医学细胞分割实战2 unet医学细胞分割实战3 unet医学细胞分割实战4 unet…...

编程日记 2024/1/7 1:27:04

防火墙未开端口导致zookeeper集群异常，kafka起不来

转载说明：如果您喜欢这篇文章并打算转载它，请私信作者取得授权。感谢您喜爱本文，请文明转载，谢谢。问题描述： 主机信息： IPhostname10.0.0.10host1010.0.0.12host1210.0.0.13host13 在这三台主机上部署…...

编程日记 2024/1/7 1:26:03

React-hook-form-mui（二）：表单数据处理

前言在上一篇文章中，我们介绍了react-hook-form-mui的基础用法。本文将着表单数据处理。 react-hook-form-mui提供了丰富的表单数据处理功能，可以通过watch属性来获取表单数据。 Demo 下面是一个使用watch属性的例子： import React from…...

编程日记 2024/1/7 1:24:00

java网络文件地址url的转换为MultipartFile文件流

废话不多说，直接上代码一、异常捕捉类 public class BusinessException extends RuntimeException {public BusinessException(String msg){super(msg);} }二、转换类 package com.example.answer_system.utils;import org.springframework.mock.web.MockMultipa…...

编程日记 2024/1/7 1:21:55

JS实现/封装节流函数

封装节流函数节流原理：在一定时间内，只能触发一次 let timer, flag; /*** 节流原理：在一定时间内，只能触发一次* * param {Function} func 要执行的回调函数 * param {Number} wait 延时的时间* param {Boolean} immediate 是否立…...

编程日记 2024/1/7 1:19:54

ENVI 各版本安装指南

ENVI下载链接 https://pan.baidu.com/s/1APpjHHSsrXMaCcJUQGmFBA?pwd0531 1.鼠标右击【ENVI 5.6(64bit）】压缩包（win11及以上系统需先点击“显示更多选项”）选择【解压到 ENVI 5.6(64bit）】。 2.打开解压后的文件夹&#xff0c…...

编程日记 2024/1/7 1:17:52

60天零基础干翻C++————初识C++

初识c 命名空间命名空间的定义命名空间的使用输入输出流缺省参数引用引用定义常量的引用引用的使用场景做函数参数引用做返回值命名空间命名空间的定义在c语言中会有下面问题上述代码中，全局变量rand 可能会命名冲突，如下图此时编译失败&…...

编程日记 2024/1/7 1:13:49

考研复试英语口语问答举例第二弹

考研复试英语口语问答举例第二弹文章目录考研复试英语口语问答举例第二弹Question ：介绍你的读研兴趣与动机Answer11：（自动化控制方向）Answer12：（集成电路方向）Answer13：&#xff…...

编程日记 2024/1/7 1:12:48

MyBatis-Plus实现自定义SQL语句的分页查询

正常开发的时候，有时候要写一个多表查询，然后多表查询之后还需要分页，MyBatis-Plus的分页插件功能挺不错的，可以很简单实现自定义SQL的分页查询。分页插件配置 import com.baomidou.mybatisplus.annotation.DbType; import com…...

编程日记 2024/1/7 1:10:46

vue3 里的 ts 类型工具函数

目录前言一、PropType\<T>二、MaybeRef\<T>三、MaybeRefOrGetter\<T>四、ExtractPropTypes\<T>五、ExtractPublicPropTypes\<T>六、ComponentCustomProperties七、ComponentCustomOptions八、ComponentCustomProps九、CSSProperties 前言相关 …...

编程日记 2024/1/7 1:08:45

【SpringCloud】之远程消费（进阶使用）

🎉🎉欢迎来到我的CSDN主页！🎉🎉 🏅我是君易--鑨，一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《SpringCloud开发之远程消费》。🎯&a…...

编程日记 2024/1/7 1:07:43

自然语言处理24-T5模型的介绍与训练过程，利用简单构造数据训练微调该模型，体验整个过程

大家好，我是微学AI，今天给大家介绍一下自然语言处理24-T5模型的介绍与训练过程，利用简单构造数据训练微调该模型，体验整个过程。在大模型ChatGPT发布之前，NLP领域是BERT,T5模型为主导，T5（Text-to-Text Transfer Transformer）是一种由Google Brain团队在2019年提出的自然…...

编程日记 2024/1/7 1:06:42

CISSP 第5章保护资产的安全

1、资产识别和分类 1.1 敏感数据 1.1.1 定义敏感数据是任何非公开或非机密的信息，包括机密的、专有的、受保护的或因其对组织的价值或按照现有的法律和法规而需要组织保护的任何其他类型的数据。 1.1.2 个人身份信息PII 个人身份信息（PII&#xff09…...

编程日记 2024/1/7 1:05:41

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/6 4:07:25

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2026/2/7 0:28:16

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

css3笔记（1）自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size：0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

编程新知 2025/10/11 5:18:43

论文笔记——相干体技术在裂缝预测中的应用研究

目录相关地震知识补充地震数据的认识地震几何属性相干体算法定义基本原理第一代相干体技术：基于互相关的相干体技术（Correlation）第二代相干体技术：基于相似的相干体技术（Semblance）基于多道相似的相干体…...

编程新知 2026/2/7 1:51:12

如何更改默认 Crontab 编辑器？

在 Linux 领域中，crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用，用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益，允许他们自动执行各种系统任务。编辑 Crontab 文件通常使用文本编…...

编程新知 2026/1/30 3:27:35

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

编程新知 2026/2/1 17:50:36

day36-多路IO复用

一、基本概念 （服务器多客户端模型） 定义：单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力作用：应用程序通常需要处理来自多条事件流中的事件，比如我现在用的电脑，需要同时处理键盘鼠标…...

编程新知 2026/1/31 7:42:50

怎么让Comfyui导出的图像不包含工作流信息，

为了数据安全，让Comfyui导出的图像不包含工作流信息，导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo（推荐） 在 save_images 方法中，删除或注释掉所有与 metadata …...

编程新知 2025/8/13 15:12:54

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦可远程调试基于PHP的连锁酒店管理系统一介绍连锁酒店管理系统基于原生PHP开发，数据库mysql，前端bootstrap。系统角色分为用户和管理员。技术栈 phpmysqlbootstrapphpstudyvscode 二功能用户 1 注册/登录/注销 2 个人中…...

编程新知 2026/1/31 6:20:15

WeNet语音识别+Qwen-72B-Chat Bot👾+Sambert-Hifigan语音合成

相关文章：