当前位置: 首页 > news >正文

关于百度、微软语音合成的实现案例

关键词

自助机产品、排队呼叫功能、网络喇叭、百度语音合成SDK、微软TTS

阅读建议

对自助机产品功能扩展感兴趣的读者、需要实现远程语音呼叫功能的开发者、想要了解网络喇叭选型及其使用的技术人员、对百度语音合成SDK和微软TTS感兴趣的开发者

阅读时长

预计阅读时长:15-20分钟。这个阅读时长是基于文章内容的详细程度和技术深度来预估的,读者可以在这个时间内较为全面地了解整个项目的需求、解决思路、准备工作以及具体的开发工作。

目录

需求

解决思路

准备工作

开发工作

准备

百度语音合成SDK(短文本)的使用

申请账号获得授权

调用百度语音合成SDK

微软TTS的使用

获取当前Windows中的发音人信息:

 调用微软TTS

其他代码


需求

近日公司的自助机产品要在现有自助服务功能的基础上,增加一个排队呼叫功能。考虑到现有自助服务需要对申请人进行语音提示,新增的排队呼叫发声不能放在本地,应另外想办法。

解决思路

经研究采用了网络喇叭的方式:本地语音提示,仍然采用本机TTS并发声播放;另购入一个网络喇叭,在需要对排队人员进行呼叫时,本机从服务器获取呼叫信息(排队号、窗口),调用网络喇叭自带的TTS,或者使用互联网(如百度开放平台)的语音合成,实现远端(喇叭安装在等候区上方)播放。

准备工作

网络喇叭的选型:由于等候区上方的吊顶周边无电源,故选择了一款支持POE供电的网络喇叭。喇叭自带配套软件,可实现文本合成、实时采集等功能。

POE供电模块:网络喇叭功率20W,需要选择单口供电功率20W以上的POE交换机或者供电模块。

将POE交换机连接电源,自助机连接网线至POE交换机,再从该交换机引出一根网线,经由吊顶穿线,连接等候区上方的吊装网络喇叭。

开发工作

准备

在Visual Studio中,使用Nuget安装Baidu.Aip包

使用Nuget安装System.Speech包,并添加“using System.Speech.Synthesis;”的引用

百度语音合成SDK(短文本)的使用

申请账号获得授权

注册百度开发者平台账号,新建应用并申请百度云语音合成服务,最终得到API_KEY、Secret_KEY两个参数值。

调用百度语音合成SDK

var API_KEY = this.txtAppKey.Text;
var SECRET_KEY = this.txtSecreKey.Text;
var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
_ttsClient.Timeout = 60000; // 修改超时时间
// 可选参数
var option = new Dictionary < string,object > () {{"spd",GetStandardSpeed(this.trbSpeed.Value)}, // 语速,取值0-15,默认为5中语调{"vol",GetStandardVolume(this.trbVolume.Value)}, // 音量:基础音库取值0-9{"per",cbBaiduReader.SelectedIndex}, // 发音人:度小美=0,度小宇=1,度逍遥(基础)=3,度丫丫=4{"aue",6} //下载的文件格式, 3:mp3(default) 4: pcm-16k 5: pcm-8k 6. wav};
// 使用提供的文本和可选参数进行语音合成  
var result = _ttsClient.Synthesis(this.txtContent.Text.Trim(), option);  
// 检查结果的错误代码,如果为0(或result.Success为真),表示合成成功  
if (result.Success) // 或 result.ErrorCode为0  
{  // 使用MemoryStream来读取合成后的语音数据  using (MemoryStream ms = new MemoryStream(result.Data))  {  // 使用SoundPlayer来播放语音  using (System.Media.SoundPlayer sp = new System.Media.SoundPlayer(ms))  {  sp.Play();  }  }  
}

注:由于System.Media.SoundPlayer仅能播放wav,故百度语音合成参数“aue”固定位6(wav格式)。

微软TTS的使用

获取当前Windows中的发音人信息:
 

// 使用SpeechSynthesizer类创建一个语音合成器实例,并确保在完成后释放资源  
using (SpeechSynthesizer synthesizer = new SpeechSynthesizer())  
{  // 遍历并获取系统已安装的所有语音  foreach (var voice in synthesizer.GetInstalledVoices())  {  // 获取当前语音的详细信息  var info = voice.VoiceInfo;  // 将语音的名称添加到comboBox1的下拉列表中,供用户选择  comboBox1.Items.Add(info.Name);  }  
}

 调用微软TTS

// 使用SpeechSynthesizer类创建一个新的语音合成器实例  
using(var synthesizer = new SpeechSynthesizer()) {// 将语音输出设置为默认音频设备  synthesizer.SetOutputToDefaultAudioDevice();// 从comboBox1中选择一个语音,这里的comboBox1可能是一个下拉列表,用于选择不同的语音  synthesizer.SelectVoice(comboBox1.Text);// 设置语音的音量,音量值通过调用GetStandardVolume函数和trbVolume控件的值来确定  synthesizer.Volume = GetStandardVolume(this.trbVolume.Value);// 设置语音的语速,语速值通过调用GetStandardSpeed函数和trbSpeed控件的值来确定  synthesizer.Rate = GetStandardSpeed(this.trbSpeed.Value);// 读取txtContent文本框中的内容,并去除首尾的空白字符,然后使用语音合成器朗读这段文本  synthesizer.Speak(this.txtContent.Text.Trim());
}

其他代码

另外,考虑到百度语音合成和微软TTS的音量、语速的取值范围不尽相同,故编写二者标准化方法进行转换:

// 定义了一个私有方法GetStandardVolume,用于根据当前的TTS引擎获取标准音量。 
// 入参为微软tts要求的0-100
private int GetStandardVolume(int currentVolume)    
{    // 判断当前的TTS引擎是否为百度。  // 如果是百度引擎(音量范围0-9),则将当前音量乘以0.09作为标准音量返回。  // 如果不是百度引擎,则直接返回当前音量。  return currentTTSEngine == CurrentTTSEngine.Baidu    ? (int)(0.09 * currentVolume)    : currentVolume;    
}    // 定义了一个私有方法GetStandardSpeed,用于根据当前的TTS引擎获取标准语速。  
//入参为微软tts要求的-10~10
private int GetStandardSpeed(int currentSpeed)    
{    // 判断当前的TTS引擎是否为百度。  // 如果是百度引擎(语速取值范围0-15),则计算标准语速,计算方式为:当前语速加10后乘以0.75,再加0.5,最后转换为整数返回。  // 如果不是百度引擎,则直接返回当前语速。  return currentTTSEngine == CurrentTTSEngine.Baidu    ? (int)(0.75 * (currentSpeed + 10) + 0.5)    : currentSpeed;    
}

至于上面映射的线性关系参数的确定,让AI帮了忙:

相关文章:

关于百度、微软语音合成的实现案例

关键词 自助机产品、排队呼叫功能、网络喇叭、百度语音合成SDK、微软TTS 阅读建议 对自助机产品功能扩展感兴趣的读者、需要实现远程语音呼叫功能的开发者、想要了解网络喇叭选型及其使用的技术人员、对百度语音合成SDK和微软TTS感兴趣的开发者 阅读时长 预计阅读时长&#xf…...

二叉树:镜像树,子结构,二叉树转链表,二叉树的倒数K个数,对称,Z型打印

1.把一棵二叉树转换为它的镜像树。 void mirror_tree(TreeNode *root) {if(rootNULL) return ;TreeNode *temproot->right;root->rightroot->left;root->lefttemp;mirror_tree(root->right);mirror_tree(root->left);}2、输入两棵二叉树A&#xff0c;B&…...

瑞秋,詹妮弗·安妮斯顿多年来与本·阿弗莱克保持着“调情”友谊 又一个詹妮弗

尽管所有迹象都表明本阿弗莱克和詹妮弗洛佩兹的婚姻即将走向离婚,但他尚未公开评论此事。不过,好莱坞圈内人士已经纷纷将他与另一位名人联系起来。事实上,是另一位詹妮弗。 一位消息人士向媒体透露,詹妮弗安妮斯顿和阿弗莱克一直都很有默契——无论是在银幕上还是在银幕外…...

指纹失效,忘记iPhone屏幕解锁密码怎么应对?

为保证手机的安全及隐私&#xff0c;我们会给手机设置屏幕锁屏密码&#xff0c;通过输入设置密码来解锁手机屏幕锁&#xff0c;但为了给大家提供快速便捷的解锁方式&#xff0c;苹果公司提供了指纹解锁&#xff0c;不仅解锁更便捷了还极大地增强了设备的安全性。但有时我们手指…...

09.XSS跨站脚本攻击(超详细!!!)

1、什么是XSS XSS&#xff08;跨站脚本攻击&#xff09;&#xff1a;攻击者利用这个漏洞将恶意脚本注入到网页中&#xff0c;当其它用户浏览这些页面时&#xff0c;恶意脚本会在用户的浏览器中执行。XSS攻击允许攻击者在用户的浏览器上执行脚本&#xff0c;从而可能获取用户的…...

讲解人工智能在现代科技中的应用和未来发展趋势-水文

人工智能&#xff08;Artificial Intelligence&#xff0c;简称AI&#xff09;是一种模拟人类智能的科技领域&#xff0c;它通过计算机模拟人类的思维、学习、推理和决策能力&#xff0c;以便解决复杂的问题。近年来&#xff0c;人工智能技术的发展取得了惊人的进展&#xff0c…...

2.2 QT 环境配置

2.2 QT环境配置 QT是一个1991年由QT Company开发的跨平台C图形用户界面应用程序开发框架。它既可以开发GUI程序&#xff0c;也可以用于开发非GUI程序&#xff0c;比如控制台工具和服务器。Qt是面向对象的框架&#xff0c;使用特殊的代码生成扩展&#xff08;称为元对象编译器&…...

2.类和对象(上)

1. 类的定义 1.1 类定义格式 • class为定义类的关键字&#xff0c;Stack为类的名字&#xff0c;{ }中为类的主体&#xff0c;注意类定义结束时后面分号不能省略。类体中内容称为类的成员&#xff1a;类中的变量称为类的属性或成员变量; &#xff08;类和结构体非常像&#…...

【实际案例】服务器宕机情况分析及处理建议

了解银河麒麟操作系统更多全新产品&#xff0c;请点击访问麒麟软件产品专区&#xff1a;https://product.kylinos.cn 服务器环境以及配置 物理机/虚拟机/云/容器 物理机 外网/私有网络/无网络 私有网络 处理器&#xff1a; Kunpeng 920 内存&#xff1a; 4 TiB BIOS版…...

Linux系统之ncdu命令的基本使用

Linux系统之ncdu命令的基本使用 一、ncdu命令命令介绍1.1 ncdu简介1.2 ncdu特点 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查系统镜像源3.4 更新软件列表 四、安装ncdu工具4.1 安装ncdu软件4.2 n…...

STM32L051K8U6-HAL-LED闪烁设计

HAL三步法&#xff1a; 1、配置下载线 2、配置晶振 3、配置时钟 注意&#xff1a;中断优先级&#xff08;这里防止HAL_Delay卡死&#xff0c;详细请看 http://t.csdnimg.cn/NQhQV&#xff09; 4、 配置灯引脚属性为输出模式。并设置标签为LED 生成代码&#xff1a;编写while里…...

记一次远程API调用失败

记一次远程API调用失败 最近开发忙&#xff0c;项目紧&#xff0c;系统出现一些忽隐忽现的问题&#xff0c;本地也不能复现&#xff0c;当时也无法理解&#xff0c;就先搁置了&#xff0c;现在回想起来&#xff0c;这里还是明智的。 这个bug很神奇 今天&#xff0c;原本好好的…...

【力扣】746.使用最小花费爬楼梯

题目描述 给你一个整数数组 cost &#xff0c;其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用&#xff0c;即可选择向上爬一个或者两个台阶。 你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。 请你计算并返回达到楼梯顶部的最低花费。 示例…...

06:【stm32】中断一:NVIC的配置

中断 1、中断的简介1.1、什么是中断1.2、为什么需要中断 2、中断的优先级2.1、中断优先级的表示方法 3、NVIC3.1、什么的NVIC3.2、NVIC的内部结构3.3、中断向量表3.4、程序实现①开启中断源②配置NVIC③中断响应函数 1、中断的简介 1.1、什么是中断 正在进行的事务被突发事件打…...

Flutter简介

Flutter是一个由Google开发的开源移动UI框架&#xff0c;它允许开发者使用Dart语言来构建高性能、高保真的iOS和Android应用。Flutter的设计理念是"编写一次&#xff0c;到处运行"&#xff08;write once, run everywhere&#xff09;&#xff0c;这意味着开发者可以…...

WT2605C蓝牙语音芯片赋能对讲机新体验:无屏操控、音频解码与蓝牙音箱三合一

一、产品概况 对讲机市场是一个技术成熟且具有广泛应用前景的市场。对讲机作为无线通信设备的一种&#xff0c;在许多不同的领域和业务中发挥着重要作用。从技术发展角度来看&#xff0c;对讲机经历了从模拟到数字的转型&#xff0c;以及从简单通信工具向多功能设备的演进。当…...

ctfshow-web入门-sql注入(web191-web195)

目录 1、web191 2、web192 3、web193 4、web194 5、web195 1、web191 过滤了 ascii 使用 ord 代替&#xff1a; import requests import string url "http://a585c278-320a-40e7-841f-109b1e394caa.challenge.ctf.show/api/index.php" out for j in range(1…...

【ARM】v8架构programmer guide(3)_ARMv8的寄存器

目录 4.ARMv8 registers 4.1 AArch64 特殊寄存器 4.1.1 Zero register 4.1.2 Stack pointer &#xff08;SP) 4.1.3 Program Counter &#xff08;PC) 4.1.4 Exception Link Register(ELR) 4.1.5 Saved Process Status Register &#xff08;SPSR&#xff09; 4.2 Proc…...

SpringIOC整合dbUtil做的增删改查以及转账业务的实现

目录 一、xml方式实现 1.介绍lombok插件 2.功能 3.步骤 3.1 idea安装插件(只做一次) 3.2 添加坐标 3.3 编写注解 4.核心类 4.1 QueryRunner 4.2 query() 查询 4.3 update() 增删改 5.配置文件applicationContext.xml 6.junit测试 6.1使用步骤 6.1.1 坐标 6.1.2…...

【Nacos无压力源码领读】(二) 集成 LoadBanlancer 与 OpenFeign

上一篇文章中, 详细介绍了 Nacos 注册中心的原理, 相信看完后, 大家应该完全掌握了 Nacos 客户端是如何自动进行服务注册的, 以及 Nacos 客户端是如何订阅服务实例信息的, 以及 Nacos 服务器是如何处理客户端的注册和订阅请求的; 本文承上启下, 在订阅服务实例的基础上, 介绍如…...

MPNet:旋转机械轻量化故障诊断模型详解python代码复现

目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

超短脉冲激光自聚焦效应

前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应&#xff0c;这是一种非线性光学现象&#xff0c;主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场&#xff0c;对材料产生非线性响应&#xff0c;可能…...

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令&#xff1a; return <value>;在收到客户端连接后&#xff0c;立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量&#xff08;如 $time_iso8601、$remote_addr 等&#xff09;&a…...

<6>-MySQL表的增删查改

目录 一&#xff0c;create&#xff08;创建表&#xff09; 二&#xff0c;retrieve&#xff08;查询表&#xff09; 1&#xff0c;select列 2&#xff0c;where条件 三&#xff0c;update&#xff08;更新表&#xff09; 四&#xff0c;delete&#xff08;删除表&#xf…...

MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

Python:操作 Excel 折叠

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出&#xff1a;JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中&#xff0c;随机数的生成看似简单&#xff0c;却隐藏着许多玄机。无论是生成密码、加密密钥&#xff0c;还是创建安全令牌&#xff0c;随机数的质量直接关系到系统的安全性。Jav…...

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施&#xff0c;由雇主和个人按一定比例缴纳保险费&#xff0c;建立社会医疗保险基金&#xff0c;支付雇员医疗费用的一种医疗保险制度&#xff0c; 它是促进社会文明和进步的…...

理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端

&#x1f31f; 什么是 MCP&#xff1f; 模型控制协议 (MCP) 是一种创新的协议&#xff0c;旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议&#xff0c;它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块&#xff0c;它提供了一个轻量级的 HTTP 服务器实现&#xff0c;主要用于构建基于 HTTP 的应用程序和服务。 功能介绍&#xff1a; 主要功能 HTTP服务器功能&#xff1a; 支持 HTTP/1.1 协议 简单的请求/响应处理模型 支持 GET…...