当前位置: 首页 > news >正文

【文字到语音的论文总结】

1.文字到语音的整个过程

文字到语音的一般整体结构

主要是下面这个流程,每个网络可能会把其中两者或是三者融合在一起来;
在这里插入图片描述

长度不同的问题

生成的语音可能和文字的长度并不一样,因此需要解决这个问题

  • Tactron使用的是交叉注意力的方式解决他们长度不同的问题
  • fastSpeech直接预测了输出的长度,通过将文本信息拷贝几分的方式,获得了相同的长度。

2.各种具体的网络结构

2.1WaveNet

2.1.1研究动机

  • 原有的语音生成模型大多采用RNN这个东西太慢了,不如采用一个卷积的结构,来进行替代;
  • 卷积是前后都感知的这不合适,因此改一下,只让其卷进去前面的部分,这样就合理了。称为“因果卷积”
  • 既然使用了卷积,那么使用空洞卷积就自然而然了。

2.1.2结构和类型

输入输出

将声学模型和发声器全部都融合在一起了
输入处理过的字符串信息,输出语音

类型是自回归

2.1.3不能解决的问题

  • 虽然训练的时候比较快,但是在预测的时候,开始启动时候因为空洞卷积的问题需要多轮。(这里不确定需要再确认)

2.2tactron

在这里插入图片描述

2.2.1研究动机

1.前人的融合工作还是不太够,不能真正的端到端,因此作者这里再融合一下;
2.文本序列较长的时候会导致较大的累计误差,作者使用交叉注意力机制来解决这个问题,这个貌似也是交叉注意力本身的研究动机;
3.预测较慢,由于语音信息前后比较相近,因此作者就直接一次预测三帧。

2.2.2结构和类型

输入输出

将字符串分析和声学模型融合在一起了
输入是字符串,输出是梅尔频谱

网络结构

使用机器翻译借鉴过来的模型CBHG

类型是自回归

2.2.3奇怪的点

虽然声学模块用的是自回归的,但是这个交叉注意力一进去,其实每个节点不都有全局信息了吗

2.3fastSpeech

2.3.1研究动机

  • 采用自回归是有一定问题的,因为自回归是非常缓慢的,并且由于累计误差会在最终结果当中产生重大错误;
  • 前人采用自回归的问题是被迫为之,主要是不知道每个文字需要说多长时间,于是本文作者发明了一个先预测每个字说多长时间再整体预测全流程该怎么说的网络结果。
  • 想要实现这个预测说多久其实也不是很复杂,因为可以用别人训练好的TTS模型直接来进行得到。

2.3.2 结构和类型

输入输出

也是将文本分析和声学模型融合在一起
输入是文字串输出是梅尔谱

类型是非自回归

2.4fastSpeech2

  • 之前的网络较为复杂,消除蒸馏可以更好的简化网络
  • 之前通过长度预测可以调整输入的长度对齐,那么是否可以通过类似位置加入其他模块来增加更多语音信息(音高、能量、情感等);

相关文章:

【文字到语音的论文总结】

1.文字到语音的整个过程 文字到语音的一般整体结构 主要是下面这个流程,每个网络可能会把其中两者或是三者融合在一起来; 长度不同的问题 生成的语音可能和文字的长度并不一样,因此需要解决这个问题 Tactron使用的是交叉注意力的方式解…...

E. Data Structures Fan(思维 + 异或前缀和)

Problem - E - Codeforces 给你一个整数数组 a1, a2,..., an,以及一个由 n 个字符组成的二进制字符串† s。 Augustin 是一个数据结构的爱好者。因此,他请你实现一个可以回答 q 个查询的数据结构。这里有两种类型的查询: Plain Text "1…...

初学python爬虫学习笔记——爬取网页中小说标题

初学python爬虫学习笔记——爬取网页中小说标题 一、要爬取的网站小说如下图 二、打开网页的“检查”,查看html页面 发现每个标题是列表下的一个个超链接,从183.html到869.html 可以使用for循环依次得到: x range(183,600) for i in x:pr…...

The WebSocket session [x] has been closed and no method (apart from close())

在向客户端发送消息时,session关闭了。 不管是单客户端发送消息还是多客户端发送消息,在发送消息之前判断session 是否关闭 使用 isOpen() 方法...

前端实现展开收起的效果 (react)

需求背景:需要实现文本的展开收起效果,文本是一行一行的,数据格式是数组结构。 如图所示(图片已脱敏) 简单实现:使用一个变量控制展开收起效果。 展开收起逻辑部分(react) const […...

ABY2.0:更低的通信开销

参考文献: [ABY] Demmler D, Schneider T, Zohner M. ABY-A framework for efficient mixed-protocol secure two-party computation[C]//NDSS. 2015.[ABY3] Mohassel P, Rindal P. ABY3: A mixed protocol framework for machine learning[C]//Proceedings of the…...

vue项目预览图片

1.图片为本地上传的预览&#xff1a; <input type"file" ref"file"/> <img :src"imgUrl"/>let fr new FileReader()fr.readAsArrayBuffer(this.$refs.file.files[0])fr.addEventListener("loadend", (e) > {let buff…...

Tomcat 安装

1.关闭防火墙 2.安装JDK包 3. 4。添加环境变量 5.刷新配置文件 6.解压文件 7.启动tomcat 8. 9.编写tomcat.service文件 vim /etc/systemd/system/tomcat.service 10.刷新服务 11.打开浏览器访问&#xff1a;192.168.2.100:8080/&#xff0c;正常可以看到以下界面...

计算机网络的故事——HTTP报文内的HTTP信息

HTTP报文内的HTTP信息 文章目录 HTTP报文内的HTTP信息一、HTTP 报文二、请求报文及响应报文的结构三、编码提升传输速率 一、HTTP 报文 HTTP报文是由多行&#xff08;CRLF作换行符&#xff09;数据构成的字符串文本&#xff0c;HTTP报文可以分为报文首部和报文主体两部分&…...

CF1120 D. Power Tree 巧妙的图论转化

传送门 [前题提要]:无 题目描述: 就是给你一棵树,然后每个点有花费,然后你可以选一个点,付费后对这个点的子树的所有叶子结点增减任意权值. 考虑有一个人会给这棵树的所有叶子结点赋值(值我们不知道),输出最小的花费,使得无论它如何赋值,我们使用上述的花 费都能使所有的叶子…...

【算法训练-字符串 三】最长公共子串、最长公共子序列

废话不多说&#xff0c;喊一句号子鼓励自己&#xff1a;程序员永不失业&#xff0c;程序员走向架构&#xff01;本篇Blog的主题是【】&#xff0c;使用【】这个基本的数据结构来实现&#xff0c;这个高频题的站点是&#xff1a;CodeTop&#xff0c;筛选条件为&#xff1a;目标公…...

lintcode 1446 · 01矩阵走路问题 【两次BFS, VIP 中等 1也计算距离,但是不入队列】

题目链接&#xff0c;描述 https://www.lintcode.com/problem/1446 给定一个大小为 n*m 的 01 矩阵 grid &#xff0c;1 是墙&#xff0c;0 是路&#xff0c;你现在可以把 grid 中的一个 1 变成 0&#xff0c;请问从左上角走到右下角是否有路可走&#xff1f;如果有路可走&am…...

第一个实例:QT实现汽车电子仪表盘

目录 1.实现效果 1.1.视频演示 1.2.实现效果截图 2.生成的安装程序 3.功能概述 4.具体实现 5.QT扩展介绍 5.1.QT介绍 5.2.QT历史发展 5.3.QT平台支持 5.4.Qt Creator 5.5.优势 5.5.1.优良的跨平台特性 5.5.2.面向对象 5.5.3.丰富的 API 1.实现效果 1.1.视频演…...

【MySQL系列】MySQL的事务管理的学习(一)_ 事务概念 | 事务操作方式 | 事务隔离级别

「前言」文章内容大致是MySQL事务管理。 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 一、事务概念二、事务的版本支持三、事务提交方式四、事务常见的操作方式4.1 事务正常操作4.2 事务异常验证 五、事务隔离级别5.1 查看与设置隔离性5.2 读未提交&…...

扫地机器人还能创新吗?云鲸给了个Yes

作者 | 辰纹 来源 | 洞见新研社 1996年&#xff0c;瑞典家电巨头伊莱克斯推出全球首款扫地机器人“三叶虫”。 与现在的产品相比&#xff0c;“三叶虫”靠随机碰撞的模式对空间进行清扫&#xff0c;清洁效率很低&#xff0c;市场渗透率也不高&#xff0c;但并不妨碍戴森、iRo…...

PHP NBA球迷俱乐部系统Dreamweaver开发mysql数据库web结构php编程计算机网页

一、源码特点 PHP NBA球迷俱乐部系统是一套完善的web设计系统&#xff0c;对理解php编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 基于PHP的NBA球迷俱乐部 二、功能介绍 1、前台主要功能&#xff1a; 系统首页 网站介…...

JavaScript-----DOM元素

目录 前言&#xff1a; 1. DOM介绍 2. 获取节点 3. 操作HTML内容 4. 监听事件 案例 5. 操作节点的标签属性 6. 操作样式 7. 创建、添加、删除节点 前言&#xff1a; 在此之前我们要想去操作网页元素一般是去通过CSS选择器实现的&#xff0c;今天我们就学习JavaScript里…...

激光切割机在船舶行业的的应用有哪些

我国享有世界工厂的美誉&#xff0c;是全球制造业的主力。然而&#xff0c;在船舶制造的关键技术领域&#xff0c;我国的研发投入不足&#xff0c;技术进步仍滞后&#xff0c;我国高端船舶制造的实力仍显不足。 在我国制造业全面复苏的当前背景下&#xff0c;“精准制作”正构成…...

AFL++模糊测试

一、AFL 这里我们主要使用AFL Fuzzing 测试IOT的二进制文件&#xff0c;当我们解压提取一个固件时&#xff0c;能够获得大量的IOT二进制应用 &#xff0c;如果要进行漏洞挖掘则需要将二进制文件进行逆向分析&#xff0c;然后查找危险函数以及输入接口&#xff0c;对于一个大型的…...

C# 使用ListBox及Picturebox显示所选的任意路径文件夹下的图像

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System...

自适应滤波实战:如何用LMS算法在MATLAB/Simulink中快速搭建一个‘简易版’维纳滤波器?

自适应滤波实战&#xff1a;LMS算法在MATLAB/Simulink中的工程化实现 在信号处理领域&#xff0c;自适应滤波技术因其强大的环境适应能力而备受青睐。想象一下&#xff0c;你正在处理一段被噪声污染的语音信号&#xff0c;或是试图从复杂工业环境中提取有效振动特征——传统固定…...

2025年SQL2API平台深度评测:QuickAPI、dbapi与Magic API的实战应用指南

1. 2025年SQL2API平台的核心价值与应用场景 在数据爆炸的时代&#xff0c;企业每天产生的数据量呈指数级增长。我曾参与过一个零售企业的数据中台项目&#xff0c;他们的商品数据分散在5个不同系统的数据库中&#xff0c;光是整理基础数据接口就耗费了团队两周时间。直到我们引…...

效率倍增:用快马平台一键生成极客日报推荐的高效开发工具与脚本

最近在极客日报上看到不少提升开发效率的小技巧&#xff0c;比如用Prettier统一代码风格、配置Git Hooks自动化检查等等。但每次看完想实践时&#xff0c;总得花时间查文档、写配置&#xff0c;挺麻烦的。于是我用InsCode(快马)平台做了个工具生成器&#xff0c;能直接把日报里…...

颠覆传统:智能网页捕获工具重新定义长截图体验

颠覆传统&#xff1a;智能网页捕获工具重新定义长截图体验 【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-chrome-extension …...

AI辅助开发winner1300图像处理:用自然语言描述自动生成并行滤波代码

今天尝试用AI辅助开发一个基于winner1300框架的图像并行处理项目&#xff0c;整个过程比想象中顺利很多。记录下这个用自然语言描述就能生成完整代码的神奇体验。 项目需求分析 我需要实现一个能同时应用高斯模糊和边缘检测滤镜的图像处理工具。核心难点在于如何利用winner1300…...

别再买错千元投影! 哈趣Q1Pro藏看越级体验

当下的智能投影市场正经历着深度的“去伪存真”变革&#xff0c;行业洗牌加速的同时&#xff0c;也让消费者的选购变得愈发谨慎。洛图科技数据显示&#xff0c;2025年国内智能投影市场整体销量下滑&#xff0c;其中低端投影成为调整重灾区&#xff0c;0-499元价位段销量同比大跌…...

终极指南:STL到STEP格式转换神器stltostp使用教程

终极指南&#xff1a;STL到STEP格式转换神器stltostp使用教程 【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 在3D设计和工程制造领域&#xff0c;格式转换是连接创意与生产的关键桥梁。今天我…...

RSA2 - Writeup by AI

RSA2 - Writeup by AI 题目信息项目内容题目来源Bugku CTF题目类型Crypto (密码学)考点RSA 小指数攻击、Rabin 加密题目描述 给定 RSA 加密参数&#xff1a; 加密指数 e 2模数 N&#xff08;3072 位&#xff09;密文 c 要求解密得到 flag。 考点分析 核心知识点 RSA 小指数攻击…...

新手友好:基于快马平台快速上手dhnvr416h-hd设备数据监控开发

新手友好&#xff1a;基于快马平台快速上手dhnvr416h-hd设备数据监控开发 最近在做一个物联网项目&#xff0c;需要对接dhnvr416h-hd设备的数据监控功能。作为刚接触这个领域的新手&#xff0c;我发现理解设备数据格式和通信流程是最关键的第一步。好在通过InsCode(快马)平台的…...

实战分享:如何用Altium Designer高效搞定PCB的定位孔、散热孔和屏蔽孔?

Altium Designer实战&#xff1a;PCB定位孔、散热孔与屏蔽孔的高效设计指南 在PCB设计领域&#xff0c;机械孔的设计往往被工程师视为"简单任务"而草率处理&#xff0c;直到量产时才发现定位偏差、散热不足或EMI超标等问题。作为从业十年的硬件设计师&#xff0c;我曾…...