当前位置：首页 > news >正文

环境背景文本到语音转换

news 2026/2/9 11:35:34

概述

本文所涉及的所有资源的获取方式：https://www.aspiringcode.com/content?id=100000000027&uid=2f1061526e3a4548ab2e111ad079ea8c

论文标题：

本文提出了 VoiceLDM，这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型：描述提示和内容提示。前者提供有关音频整体环境背景的信息，而后者则传达语言内容。为了实现这一目标，我们采用基于潜在扩散模型的文本到音频（TTA）模型，并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper，VoiceLDM 可以在大量真实世界音频上进行训练，而无需手动注释或转录。此外，我们采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。实验结果表明，VoiceLDM 能够生成与两种输入条件均吻合的可信音频，甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外，我们还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能，并表明它取得了有竞争力的结果。

演示效果

可以看到演示效果（暂时只支持英文，不过试了一下拼音，效果尚可）

1、描述一个环境，比如：She is talking in a park！ 2、写下一段内容，比如：Good morning! How are you feeling today? 3、程序就可以输出一段环境语音，让你一下子就能感受到：早晨鸟语花香的公园里，她在跟人家亲切的打招呼的场景语音

核心逻辑

详见描述

环境声（文本转音频） + 说话声（文字转语音） = 场景合成声（环境控制的文本转语音）

使用方式

生成带有描述提示和内容提示的音频

python generate.py --desc_prompt "She is talking in a park." --cont_prompt "Good morning! How are you feeling today?"

上述程序初次调用会下载对应模型，有些资源可能需要魔法：

涉及的模型（运行程序时会自动下载）:

成功后会生成语音在outputs文件夹下：

本文所涉及的所有资源的获取方式：https://www.aspiringcode.com/content?id=100000000027&uid=2f1061526e3a4548ab2e111ad079ea8c

环境背景文本到语音转换

目录

概述

演示效果

核心逻辑

使用方式

相关文章：

环境背景文本到语音转换

后端数据增删改查基于Springboot+mybatis mysql 时间根据当时时间自动填充，数据库连接查询不一致，mysql数据库连接不好用

《Python编程实训快速上手》第九天--调试技巧

html5复习一

SSL/TLS，SSL，TLS分别是什么

css iframe标签使用

API的妙用

HTML5超酷响应式视频背景动画特效(六种风格，附源码)

Spire.PDF for .NET【页面设置】演示：打开 PDF 时自动显示书签或缩略图

算法中常用到的数学知识：埃拉托色尼筛法(获取质数)、欧几里得算法(求两个数最大公因数)

实战OpenCV之人脸识别

图像预处理之图像滤波

【通俗理解】隐变量的变分分布探索——从公式到应用

PyTorch 分布式并行计算

[cg] vulkan external_memory

如何使用Python代码实现给GPU预加热

硬件知识 cadence16.6 原理图输出为pdf 网络名下划线偏移（ORCAD）

ffmpeg视频滤镜：提取缩略图-framestep

RecyclerView详解——（四）缓存复用机制

进程系统调用中断

uniapp 对接腾讯云IM群组成员管理（增删改查）

19c补丁后oracle属主变化，导致不能识别磁盘组

stm32G473的flash模式是单bank还是双bank？

逻辑回归：给不确定性划界的分类大师

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

实现弹窗随键盘上移居中

CMake控制VS2022项目文件分组

零基础在实践中学习网络安全-皮卡丘靶场（第九期-Unsafe Fileupload模块）（yakit方式）

初学 pytest 记录