当前位置：首页 > news >正文

CosyVoice：开源强大的 AI 语音合成工具

news 2025/7/9 12:53:59

在当今科技飞速发展的时代，AI 语音合成技术正逐渐改变着我们的生活。今天，就为大家介绍一款卓越的语音合成工具——CosyVoice。

一、安装步骤

克隆和安装：
- 克隆仓库：git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git。如果克隆子模块失败，可以运行命令cd CosyVoice; git submodule update --init --recursive。
安装 Conda：请参考https://docs.conda.io/en/latest/miniconda.html。
创建 Conda 环境：
- conda create -n cosyvoice python=3.8。
- conda activate cosyvoice。
- conda install -y -c conda-forge pynini==2.1.5。
- pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com。
解决 sox 兼容性问题：
- Ubuntu：sudo apt-get install sox libsox-dev。
- CentOS：sudo yum install sox sox-devel。

二、模型下载

强烈建议下载预训练的CosyVoice - 300M、CosyVoice - 300M - SFT、CosyVoice - 300M - Instruct模型和CosyVoice - ttsfrd资源。

SDK 模型下载：

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice - 300M', local_dir='pretrained_models/CosyVoice - 300M')
snapshot_download('iic/CosyVoice - 300M - SFT', local_dir='pretrained_models/CosyVoice - 300M - SFT')
snapshot_download('iic/CosyVoice - 300M - Instruct', local_dir='pretrained_models/CosyVoice - 300M - Instruct')
snapshot_download('iic/CosyVoice - ttsfrd', local_dir='pretrained_models/CosyVoice - ttsfrd')

git 模型下载（确保已安装 git lfs）：

mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice - 300M.git pretrained_models/CosyVoice - 300M
git clone https://www.modelscope.cn/iic/CosyVoice - 300M - SFT.git pretrained_models/CosyVoice - 300M - SFT
git clone https://www.modelscope.cn/iic/CosyVoice - 300M - Instruct.git pretrained_models/CosyVoice - 300M - Instruct
git clone https://www.modelscope.cn/iic/CosyVoice - ttsfrd.git pretrained_models/CosyVoice - ttsfrd

可选步骤：解压ttsfrd资源并安装ttsfrd包以获得更好的文本归一化性能，但这不是必需的。若不安装，将默认使用WeTextProcessing。
```
cd pretrained_models/CosyVoice - ttsfrd/
unzip resource.zip -d.
pip install ttsfrd - 0.3.6 - cp38 - cp38 - linux_x86_64.whl
```

三、基本用法

对于不同的推理需求选择不同的模型：
- 零样本/跨语言推理，请使用CosyVoice - 300M模型。
- SFT 推理，请使用CosyVoice - 300M - SFT模型。
- 指令推理，请使用CosyVoice - 300M - Instruct模型。
首先，将third_party/Matcha - TTS添加到PYTHONPATH。
```
export PYTHONPATH=third_party/Matcha - TTS
```

示例代码：

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudiocosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('你好，我是通义生成式语音大模型，请问有什么可以帮您的吗？', '中文女', stream=False)):torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时，他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)

四、启动 Web 演示

可以使用 Web 演示页面快速熟悉 CosyVoice，支持 sft/零样本/跨语言/指令推理。具体详情请参考演示网站。
示例命令：python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice - 300M（可根据需要更改模型）。

五、高级用法

对于高级用户，examples/libritts/cosyvoice/run.sh中提供了训练和推理脚本，可以按照此示例熟悉 CosyVoice。

六、构建用于部署

若要使用 grpc 进行服务部署，可执行以下步骤，否则可忽略此步骤。

构建 docker 镜像：

cd runtime/python
docker build -t cosyvoice:v1.0.

运行 docker 容器（根据需要选择推理模式）：

grpc 用法：

docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice - 300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

fastapi 用法：

docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py --port 50000 --model_dir iic/CosyVoice - 300M && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

CosyVoice 以其强大的功能和灵活的使用方式，为我们带来了全新的语音合成体验。快来尝试吧！

CosyVoice：开源强大的 AI 语音合成工具

在当今科技飞速发展的时代，AI 语音合成技术正逐渐改变着我们的生活。今天，就为大家介绍一款卓越的语音合成工具——CosyVoice。一、安装步骤克隆和安装： 克隆仓库：git clone --recursive https://github.com/FunAudioLLM/Cos…...

编程日记 2024/9/7 10:18:05

【靶场】Pikachu—XSS Cross-Site Scripting（前五关）

🏘️个人主页： 点燃银河尽头的篝火(●’◡’●) 如果文章有帮到你的话记得点赞👍收藏💗支持一下哦【靶场】Pikachu—XSS Cross-Site Scripting（前五关） 第一关反射型xss(get)第二关反射型xss(post)第三关…...

编程日记 2024/9/7 10:13:24

Dance with Compiler - EP2

今天来熟悉汇编指令。基本指令特点 str: store value to memory ldr: load value from memory stp: store register value to stack ldp: load stack value to register 更新寄存器的操作，一般结果寄存器是左操作数。写内存的操作（str）&…...

编程日记 2024/9/7 10:12:19

微博视频无水印下载的方法

在如今的数字时代，社交媒体平台如微博已经成为人们分享日常生活、获取新闻和娱乐内容的重要渠道。我们时常会在刷微博时看到一些有趣的视频图片，或是名人的访谈，或是搞笑的短片，有时甚至是一些珍贵的历史资料。这些视频不仅内容丰…...

编程日记 2024/9/7 10:10:13

C语言 | Leetcode C语言题解之第390题消除游戏

题目： 题解： int lastRemaining(int n) {int a1 1;int k 0, cnt n, step 1;while (cnt > 1) {if (k % 2 0) { // 正向a1 a1 step;} else { // 反向a1 (cnt % 2 0) ? a1 : a1 step;}k;cnt cnt >> 1;step step << 1;}return …...

编程日记 2024/9/7 10:09:12

虚拟现实辅助工程技术助力多学科协同评估

在当今高速发展的经济环境中，制造业面临着多重挑战，包括提高产品性能、压缩设计周期、实现轻量化设计和降低成本。为了有效应对这些挑战，多学科协同评估成为缩短研发周期和提升研制质量的关键手段。传统的多学科评估面临着数据孤立与融合困难…...

编程日记 2024/9/7 10:07:50

Java获取小程序码示例（三种小程序码）

首先我们可以看到官方文档上是有三种码的获取小程序码这里特别要注意的是第一种和第三种是有数量限制的，所以大家生成的时候记得保存，也不要一直瞎生成还有一点要注意的是第一种和第二种是太阳码第三种是方形码好了直接上代码这里要注意&#xff…...

编程日记 2024/9/7 10:05:48

【最新华为OD机试E卷-支持在线评测】分糖果(100分)-多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围，一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-E/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试｜编程一对一辅导 👏 感谢大家的订阅➕ 和喜欢💗 🍿 最新华为OD机试D卷目录，全、新、准，题目覆盖率达 95% 以上，…...

编程日记 2024/9/7 10:03:36

Windows下Python和PyCharm的应用(二)__快捷键方式的设定

前言程序写久了，难免会形成自己的编程习惯。比如对某一套快捷键的使用，已经形成了肌肉记忆。为了方便快捷键的使用，可以在PyCharm中设置自己喜欢的快捷键。我比较习惯于微软Visual Studio的快捷键设置。（因为早些年VC开发用的…...

编程日记 2024/9/7 10:02:32

网络安全宗旨和目标

网络安全涉及网络和相关数据及信息的保护与保障。它已从物理技术发展到防病毒和反网络钓鱼平台等软件方法。在本章中，我们将详细讨论网络安全的主要目标和原则，并提供与之相关的具体示例。所以，让我们从网络安全的目标开始。网络安全的目的…...

编程日记 2024/9/7 10:00:23

stm32之软件SPI读写W25Q64存储器应用案例

系列文章目录 1. stm32之SPI通信协议文章目录系列文章目录前言一、电路接线图二、应用案例代码三、应用案例分析3.1 SPI通信模块3.2 W25Q64模块3.3 主程序前言提示：本文主要用作在学习江科大自化协STM32入门教程后做的归纳总结笔记，旨在学习记录&a…...

编程日记 2024/9/7 9:59:22

Python数据验证库schema

目录一、简述二、安装schema库三、使用基本概念代码示例简单使用列表验证正则表达式一、简述 schema用于简化数据验证的过程。它提供了一种简单的方式来定义数据结构，并验证传入的数据是否符合预期的结构。schema 库非常适合用于 Web 应用的请求验…...

编程日记 2024/9/7 9:46:23

python数据类型与运算符

1、数据类型 （1）Python中提供了基本数据类型： 数值类型：int整数类型、float浮点数类型、complex复数类型布尔类型：bool，取值True / False 字符串：单引号包含、双引号包含、三对单引号/双引号…...

编程日记 2024/9/7 9:44:12

加密解密工具类

加密解密工具类 package com.example.modules.util;import javax.crypto.Cipher; import javax.crypto.KeyGenerator; import javax.crypto.SecretKey; import javax.crypto.spec.SecretKeySpec; import java.security.SecureRandom; import java.util.Base64; public…...

编程日记 2024/9/7 9:43:01

validationtools中按键测试选项光标移除

最近处理一个问题，设备有方向键盘，做cit中的按键测试，发现按方向键第一次按键不能触发该键值，而是让屏幕第一个按钮获取焦点，然后再次按键，则其他正常。问题：进入界面第一次按键就要响应对应按键…...

编程日记 2024/9/7 9:40:50

【Hot100算法刷题集】哈希-02-字母异位词分组（含排序构造键、自定义键、自定义哈希函数法）

🏠关于专栏：专栏用于记录LeetCode中Hot100专题的所有题目 🎯每日努力一点点，技术变化看得见题目转载题目描述 🔒link->题目跳转链接给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺…...

编程日记 2024/9/7 9:38:41

用华为智驾，开启MPV的下半场

作者 |老缅编辑 |德新 8月28日，岚图正式对外公布了全球首款搭载华为乾崑智驾和鸿蒙座舱的MPV——全新岚图梦想家。新车定位「全景豪华科技旗舰MPV」，全系标配四驱，分为四驱鲲鹏版和四驱乾崑版。其中岚图逍遥座舱和鲲鹏智驾构成的鲲鹏版…...

编程日记 2024/9/7 9:37:40

发烧时眼睛胀痛的多种原因

发烧时眼睛胀痛的多种原因发烧时眼睛胀痛可能由多种原因引起，主要包括以下几个方面： 上呼吸道感染： 发烧通常由上呼吸道感染引起，如感冒等。这些疾病多由病毒或细菌感染导致，如流感病毒、副流感病毒、腺病毒等。当机…...

编程日记 2024/9/7 9:36:36

用ACF和PACF计算出一堆数据的周期个数以及周期时长，数据分析python

具体步骤 1使用ACF和PACF：可以通过查看ACF图中的周期性峰值，找到数据中的周期性。如果ACF图在某个滞后期处出现显著的正相关峰值，并且这种模式在多个滞后周期中重复出现，这就是周期性信号的特征。而PACF则可以帮助确定延迟的直接影…...

编程日记 2024/9/7 9:35:35

生活方式对人健康影响非常大第三篇

身体健康因素中生活方式占到60% 赶紧去调整自己哪错了上游的生活方式管理是药三分毒药物会影响身体肝肾功能,代谢所以你要去找上游到底是我哪错了短板越多个健康状态越差饮食管理是生活方式管理中难度最大的原则1:与基因相对应相平衡只吃素会导致大脑萎…...

编程日记 2024/9/7 9:33:23

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2025/7/9 7:08:13

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/6/16 12:49:42

高危文件识别的常用算法：原理、应用与企业场景

高危文件识别的常用算法：原理、应用与企业场景高危文件识别旨在检测可能导致安全威胁的文件，如包含恶意代码、敏感数据或欺诈内容的文档，在企业协同办公环境中（如Teams、Google Workspace）尤为重要。结合大模型技术&…...

编程新知 2025/7/9 0:09:10

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/6/17 4:17:05

.Net Framework 4/C# 关键字（非常用，持续更新...）

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容，如果兼容将返回 true，如果不兼容则返回 false，在进行类型转换前，可以先使用 is 关键字判断对象是否与指定类型兼容，如果兼容才进行转换，这样的转换是安全的。例如有：首先创建一个字符串对象，然后将字符串对象隐…...

编程新知 2025/6/25 1:12:20

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/7/8 8:49:11

如何在网页里填写 PDF 表格？

有时候，你可能希望用户能在你的网站上填写 PDF 表单。然而，这件事并不简单，因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件，但原生并不支持编辑或填写它们。更糟的是，如果你想收集表单数据&#xff…...

编程新知 2025/7/8 13:56:24

Linux系统部署KES

1、安装准备 1.版本说明V008R006C009B0014 V008：是version产品的大版本。 R006：是release产品特性版本。 C009：是通用版 B0014：是build开发过程中的构建版本2.硬件要求 #安全版和企业版内存：1GB 以上硬盘&#xf…...

编程新知 2025/7/6 20:38:27

DiscuzX3.5发帖json api

参考文章：PHP实现独立Discuz站外发帖(直连操作数据库)_discuz 发帖api-CSDN博客简单改造了一下，适配我自己的需求有一个站点存在多个采集站，我想通过主站拿标题，采集站拿内容使用到的sql如下 CREATE TABLE pre_forum_post_…...

编程新知 2025/7/7 19:28:43

Linux入门课的思维导图

耗时两周，终于把慕课网上的Linux的基础入门课实操、总结完了！ 第一次以Blog的形式做学习记录，过程很有意思，但也很耗时。课程时长5h，涉及到很多专有名词，要去逐个查找，以前接触过的概念因为时…...

编程新知 2025/7/8 19:09:12