当前位置: 首页 > article >正文

python cosyVoice实现tts文本转语音、音频(未完成)

文章目录步骤chatTts需要连外网不好用想着本地弄个。阿里开源项目cosyVoice(舒适语音)(是cosy不是cos)评级比较不错。步骤1、pycharm工作区新建文件夹cosyVoice-demo进入文件夹clone代码。https://github.com/FunAudioLLM/CosyVoice.git# 这个git地址2、pycharm打开该项目python解释器选3.10版本很高容易不支持。3、安装依赖python-m pip install--upgrade pip pip install torch torchaudio--index-url https://download.pytorch.org/whl/cu121 pip install-r requirements.txt如果官方脚本不可用手动安装(可选这个作为requirements.txt备用)pip install modelscope funasr hydra-core omegaconf conformer diffusers transformers accelerate soundfile librosa但是报错了ModuleNotFoundError: No module named ‘pkg_resources’[end of output]note: This error originates from a subprocess, and is likely not a problem with pip.ERROR: Failed to build ‘openai-whisper’ when getting requirements to build wheel安装了好多次还是过不去。4、尝试取消隔离安装pip install--no-build-isolation-r requirements.txt跳过openai-whisper这个报错了但是又遇到一堆报错解不掉了先这样吧。python大项目的依赖真心头疼。5、新建test_cosyvoice.py文件内容importosimportsysimporttorchfromcosyvoice.cli.cosyvoiceimportCosyVoicefromcosyvoice.utils.file_utilsimportload_wav# 初始化模型# 注意首次运行会自动下载模型请确保网络连接正常# 如果本地已下载可以指定 local_dirprint(正在加载 CosyVoice 模型...)cosyvoiceCosyVoice(iic/CosyVoice-300M)# 如果是 SFT 版本 (指令控制更强)使用:# cosyvoice CosyVoice(iic/CosyVoice-300M-SFT)output_dir./outputos.makedirs(output_dir,exist_okTrue)print(模型加载完成开始生成...)# --- 场景 1: 零样本音色克隆 (Zero-Shot Cloning) ---# 你需要准备一个参考音频文件 (ref.wav)时长 3-10 秒清晰的人声# 如果没有可以先跳过此段使用预置音色ref_audio_pathassets/ref.wav# 请替换为你自己的参考音频路径ifos.path.exists(ref_audio_path):print(f使用参考音频:{ref_audio_path}进行音色克隆...)prompt_speech_16kload_wav(ref_audio_path,16000)# 生成语音fori,jinenumerate(cosyvoice.inference_zero_shot(欢迎来到 2026 年人工智能已经无处不在你觉得今天天气怎么样,这是一个非常神奇的时刻我们终于实现了完美的语音合成。,# 参考音频对应的文本 (可选但推荐提供以提高准确度)prompt_speech_16k,streamFalse)):output_pathf{output_dir}/zero_shot_output_{i}.wavwithopen(output_path,wb)asf:f.write(j[tts].read())print(f零样本克隆完成保存至:{output_path})else:print(未找到参考音频跳过零样本克隆测试。请将你的录音保存为 assets/ref.wav)# --- 场景 2: 指令控制 (Instruct TTS) - 需要 SFT 模型 ---# 注意只有加载 iic/CosyVoice-300M-SFT 时才支持此功能print(\n尝试指令控制生成 (需要 SFT 模型)...)try:# 重新初始化 SFT 模型 (如果上面没加载)ifcosyvoice_sftnotinlocals():cosyvoice_sftCosyVoice(iic/CosyVoice-300M-SFT)# 使用自然语言指令控制情感text_with_instruction|zh||happy| 太棒了我们终于成功了|end|# 注意不同版本的指令格式可能不同以上仅为示例具体参考官方文档# 新版可能直接支持 用开心的语气说太棒了# 这里演示标准的 SFT 推理 (假设模型支持)fori,jinenumerate(cosyvoice_sft.inference_instruct(用非常悲伤且缓慢的语气朗读雨一直在下仿佛天空也在哭泣。,中文女,# 预设音色streamFalse)):output_pathf{output_dir}/instruct_output_{i}.wavwithopen(output_path,wb)asf:f.write(j[tts].read())print(f指令控制完成保存至:{output_path})exceptExceptionase:print(f指令控制测试失败 (可能是模型版本不对):{e})print(\n所有任务结束请在 output 文件夹查看生成的 wav 文件。)

相关文章:

python cosyVoice实现tts文本转语音、音频(未完成)

文章目录步骤chatTts需要连外网不好用,想着本地弄个。阿里开源项目cosyVoice(舒适语音)(是cosy,不是cos)评级比较不错。步骤 1、pycharm工作区新建文件夹cosyVoice-demo,进入文件夹clone代码。 https://github.com/FunAudioLLM/CosyVoice.gi…...

深搜算法 6300:Grid Path Construction(2418)

6300:Grid Path Construction(2418)时间限制: 1000 ms 内存限制: 524288 KB 提交数: 0 通过数: 0 Special Judge【题目描述】Given an nm grid and two squares a(y1,x1) and b(y2,x2), create a path from a to b that visits each square exactly…...

别再乱用jet了!Matplotlib中5个最值得推荐的科学可视化colormap及使用场景

科学可视化中的色彩艺术:Matplotlib最佳colormap实践指南 在科研论文和工程报告中,数据可视化是传递复杂信息的核心手段。然而,许多研究者至今仍在无意识地使用已被科学可视化领域淘汰的jet色标——这种彩虹色标不仅会造成数据特征的误读&…...

3DTiles白膜性能优化指南:如何让SHP建筑模型在Cesium中流畅加载

3DTiles白膜性能优化实战:从SHP到Cesium的高效加载策略 当我们将城市级建筑SHP数据转换为3DTiles白膜时,最令人头疼的莫过于浏览器中缓慢的加载速度和卡顿的交互体验。我曾在一个智慧园区项目中处理过包含2万多栋建筑的SHP数据集,初始转换后的…...

从YouTube到国内大厂,VPU(视频处理单元)如何重塑视频云的技术栈?

VPU技术革命:解码下一代视频云架构的三大范式转移 当你在深夜用手机观看4K直播时,是否想过每秒数GB的视频数据如何穿越千里依然清晰流畅?当城市每个角落的摄像头都在实时上传画面时,这些海量视频流又如何在云端被高效处理&#xf…...

NRF52系列选型终极指南:从52810到52840,5个关键指标帮你省下30%成本

NRF52系列选型终极指南:从52810到52840,5个关键指标帮你省下30%成本 在物联网设备开发中,芯片选型往往决定了项目60%以上的成本结构。作为Nordic Semiconductor的明星产品线,NRF52系列凭借其出色的低功耗性能和丰富的外设资源&…...

联发科MTK Sensor Bring Up避坑指南:以STK3321为例的常见问题解析

联发科MTK Sensor Bring Up深度实战:STK3321典型问题与系统化解决方案 在联发科(MTK)平台进行传感器(Sensor) Bring Up是智能设备开发中的关键环节,却也是最容易踩坑的技术难点之一。作为MTK生态中广泛使用的环境光传感器,STK3321的集成过程看…...

ARM64服务器上Docker跑Redis总崩溃?3种配置文件调试方案实测

ARM64服务器上Docker跑Redis总崩溃?3种配置文件调试方案实测 最近在ARM64架构服务器上部署Redis时,不少开发者都遇到了容器启动后立即退出的问题。这并非简单的配置错误,而是ARM架构与x86环境的差异导致的兼容性问题。本文将分享三种经过实测…...

Ubuntu20.04下微信中文输入终极解决方案:修改deepin-wine配置全记录

Ubuntu 20.04下微信中文输入问题的深度解决方案 作为一名长期使用Linux系统的开发者,我深知在Ubuntu上使用微信时遇到中文输入问题的痛苦。特别是在需要频繁与同事、客户沟通时,这个问题会严重影响工作效率。本文将分享一套经过实战验证的解决方案&#…...

锂离子电池恒流恒压充电Simulink仿真模型(CC-CV)及其电路结构与充电过程说明

锂离子电池恒流恒压充电Simulink仿真模型(CC-CV) 电路结构包括:直流电压源、DC/DC变换器、锂离子电池、CCCV控制系统 [hot]赠送2000多字的说明文档和参考文献,帮助您更快理解 恒流恒压充电过程: [1]在CC阶段对电池施加…...

利用Mermaid在Markdown中高效构建数据库ER图

1. 为什么选择Mermaid画ER图 第一次接触数据库设计时,我用Visio画了三天ER图,结果产品经理说要改两个字段,所有连线都得重新调整。直到发现Markdown里用Mermaid画ER图的玩法,才明白什么叫"降维打击"。这个组合有多香&am…...

OpenHarmony开发避坑指南:手把手教你写对BUILD.gn,解决90%的编译问题

OpenHarmony开发避坑指南:手把手教你写对BUILD.gn,解决90%的编译问题 在OpenHarmony开发中,BUILD.gn文件是构建系统的核心配置文件,它决定了代码如何被编译、链接和打包。然而,许多开发者在编写BUILD.gn时常常陷入各种…...

8、C语言指针专题:指针与字符串

在C语言中,字符串本质是“以空字符\0结尾的字符序列”,而指针是操作字符串最灵活、高效的工具。字符串的存储、访问、修改、排序及各类处理,都可以通过指针实现,且指针操作相比数组下标操作,更节省内存、执行效率更高。…...

从Maya到Max:如何完美转换Bone骨骼并优化飘带动画效果

从Maya到Max:专业级骨骼转换与飘带动画优化全流程 在3D动画制作中,角色服装、头发等飘动元素的自然表现往往决定了作品的真实感与视觉冲击力。作为资深动画师,我经常需要在Maya和3ds Max这两个行业标准软件之间切换工作流程。本文将分享一套…...

7、C语言指针专题:多级指针

在C语言中,指针的核心是“指向内存地址”,而多级指针则是“指向指针的指针”——二级指针指向一级指针的地址,三级指针指向二级指针的地址,以此类推。多级指针看似复杂,实则是一级指针逻辑的延伸,其核心用途…...

MAC和PHY到底在搞什么?用大白话拆解网卡工作原理

MAC和PHY到底在搞什么?用大白话拆解网卡工作原理 作为硬件工程师,调试网卡时最常遇到的灵魂拷问就是:"为什么ping不通?"这时候如果连MAC和PHY在搞什么都不清楚,那真是两眼一抹黑。今天我们就用修车师傅看发动…...

LLM 大语言模型 训练的时候 batchsize 调整大导致梯度爆炸问题解决

LLM 大语言模型 训练的时候 batchsize 调整大导致梯度爆炸问题解决 优化器AdamW 确实比 SGD 更容易在大 batch 下梯度爆炸,因为自适应学习率会放大稀疏梯度的更新步长。 针对 AdamW 大 batch,给你几个立竿见影的修复方案: 1. 优化器参数调整…...

第8章 时序数据的洞察:从构建到分析的全链路实践

第8章 时序数据的洞察:从构建到分析的全链路实践 时间序列数据是数据分析领域中最具挑战性也最具价值的类型之一。与普通的横截面数据不同,时间序列数据带有一个天然的顺序维度——时间。股票价格、气温变化、网站流量、销售额趋势,这些数据都随着时间推移而产生,前后观测…...

第7章 时间维度的雕琢:日期时间数据的清洗与计算艺术

第7章 时间维度的雕琢:日期时间数据的清洗与计算艺术 在数据分析的世界里,时间维度是最常见的分析轴线之一。无论是销售趋势分析、用户行为轨迹追踪,还是项目进度监控,日期时间数据都扮演着核心角色。然而,原始的日期时…...

第5章 数据融合之道:多源文件的聚合与分发艺术

第5章 数据融合之道:多源文件的聚合与分发艺术 在数据分析的实战过程中,单一数据文件往往无法满足复杂业务需求。真实的商业场景中,数据可能分散在数十个甚至上百个Excel工作簿中,每个工作簿可能包含多个工作表。例如,连锁企业的各门店每日上传销售报表,财务系统每月导出…...

UnityShader实战指南:从ShaderLab到Surface Shader的进阶之路

1. ShaderLab基础语法入门 第一次接触UnityShader时,我完全被ShaderLab的语法搞懵了。记得当时为了修改一个简单的颜色参数,花了整整一下午研究Properties块的写法。现在回头看,ShaderLab其实就像乐高积木的说明书,只要掌握几个核…...

从LangChain到Dify:手把手构建生产级AI工作流

摘要:本文深入解析从LangChain到Dify的技术演进,通过真实业务场景演示如何构建生产级AI工作流。涵盖从"胶水代码"到"企业级平台"的架构变迁,提供完整的代码实现、踩坑经验、性能优化策略,助你快速从原型走向生…...

养狗管理拟参照道路交通法个人观点:计分、吊证、入刑,这些行为将被终身禁养

近年来,犬只伤人事件频发,每年全国被猫狗咬伤抓伤人数高达4000万。这一数字远超交通事故发生量,但长期以来,养犬管理始终停留在“办个证、罚点款”的层面。如果养犬管理能够参照道路交通安全法的逻辑,建立“记分制”“…...

保姆级教程:用FFmpeg+Nginx把监控摄像头RTSP流转成HLS网页播放

从RTSP到HLS:零基础构建浏览器兼容的监控视频流系统 在智能安防和物联网应用场景中,监控摄像头产生的视频流通常采用RTSP协议传输,但现代浏览器却无法直接播放这种流媒体格式。本文将手把手带您实现RTSP到HLS的完整转换方案,通过F…...

PyAV实战:如何用TCP协议稳定拉取RTSP视频流(附超时解决方案)

PyAV实战:TCP协议拉取RTSP视频流的工程化解决方案 引言 在视频处理项目中,稳定获取RTSP流是许多开发者面临的共同挑战。不同于简单的本地文件读取,网络视频流传输涉及复杂的协议交互和实时性要求。PyAV作为FFmpeg的Python绑定,提供…...

OpenCV CSRT目标跟踪实战:从摄像头到无人机,5步搞定复杂场景跟踪

OpenCV CSRT目标跟踪实战:从摄像头到无人机,5步搞定复杂场景跟踪 计算机视觉领域的目标跟踪技术正在经历一场从实验室到真实场景的落地革命。想象一下,当你的无人机能够自主锁定并跟随拍摄目标,或者在工业质检线上精准追踪移动零件…...

Wox这款开源Windows启动器,我用了十年

AltSpace,弹出一个框,输入一行字,所有事情都办妥了。 前言 作为一枚每天在电脑前坐10小时以上的程序员,我用过不少效率工具。Listary、uTools、PowerToys Run、Alfred……几乎主流的启动器都折腾过。 但今天我想聊聊一个比较「老…...

基于虚拟阻抗重塑的构网型VSG变流器SISO序阻抗建模与宽频振荡抑制策略分析(面向高比例新能源并网场景)

1. 虚拟阻抗控制如何重塑VSG变流器的阻抗特性 我第一次接触虚拟阻抗这个概念是在五年前的一个新能源并网项目上。当时系统频繁出现次同步振荡,传统方法束手无策,直到引入了虚拟阻抗控制才解决问题。简单来说,虚拟阻抗就像给变流器装了个"…...

IFRS/IAS 核心财务概念中英对照速查手册(附实务应用场景)

1. IFRS/IAS核心财务概念入门指南 刚接触国际财务报告准则时,我完全被那些英文缩写搞晕了。记得第一次看到IFRS 16和IAS 38时,还以为是什么密码代号。其实这些术语就像财务界的"普通话",掌握它们才能在全球商业舞台上顺畅交流。 国…...

AirScript脚本进阶玩法:定制你的专属早安邮件(含天气/纪念日提醒)

AirScript脚本进阶玩法:定制你的专属早安邮件(含天气/纪念日提醒) 清晨的第一缕阳光透过窗帘,手机震动提示音响起。你期待的不仅是新的一天,还有那封专属于你的早安邮件——它不只是简单的问候,更包含今日天…...