当前位置：首页 > article >正文

27.3k stars！Fish Speech：开源 TTS 的天花板，10 秒克隆任意声音！

article 2026/3/18 5:33:06

Fish Speech开源 TTS 的天花板10 秒克隆任意声音语音合成这件事曾经是大厂的专属游乐场。现在一个开源项目用 2700 万行代码和 1000 万小时音频数据把这道门彻底踹开了。一、它解决了什么问题长期以来高质量 TTS文字转语音领域存在几道根深蒂固的门槛1. 效果差距悬殊。开源方案的自然度、情感丰富度与 ElevenLabs、Azure TTS 等商业产品相比始终有一道明显的听感鸿沟。2. 语音克隆门槛高。想克隆一个人的声音要么需要大量干净的录音数据要么需要专门的微调流程普通人根本玩不转。3. 多语言处理麻烦。传统 TTS 依赖音素词典和语种特定的预处理切换语言就要换模型中英混读更是老大难。4. 情感控制粗糙。生成语音只能控制语速、音调等基础参数想让模型笑着说或悄悄耳语基本没有门路。Fish Speech 的出现把这四道门同时打开了。二、Fish Speech 是什么Fish Speech 是由 Fish Audio 团队开源的 SOTA 级文字转语音系统目前 GitHub 已获2.7 万 Star是当前开源 TTS 领域最受关注的项目之一。最新版本为Fish Audio S2它在以下几项核心基准测试中击败了包括闭源系统在内的所有对手基准测试Fish Audio S2对比最强闭源Seed-TTS Eval WER中文0.54%Qwen3-TTS 0.77%Seed-TTS Eval WER英文0.99%MiniMax Speech-02 0.99%Audio Turing Test0.515Seed-TTS 0.417低 24%EmergentTTS-Eval 胜率81.88%—简单说在语音自然度的图灵测试中听 Fish Speech S2 生成的语音超过一半的人认为是真人录音。核心技术亮点① 双自回归架构Dual-ARS2 将语音生成拆分为两个阶段慢速 AR4B 参数负责沿时间轴预测语义编码快速 AR400M 参数在每个时间步填充 9 个残差编码本。这种非对称设计在保证音质的同时大幅提升了推理效率。② 强化学习对齐GRPOS2 采用 GRPO 进行后训练对齐奖励信号同时包含语义准确性、指令遵循、音质偏好和音色相似度让模型生成的语音更加稳定、自然。③ 自然语言情感标签这是 S2 最直观的惊喜功能。你可以在文本中任意位置插入自由格式的控制标签比如今天的新闻[用播音腔]来了——[laugh]其实我也不知道该说什么。支持[laugh]、[whispers]、[super happy]、[悲伤]等任意自然语言描述精确控制到词级别。④ 零样本声音克隆只需1030 秒的参考音频S2 即可克隆对应音色无需任何微调或额外训练。⑤ 50 语言无需音素S2 直接处理原始文本不依赖任何音素词典或语种预处理中英日韩法德阿拉伯语等 50 语言开箱即用中英混读无缝切换。⑥ 原生多说话人生成一次请求中即可生成多位说话人的对话通过|speaker:0||speaker:1|等 token 控制无需分别上传参考音频。三、怎么用方式 A直接体验最快0 配置访问官方在线演示fish.audio输入文本即可试听也可上传参考音频体验声音克隆。方式 B本地部署自托管硬件要求GPU 显存 ≥ 24GB推理Linux / WSL 环境。⚠️ 注意S2 旗舰版需要 24GB 显存RTX 306012GB建议使用 S1-mini0.5B 蒸馏版HuggingFace 可下载。Step 1克隆仓库gitclone https://github.com/fishaudio/fish-speech.gitcdfish-speechStep 2安装依赖以 Conda 为例# 安装系统依赖aptinstallportaudio19-dev libsox-dev ffmpeg# 创建虚拟环境conda create-nfish-speechpython3.12conda activate fish-speech# 安装 GPU 版本按你的 CUDA 版本选择 cu126/cu128/cu129pipinstall-e.[cu129]Step 3启动 WebUI# 直接启动python-mtools.run_webui# 或使用 Docker推荐生产环境dockercompose--profilewebui up打开浏览器访问http://localhost:7860即可使用图形界面进行 TTS 和声音克隆。Step 4API 调用集成到自己的应用# 启动 API 服务器dockercompose--profileserver up# 访问地址http://localhost:8080也可以使用官方 Python SDKpipinstallfish-audio-sdkfromfish_audio_sdkimportSession,TTSRequest sessionSession(YOUR_API_KEY)# fish.audio 申请免费 keywithopen(output.mp3,wb)asf:forchunkinsession.tts(TTSRequest(text你好世界)):f.write(chunk)方式 C声音克隆完整流程准备 1030 秒的干净参考音频WAV/MP3无背景噪音在 WebUI 中上传参考音频输入目标文本点击生成下载输出音频就这三步不需要任何训练或微调。四、总结Fish Speech S2 代表了当前开源 TTS 的最高水准。它不只是在某一项指标上领先而是在语音自然度、情感控制、多语言支持、声音克隆速度、推理效率这五个维度上同时达到或超越了闭源商业系统的水平——而且完全开源、可本地部署、无数据上传风险。对于内容创作者它是一个极低成本的专业配音工具对于开发者它是一个可以直接接入产品的语音合成引擎对于研究者它提供了完整的训练和微调链路。唯一的门槛是推理旗舰版 S2 对显存有较高要求24GB。显存受限的用户可以先用 S1-mini 过渡或直接调用 fish.audio 的云端 API。一句话评价TTS 领域的 Llama 时刻已经到来。项目地址https://github.com/fishaudio/fish-speech在线体验https://fish.audio文档https://speech.fish.audio许可证Fish Audio Research License商业使用需联系授权

27.3k stars！Fish Speech：开源 TTS 的天花板，10 秒克隆任意声音！

相关文章：

27.3k stars！Fish Speech：开源 TTS 的天花板，10 秒克隆任意声音！

c++基础+类和对象

2026 SiteGround 官网人工在线客服聊天指南

高通 QCS8550 边缘智能实践：基于 Qwen2.5-7B 与 Agent+RAG 构建本地化知识助手

StructBERT文本相似度模型在网络安全中的应用：恶意文本与钓鱼内容识别

基于计算机视觉的万物识别模型性能优化策略

ChatTTS下载安装全攻略：从原理到避坑指南

5个免费IP查询API对比：哪个最适合你的项目？（附性能测试数据）

《Kubernetes存储篇：基于nfs-subdir-external-provisioner 4.0.18工具自动创建持久化卷》

Java+YOLO在医学影像的应用：CT肺结节检测的预处理与后处理优化

Java+YOLO在无人货架的应用：商品识别与库存同步的微服务实践

C++数据结构1——可执行文件生成过程

Java高并发YOLO服务：100路摄像头实时交通标志识别与Redis缓存优化

COMSOL模拟离子迁移及PH变化：电场、流场与稀物质传递三个物理场的应用

基于麻雀算法优化门控循环单元的SSA-GRU单维时序预测模型——适用于MATLAB 2020及...

二维Comsol的Voronoi边界设置与多边形骨料、纤维骨料分析方法

零成本养虾指南：OpenClaw从入门到卸载

彻底搞懂STM32定时器：PSC、ARR、CNT详解，附精确延时代码---STM32 HAL库专栏

Windows操作系统核心知识与安全基础全解析

Delta并联机器人：轨迹规划与工作空间求解的正逆解

SAP Joule：嵌入 SAP Fiori Launchpad 的生成式 AI 数字助手

刷题笔记:力扣第73、74题（二维矩阵）

矩转换矩阵

SpringAI大语言模型调用优化：性能提升技巧

SpringAI集成OpenAI：从配置到调用实战

用C语言程序解决两个简单问题

SpringAI大语言模型应用案例：智能问答系统开发

ssm+java2026年毕设社区医院综合管理信息系统【源码+论文】

MedGemma-X快速入门：无需代码，轻松实现X光片智能解读

Typora+Local AI MusicGen：Markdown文档智能配乐系统