当前位置: 首页 > article >正文

27.3k stars!Fish Speech:开源 TTS 的天花板,10 秒克隆任意声音!

Fish Speech开源 TTS 的天花板10 秒克隆任意声音语音合成这件事曾经是大厂的专属游乐场。现在一个开源项目用 2700 万行代码和 1000 万小时音频数据把这道门彻底踹开了。一、它解决了什么问题长期以来高质量 TTS文字转语音领域存在几道根深蒂固的门槛1. 效果差距悬殊。开源方案的自然度、情感丰富度与 ElevenLabs、Azure TTS 等商业产品相比始终有一道明显的听感鸿沟。2. 语音克隆门槛高。想克隆一个人的声音要么需要大量干净的录音数据要么需要专门的微调流程普通人根本玩不转。3. 多语言处理麻烦。传统 TTS 依赖音素词典和语种特定的预处理切换语言就要换模型中英混读更是老大难。4. 情感控制粗糙。生成语音只能控制语速、音调等基础参数想让模型笑着说或悄悄耳语基本没有门路。Fish Speech 的出现把这四道门同时打开了。二、Fish Speech 是什么Fish Speech 是由 Fish Audio 团队开源的 SOTA 级文字转语音系统目前 GitHub 已获2.7 万 Star是当前开源 TTS 领域最受关注的项目之一。最新版本为Fish Audio S2它在以下几项核心基准测试中击败了包括闭源系统在内的所有对手基准测试Fish Audio S2对比最强闭源Seed-TTS Eval WER中文0.54%Qwen3-TTS 0.77%Seed-TTS Eval WER英文0.99%MiniMax Speech-02 0.99%Audio Turing Test0.515Seed-TTS 0.417低 24%EmergentTTS-Eval 胜率81.88%—简单说在语音自然度的图灵测试中听 Fish Speech S2 生成的语音超过一半的人认为是真人录音。核心技术亮点① 双自回归架构Dual-ARS2 将语音生成拆分为两个阶段慢速 AR4B 参数负责沿时间轴预测语义编码快速 AR400M 参数在每个时间步填充 9 个残差编码本。这种非对称设计在保证音质的同时大幅提升了推理效率。② 强化学习对齐GRPOS2 采用 GRPO 进行后训练对齐奖励信号同时包含语义准确性、指令遵循、音质偏好和音色相似度让模型生成的语音更加稳定、自然。③ 自然语言情感标签这是 S2 最直观的惊喜功能。你可以在文本中任意位置插入自由格式的控制标签比如今天的新闻[用播音腔]来了——[laugh]其实我也不知道该说什么。支持[laugh]、[whispers]、[super happy]、[悲伤]等任意自然语言描述精确控制到词级别。④ 零样本声音克隆只需1030 秒的参考音频S2 即可克隆对应音色无需任何微调或额外训练。⑤ 50 语言无需音素S2 直接处理原始文本不依赖任何音素词典或语种预处理中英日韩法德阿拉伯语等 50 语言开箱即用中英混读无缝切换。⑥ 原生多说话人生成一次请求中即可生成多位说话人的对话通过|speaker:0||speaker:1|等 token 控制无需分别上传参考音频。三、怎么用方式 A直接体验最快0 配置访问官方在线演示fish.audio输入文本即可试听也可上传参考音频体验声音克隆。方式 B本地部署自托管硬件要求GPU 显存 ≥ 24GB推理Linux / WSL 环境。⚠️ 注意S2 旗舰版需要 24GB 显存RTX 306012GB建议使用 S1-mini0.5B 蒸馏版HuggingFace 可下载。Step 1克隆仓库gitclone https://github.com/fishaudio/fish-speech.gitcdfish-speechStep 2安装依赖以 Conda 为例# 安装系统依赖aptinstallportaudio19-dev libsox-dev ffmpeg# 创建虚拟环境conda create-nfish-speechpython3.12conda activate fish-speech# 安装 GPU 版本按你的 CUDA 版本选择 cu126/cu128/cu129pipinstall-e.[cu129]Step 3启动 WebUI# 直接启动python-mtools.run_webui# 或使用 Docker推荐生产环境dockercompose--profilewebui up打开浏览器访问http://localhost:7860即可使用图形界面进行 TTS 和声音克隆。Step 4API 调用集成到自己的应用# 启动 API 服务器dockercompose--profileserver up# 访问地址http://localhost:8080也可以使用官方 Python SDKpipinstallfish-audio-sdkfromfish_audio_sdkimportSession,TTSRequest sessionSession(YOUR_API_KEY)# fish.audio 申请免费 keywithopen(output.mp3,wb)asf:forchunkinsession.tts(TTSRequest(text你好世界)):f.write(chunk)方式 C声音克隆完整流程准备 1030 秒的干净参考音频WAV/MP3无背景噪音在 WebUI 中上传参考音频输入目标文本点击生成下载输出音频就这三步不需要任何训练或微调。四、总结Fish Speech S2 代表了当前开源 TTS 的最高水准。它不只是在某一项指标上领先而是在语音自然度、情感控制、多语言支持、声音克隆速度、推理效率这五个维度上同时达到或超越了闭源商业系统的水平——而且完全开源、可本地部署、无数据上传风险。对于内容创作者它是一个极低成本的专业配音工具对于开发者它是一个可以直接接入产品的语音合成引擎对于研究者它提供了完整的训练和微调链路。唯一的门槛是推理旗舰版 S2 对显存有较高要求24GB。显存受限的用户可以先用 S1-mini 过渡或直接调用 fish.audio 的云端 API。一句话评价TTS 领域的 Llama 时刻已经到来。项目地址https://github.com/fishaudio/fish-speech在线体验https://fish.audio文档https://speech.fish.audio许可证Fish Audio Research License商业使用需联系授权

相关文章:

27.3k stars!Fish Speech:开源 TTS 的天花板,10 秒克隆任意声音!

Fish Speech:开源 TTS 的天花板,10 秒克隆任意声音 语音合成这件事,曾经是大厂的专属游乐场。现在,一个开源项目用 2700 万行代码和 1000 万小时音频数据,把这道门彻底踹开了。 一、它解决了什么问题? 长期…...

c++基础+类和对象

引用一旦被赋值,就不能再赋其他值??如下图返回返回值的引用意思是返回返回值本身在主函数中调用func函数,该函数返回a的引用(a的别名),出函数后a会被销毁,相当于返回野指针被引用的数…...

2026 SiteGround 官网人工在线客服聊天指南

由于Siteground 近年来为了降低人工压力,隐藏了直接的聊天入口。 不过即便没有登录账号,你依然可以通过“售前咨询(Sales Chat)”的方式找到人工客服。即使你是Siteground 老用户,你可能也并不知道本文提到的这些技巧。…...

高通 QCS8550 边缘智能实践:基于 Qwen2.5-7B 与 Agent+RAG 构建本地化知识助手

1. 高通QCS8550与边缘智能的黄金组合 第一次拿到高通QCS8550开发板时,我完全没想到这块巴掌大的板子能流畅运行70亿参数的大模型。作为高通面向边缘计算推出的旗舰级处理器,QCS8550采用4nm制程工艺,集成了Kryo CPU、Adreno GPU和Hexagon NPU三…...

StructBERT文本相似度模型在网络安全中的应用:恶意文本与钓鱼内容识别

StructBERT文本相似度模型在网络安全中的应用:恶意文本与钓鱼内容识别 最近和几个做安全的朋友聊天,他们都在抱怨一个事儿:现在的网络攻击越来越“聪明”了。钓鱼邮件写得跟真的一样,恶意脚本的注释伪装得人畜无害,社…...

基于计算机视觉的万物识别模型性能优化策略

基于计算机视觉的万物识别模型性能优化策略 你有没有遇到过这样的情况:好不容易部署了一个万物识别模型,结果在实际用的时候,发现识别速度慢得像蜗牛,或者经常把“猫”认成“狗”?别担心,这几乎是每个做计…...

ChatTTS下载安装全攻略:从原理到避坑指南

最近在折腾语音合成项目,发现ChatTTS这个开源工具挺有意思的,功能强大,效果也不错。但在下载安装过程中,确实遇到了不少“坑”,比如环境冲突、依赖版本不对、模型下载慢等等。今天就把我摸索出来的完整安装流程和一些避…...

5个免费IP查询API对比:哪个最适合你的项目?(附性能测试数据)

5个免费IP查询API深度评测:开发者选型指南与实战数据 在构建需要地理位置服务的应用时,IP查询API往往是开发者的首选方案。无论是电商平台的风控系统、内容分发网络的区域优化,还是简单的用户画像分析,一个稳定、精准且免费的IP查…...

《Kubernetes存储篇:基于nfs-subdir-external-provisioner 4.0.18工具自动创建持久化卷》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《K8S集群运维指南》 一、简介 1.1、工具简介 nfs-subdir-external-provisioner是一个用于 Kubernetes 的动态存储 Provisioner,它允许你使用已有的 NFS 服务器为集群中的 PVC(持久卷声明)提供动…...

Java+YOLO在医学影像的应用:CT肺结节检测的预处理与后处理优化

摘要:肺癌是全球癌症死亡的首要原因,早期筛查依赖于低剂量螺旋CT(LDCT)中微小结节的精准识别。然而,医学影像数据具有三维体素大、灰度动态范围极宽、背景干扰复杂等特点,直接套用通用2D YOLO模型效果不佳。…...

Java+YOLO在无人货架的应用:商品识别与库存同步的微服务实践

摘要:无人货架(Smart Shelf)作为“最后一公里”的零售终端,其核心难点在于低成本硬件下的高精度商品识别与实时库存同步。传统方案依赖昂贵的重力传感器或纯云端视觉分析,存在成本高、延迟大、弱网易失效等问题。本文提…...

C++数据结构1——可执行文件生成过程

C源代码生成最终可执行文件的过程&#xff0c;通常分为四个核心步骤&#xff1a;预处理(Preprocessing)、编译(Compilation)、汇编(Assembly) 和 链接(Linking)。我们可以通过一个经典的 HelloWorld 程序来完整演示这个过程&#xff1a;// hello.cpp #include <iostream>…...

Java高并发YOLO服务:100路摄像头实时交通标志识别与Redis缓存优化

摘要&#xff1a;在智慧交通系统中&#xff0c;面对成百上千路高清摄像头的实时视频流&#xff0c;传统的“单路单线程”或“Python脚本调用”架构早已不堪重负&#xff0c;导致延迟高企、资源浪费。本文深入探讨如何基于 Java 21 (Virtual Threads) 构建超高并发视频处理流水线…...

COMSOL模拟离子迁移及PH变化:电场、流场与稀物质传递三个物理场的应用

comsol模拟离子迁移PH变化。 应用到电场&#xff0c;流场&#xff0c;稀物质传递三个物理场。实验台上放着微流控芯片样品的时候&#xff0c;突然意识到酸碱度分布对实验结果影响比想象中更大。这时候COMSOL的多物理场耦合功能简直就是救星——把电场、流体、物质迁移三个模块组…...

基于麻雀算法优化门控循环单元的SSA-GRU单维时序预测模型——适用于MATLAB 2020及...

SSA-GRU单维时序预测预测&#xff0c;基于麻雀算法(SSA)优化门控循环单元(SSA-GRU)单维时间序列预测 1、运行环境要求MATLAB版本为2020及其以上&#xff0c;单输入单输出 2、评价指标包括:R2、MAE、MSE、RMSE等&#xff0c;图很多&#xff0c;符合您的需要 3、代码中文注释清晰…...

二维Comsol的Voronoi边界设置与多边形骨料、纤维骨料分析方法

二维comsol的Voronoi&#xff0c;可设置方形边界&#xff0c;圆形边界&#xff0c;椭圆边界等等。 可选择条带过渡界面厚度。 需要ABAQUS2020及以上版本&#xff0c;AUTOCAD2020及以上版本 以上两软件进行辅助生成。 另二维多边形骨料&#xff0c;纤维骨料等均可采用此方法。在…...

零成本养虾指南:OpenClaw从入门到卸载

一、基础环境 1、安装 nodejs 下载地址&#xff1a;https://nodejs.org/zh-cn/download/archive/v22.22.1演示版本&#xff1a;https://nodejs.org/dist/v22.22.1/node-v22.22.1-win-x64.zip 解压后&#xff0c;将路径(例如C:\myapp\node-v22.22.1-win-x64)添加到环境变量 …...

彻底搞懂STM32定时器:PSC、ARR、CNT详解,附精确延时代码---STM32 HAL库专栏

&#x1f3ac; 渡水无言&#xff1a;个人主页渡水无言 ❄专栏传送门&#xff1a; 《linux专栏》《嵌入式linux驱动开发》《linux系统移植专栏》 ❄专栏传送门&#xff1a; 《freertos专栏》 《STM32 HAL库专栏》《linux裸机开发专栏》 ❄专栏传送门&#xff1a;《产品测评专栏》…...

Windows操作系统核心知识与安全基础全解析

摘要&#xff1a;在数字世界的每一天&#xff0c;我们几乎都在与操作系统打交道&#xff0c;尤其是微软的Windows。它不仅是电脑的“大管家”&#xff0c;也是连接我们与硬件的桥梁。本文将带你从零开始&#xff0c;系统性地理解Windows的核心构成、运作方式以及至关重要的安全…...

Delta并联机器人:轨迹规划与工作空间求解的正逆解

Delta并联机器人轨迹规划工作空间求解正逆解今天咱们来聊聊Delta并联机器人的轨迹规划和工作空间求解&#xff0c;顺便撸点代码&#xff0c;看看怎么搞正逆解。先说说Delta机器人&#xff0c;这家伙在工业上用得挺多&#xff0c;尤其是高速抓取和装配的场景。它的结构简单&…...

SAP Joule:嵌入 SAP Fiori Launchpad 的生成式 AI 数字助手

在过去很多年里,企业用户对 数字助手 的期待一直很朴素:能回答问题、能帮我找入口、最好还能少点培训成本。可一旦系统规模进入 SAP S/4HANA、SuccessFactors、Ariba、SAP Build Work Zone 这类跨产品协同的现实世界,传统助手往往就会遇到天花板。它也许能理解一段对话,却未…...

刷题笔记:力扣第73、74题(二维矩阵)

力扣第73题-矩阵置零1.拿到题目后&#xff0c;第一时间想到应该先遍历一遍矩阵&#xff0c;分别使用一个行标记数组和一个列标记数组来标记哪里有0&#xff0c;然后进行置零操作&#xff0c;但题目要求使用原地算法&#xff0c;即不开辟新的数组、直接在原矩阵上进行操作。2.那…...

矩转换矩阵

格子玻尔兹曼方法&#xff08;LBM&#xff09;MRT作用力模型格子玻尔兹曼方法搞流动模拟的老司机都知道&#xff0c;MRT&#xff08;多松弛时间&#xff09;模型可比单松弛时间模型&#xff08;BGK&#xff09;香多了。这玩意儿最大的特点就是数值稳定性强&#xff0c;边界条件…...

SpringAI大语言模型调用优化:性能提升技巧

在前面的内容中&#xff0c;我们了解了SpringAI与大语言模型集成的相关基础信息。而在实际使用SpringAI调用大语言模型时&#xff0c;往往会遇到响应慢、资源消耗大等问题。这就需要我们掌握SpringAI调用大语言模型的性能优化方法&#xff0c;从而提升调用的性能。接下来&#…...

SpringAI集成OpenAI:从配置到调用实战

在当今的人工智能领域&#xff0c;大语言模型展现出了强大的能力。SpringAI作为一个优秀的框架&#xff0c;能够很好地与大语言模型集成&#xff0c;为开发者提供便捷的开发体验。而OpenAI作为大语言模型领域的佼佼者&#xff0c;其模型如GPT系列在自然语言处理等方面有着卓越的…...

用C语言程序解决两个简单问题

1.编写程序从键盘输入华氏温度&#xff0c;将其转化为摄氏温度后输出&#xff0c;要求保留2位小数。2. 从键盘输入一整型分钟数&#xff0c;将其换算成用小时和分钟表示&#xff0c;然后进行输出。...

SpringAI大语言模型应用案例:智能问答系统开发

在当今数字化时代&#xff0c;智能问答系统已经成为了许多企业和应用的核心功能之一。它能够快速、准确地回答用户的问题&#xff0c;提供高效的服务。而SpringAI与大语言模型的结合&#xff0c;为开发智能问答系统提供了强大的工具和方法。在这一小节中&#xff0c;我们将通过…...

ssm+java2026年毕设社区医院综合管理信息系统【源码+论文】

本系统&#xff08;程序源码&#xff09;带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容进度安排&#xff1a;2023年8月23日-2023年9月18日 与指导老师进行沟通&#xff0c;确认选题并提交题目进行审核2023年9月19日-2023年10月…...

MedGemma-X快速入门:无需代码,轻松实现X光片智能解读

MedGemma-X快速入门&#xff1a;无需代码&#xff0c;轻松实现X光片智能解读 1. 为什么选择MedGemma-X&#xff1f; 在医疗影像诊断领域&#xff0c;传统的人工阅片方式面临着效率低下、工作强度大、经验依赖性强等问题。而大多数AI辅助诊断工具又需要复杂的部署流程和技术背…...

Typora+Local AI MusicGen:Markdown文档智能配乐系统

TyporaLocal AI MusicGen&#xff1a;Markdown文档智能配乐系统 1. 项目背景与价值 你有没有遇到过这样的情况&#xff1a;写技术文档时总觉得少了点什么&#xff0c;文字虽然清晰但阅读体验单调乏味&#xff1f;或者深夜写代码文档时&#xff0c;希望有点背景音乐来提升工作…...