当前位置: 首页 > news >正文

国服最强文字转音频?Fish Speech

官网文档与示例

在这里插入图片描述

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型,使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行,但是质量不尽如人意,建议使用RTX系列的显卡进行推理。

使用结果展示
    text= """2024年1月6日,夜色如墨,而深圳C局客户机房内的灯光却异常明亮,现场支撑的淞哥,眼睛紧盯着屏幕,手指在键盘上飞速敲击,随着最后一行代码的执行,他难掩激动地在大网改造保障群对话框里迅速写下:“服务启动完成、OSS(无线运营商业务系统)正常接入、定时报表正常生成、数据迁移范围符合预期……”这不仅是一条消息,更是一声胜利的号角。
消息一发出,群里立刻沸腾了,点赞和鼓掌的表情包不断在屏幕上跳动着。这一刻,我们所有人的心都紧紧相连,共同分享着这份来之不易的喜悦。
我坐在电脑前,闭上眼睛,任由思绪穿越时空,回到了过去一年中的每一个日夜……
缘起:跨领域迎接挑战
在OMC(无线网络管理)的先进领域,运营商客户始终在追求拥有一个高效管理系统——能够统一掌控庞大网络设备的理想平台。无论省份、设备制造商如何分散,都能通过统一的OMC系统实现无缝运维管理,这将极大提升运维效率,优化网络性能。
此前,我们的PRS(无线网络性能评估系统)作为无线网络管理领域的创新成果,成为了运营商客户日常网络运维不可或缺的一部分。客户对我们的信赖和对大网能力的期待,成为我们不断追求技术突破的动力。
2019年,我们迈出了重要的一步:PRS首套1W大网商用系统上线。“1W大网”能够管理一万个等效网元,为了有效处理海量T级别网络性能数据,我们首次引入了“Hadoop分布式集群系统”。同时,我们还有灵活管理规模小于一万个网元的 “PRS小网”系统,它一直依赖于公司自主研发的高斯数据库来存储数据。因此在大网商用之初,研发团队面临的一大挑战便是同时维护Hadoop和高斯两套技术栈。"""

输出结果: output.wav

官网相关文档

https://fish.audio/zh-CN/about/    # 官方
https://speech.fish.audio/samples/ # 示例
https://github.com/fishaudio/fish-speech # 源码地址

使用硬件要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

此处介绍的是ubuntu系统上的安装与使用。本文使用的windows 子系统ubuntu22.04

  • 安装
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
python3 -m venv sp_venv
source sp_venv/bin/activate# 安装 pytorch
pip3 install torch torchvision torchaudio -i  https://pypi.tuna.tsinghua.edu.cn/simple# 下载fish-speech 代码
git clone https://github.com/fishaudio/fish-speech# 安装 fish-speech
cd fish-speech
pip3 install -e .# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
  • 下载模型文件
    方法一: 官网给定的下载模型文件命令:python ./tools/download_models.py
    但是由于网络原型,可能下载不成功。如果有翻墙工具,可以下载。
    方法二: 通过 modelscope 社区进行下载 :https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files
cd fish-speech
mkdir checkpoints/fish-speech-1.2-sft

在这里插入图片描述
将下载的模型文件拷贝到 fish-speech-1.2-sft 文件夹下
如果使用的windows 子系统 可以使用一下 命令

wsl cp config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft
  • 使用
    使用方法有两种,
    一种是通过 web UI 使用,更直观,便捷
    一种是通过API方式,更灵活,移植性更大
web UI
python -m tools.webui \--llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \--decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \--decoder-config-name firefly_gan_vq

在这里插入图片描述
启动后 web : http://127.0.0.1:7860
在这里插入图片描述

API 方式使用
python -m tools.api \--listen 0.0.0.0:8080 \--llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \--decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \--decoder-config-name firefly_gan_vq

使用

python -m tools.post_api \--text "要输入的文本" \--reference_audio "参考音频路径" \--reference_text "参考音频的文本内容" \--streaming True

参考音频路径 可以在 https://speech.fish.audio/samples/ 中下载一个参考音频。也可以使用自己创建的音频文件。
注意格式为 :wav
在这里插入图片描述

相关文章:

国服最强文字转音频?Fish Speech

官网文档与示例 Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型,使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行,但是质量不尽如人意,建议使用RTX系列的显卡进行推理。 使用结果展示 text """20…...

数据结构(6):图

1 图的基本概念 1.1 基本概念 1.1.1 定义【多对多的关系】 一个图不可能是空图!!!一个图的顶点集一定是非空集,但是边集可以为空集! 1.1.2 应用 1.2 无向图和有向图 弧头是有箭头的那一边,弧尾是没有箭头…...

kaggle使用api下载数据集

背景 kaggle通过api并配置代理下载数据集datasets 步骤 获取api key 登录kaggle,点个人资料,获取到自己的api key 创建好的key会自动下载 将key放至家目录下的kaggle.json文件中 我这里是windows的administrator用户。 装包 我用了虚拟环境 pip …...

前缀表达式(波兰式)和后缀表达式(逆波兰式)的计算方式

缀是指操作符。 1. 前缀表达式(波兰式) (1)不需用括号; (2)不用考虑运算符的优先级; (3)操作符置于操作数的前面。(如 3 2 ) 1.1 中…...

智能井盖管理系统:城市窨井的井下“保镖”

随着城市化进程的加速,城市的生命线基础设施面临着越来越多的挑战。其中,旭华智能智能井盖传感器技术的发展为提升城市基础设施的安全性和管理效率提供了新的解决方案。它专门用于监控市政窨井、燃气井、供水井内的积水状况以及井盖状态,以增…...

vue3-环境变量-JavaScript-axio-基础使用-lzstring-字符串压缩-python

文章目录 1.Vue3环境变量1.1.简介1.2.全局变量的引用1.3.package.json文件 2.axio2.1.promise2.2.安装2.3.配置2.3.1.全局 axios 默认值2.3.2.响应信息格式 2.4.Axios的拦截器2.4.1.请求拦截器2.4.2.响应拦截器2.4.3.移除拦截器2.4.4.自定义实例添加拦截器 3.lz-string3.1.java…...

ubuntu下载docker依赖包

Ubuntu下载docker依赖包 ​ 公司对外客户一直偏向对安全性要求较高,因此在外部署服务得时候,安装docker是一件极为重要得事情,之前得服务器得系统是centos7。在上一家公司的时候,已经把docker所需得rpm包已经集成打包好了。并且d…...

java面向对象进阶进阶篇--《JDK8,JDK9接口中新增的方法、接口的应用、适配器设计模式》

个人主页→VON 收录专栏→java从入门到起飞 接口→接口和接口与抽象类综合案例 一、JDK8接口中新增的方法 在JDK 8中,接口新增了几个重要的特性和方法,其中最显著的是默认方法(Default Methods)和静态方法(Static Met…...

15.2 zookeeper java client

15.2 zookeeper java client 1. Zookeeper官方1.1 依赖1.2 Zookeeper客户端连接测试1.3***************************************************************************************1. Zookeeper官方 1.1 依赖 <!-- 集成方式一:官方集成zookeeper依赖 --><dependenc…...

素材管理太繁琐?有这一个就够了!

引言&#xff1a; 在创意行业中&#xff0c;素材管理一直是设计师们的痛点。从灵感的捕捉到作品的完成&#xff0c;每一步都离不开素材的积累与整理。然而&#xff0c;传统的素材管理方式往往繁琐且效率低下&#xff0c;让人头疼不已。今天&#xff0c;我要介绍的这款智能素材管…...

KubeSphere 部署向量数据库 Milvus 实战指南

作者&#xff1a;运维有术星主 Milvus 是一个为通用人工智能&#xff08;GenAI&#xff09;应用而构建的开源向量数据库。它以卓越的性能和灵活性&#xff0c;提供了一个强大的平台&#xff0c;用于存储、搜索和管理大规模的向量数据。Milvus 能够执行高速搜索&#xff0c;并以…...

前端canvas——贝塞尔曲线

曲线之美&#xff0c;不在于曲线本身&#xff0c;而在于用的人。 所以就有了这期贝塞尔曲线。 新规矩&#xff0c;先上个GIT。 效果图 开局一张图&#xff0c;代码全靠编。 代码 画骨 先想着怎么画一个心形吧&#xff0c;等你想好了&#xff0c;就知道怎么画了。 首先就还…...

Elasticsearch模糊查询之Wildcard

{“wildcard” : { “LPR.keyword” : { “wildcard” : “${Keyword}”} }},你的示例中使用了 wildcard 查询&#xff0c;它适用于模糊搜索&#xff0c;允许使用通配符&#xff08;* 和 ?&#xff09;来匹配字段值。你使用了 keyword 子字段来确保精确匹配&#xff0c;这是一…...

【人工智能】穿越科技迷雾:解锁人工智能、机器学习与深度学习的奥秘之旅

文章目录 前言一、人工智能1. 人工智能概述a.人工智能、机器学习和深度学习b.人工智能发展必备三要素c.小案例 2.人工智能发展历程a.人工智能的起源b.发展历程 3.人工智能的主要分支 二、机器学习1.机器学习工作流程a.什么是机器学习b.机器学习工作流程c.特征工程 2.机器学习算…...

Nginx服务 rewrite、proxy_pass 用rewrite去除URL中的特定参数

Nginx 是一个高性能的开源反向代理服务器&#xff0c;可以用于处理跨域请求、负载均衡和缓存等功能。在本文中&#xff0c;我们将介绍如何使用 Nginx 配置文件来实现反向代理。 我们可以实现跨域请求的处理&#xff0c;同时保护用户的隐私和安全。此外&#xff0c;Nginx 还…...

RocketMQ事务消息机制原理

RocketMQ工作流程 在RocketMQ当中&#xff0c;当消息的生产者将消息生产完成之后&#xff0c;并不会直接将生产好的消息直接投递给消费者&#xff0c;而是先将消息投递个中间的服务&#xff0c;通过这个服务来协调RocketMQ中生产者与消费者之间的消费速度。 那么生产者是如何…...

【C++】选择结构- 嵌套if语句

嵌套if语句的语法格式&#xff1a; if(条件1) { if(条件1满足后判断是否满足此条件) {条件2满足后执行的操作} else {条件2不满足执行的操作} } 下面是一个实例 #include<iostream> using namespace std;int main4() {/*提示用户输入一个高考分数&#xff0c;根据分…...

scrapy解决管道阻塞问题采用threadpool库线程池+twisted同步语法异步编程

实现方法&#xff1a;process_item和download任务函数像下面编写即可&#xff0c;其他管道像往常一样写法 import time import threadpool import random from twisted.internet import deferclass VideoPipeline:def __init__(self):self.pool threadpool.ThreadPool(10) # …...

Axure RP:打造动态交互的大屏可视化设计利器

Axure大屏可视化是指使用Axure RP这款原型设计工具来创建具有视觉冲击力和数据展示功能的大屏幕界面。Axure以其强大的交互设计和丰富的组件库&#xff0c;成为了实现大屏可视化的重要工具之一。以下是对Axure大屏可视化的详细阐述&#xff1a; 一、Axure在大屏可视化中的优势 …...

“八股文”在实际工作中是助力、阻力还是空谈

目录 1.概述 1.1.对实际工作的助力 1.2.存在的问题 2.“八股文”对招聘过程的影响 2.1.“八股文”在筛选候选人时的作用 2.2.面试中的比重及其合理性 2.3.如何平衡“八股文”与实际编程能力的考察 3.“八股文”在日常工作中的实用价值 3.1.在团队协作环境中进行有效沟…...

Token 成本暴跌 280 倍,为什么用 AI 替代初级开发,依然算不拢账?

从董事会的 PPT 翻车&#xff0c;看 AI 降本神话背后的全成本真相上周我旁听了一场 C-suite 高管会议&#xff0c;亲眼看着一位副总裁被自己的 PPT 逼入绝境。会议的主题是 AI 项目的成本收益&#xff0c;他准备了一套无懈可击的逻辑&#xff1a;大模型 Token 价格 3 年暴跌 28…...

防晒霜真的防晒吗?揭秘SPF值背后的“光“标准

盛夏将至&#xff0c;防晒霜成为每个人的随身必备。你是否想过&#xff1a;瓶身上标注的 SPF 50、PA 是如何测出来的&#xff1f;为什么有些防晒霜涂了还是会晒黑&#xff1f;所谓的"防水防汗"真的有科学依据吗&#xff1f;这些问题的答案&#xff0c;都藏在一个精密…...

【bilibili-downloader】:突破4K画质限制的B站视频下载工具:给视频收藏爱好者的高效解决方案

【bilibili-downloader】&#xff1a;突破4K画质限制的B站视频下载工具&#xff1a;给视频收藏爱好者的高效解决方案 【免费下载链接】bilibili-downloader B站视频下载&#xff0c;支持下载大会员清晰度4K&#xff0c;持续更新中 项目地址: https://gitcode.com/gh_mirrors/…...

Linux下用tar.gz压缩含软连接的目录,为什么比zip更靠谱?

Linux下处理含软连接目录&#xff1a;为什么tar.gz比zip更可靠&#xff1f; 在Linux系统管理中&#xff0c;文件打包和压缩是日常操作中不可或缺的一部分。当目录结构中含有软连接&#xff08;symbolic link&#xff09;时&#xff0c;选择合适的压缩格式就显得尤为重要。许多管…...

状态机中的人物状态

一&#xff0c;人物惯性移动using System.Collections; using System.Collections.Generic; using UnityEngine;public class CharMove3 : MonoBehaviour {public Transform charTrans; //角色坐标public Vector3 currentVelocity; //当前速度public float maxSpeed; //最大速率…...

【独家首发】CPython内存管理策略白皮书(基于v3.9–v3.13源码比对):37处关键宏定义、12个GC阈值参数、8类对象内存布局差异

第一章&#xff1a;CPython内存管理策略全景概览CPython 作为 Python 官方解释器&#xff0c;其内存管理机制融合了引用计数、循环垃圾回收&#xff08;GC&#xff09;与分代回收策略&#xff0c;形成一套兼顾实时性与鲁棒性的综合体系。理解该机制对诊断内存泄漏、优化对象生命…...

Winbond W25N/W25M系列SPI NAND Flash驱动开发指南

1. Winbond W25N系列SPI NAND Flash驱动库技术解析Winbond W25N系列&#xff08;含W25N01GV、W25N02GV等&#xff09;与W25M系列&#xff08;如W25M02GW双芯片封装&#xff09;是工业级高可靠性SPI NAND Flash存储器&#xff0c;广泛应用于嵌入式系统中替代传统并行NAND或eMMC方…...

方寸陶瓷藏乾坤:百能云板用陶瓷基板四大核心工艺,赋能万物互联时代

当你驾驶新能源汽车平稳穿梭在城市街巷&#xff0c;当深夜的 LED 路灯精准照亮回家的路&#xff0c;当手机人脸识别瞬间解锁生活便捷 —— 你或许不会想到&#xff0c;这些场景的背后&#xff0c;都离不开一块 “隐形基石”&#xff1a;陶瓷散热基板。作为电子设备的 “散热心脏…...

告别重复配置:用快马AI自动化生成规范化的软件安装包项目

今天想和大家分享一个提升开发效率的小技巧——如何用InsCode(快马)平台快速生成规范化的Python安装包项目。作为一个经常需要打包工具给团队使用的开发者&#xff0c;我深刻体会到手动配置各种安装文件的痛苦&#xff0c;直到发现了这个能自动化生成项目骨架的神器。 传统安装…...

OpenClaw快速接入QQ教程

OpenClaw快速接入QQ教程 OpenClaw是一个强大的开源AI Agent&#xff0c;支持通过多种聊天软件进行交互。下面将详细介绍如何在OpenClaw中接入QQ&#xff0c;实现QQ与AI的对话操作。 前置准备工作 在开始配置之前&#xff0c;请确保完成以下准备工作&#xff1a; QQ账号部署好Op…...