当前位置: 首页 > article >正文

RVC与FunASR联动:中文语音识别+AI翻唱端到端流水线

RVC与FunASR联动中文语音识别AI翻唱端到端流水线1. 引言当AI翻唱遇见语音识别想象一下这个场景你有一段喜欢的歌曲音频想用自己的声音翻唱它但苦于记不住歌词或者原唱语速太快跟不上。传统的做法是你得先找人扒歌词再一句句跟着学整个过程费时费力。现在有了RVCRetrieval-based-Voice-Conversion和FunASR的强强联合这一切变得前所未有的简单。RVC这个强大的AI语音转换工具能够将任何人的声音转换成目标音色实现“AI翻唱”。而FunASR作为一款领先的开源中文语音识别模型能够精准地将音频中的歌词识别成文字。当这两者结合就形成了一条完整的端到端流水线上传原唱音频 → 自动识别歌词 → 训练你的声音模型 → 生成你的翻唱版本。整个过程几乎自动化让你从“想唱”到“唱出来”的路径大大缩短。本文将带你一步步搭建这条神奇的生产线无论你是音乐爱好者、内容创作者还是对AI语音技术感兴趣的开发者都能在30分钟内上手实践。2. 核心工具简介RVC与FunASR在开始动手之前我们先快速了解一下这场“联姻”的两位主角。2.1 RVC你的AI声音克隆师RVC全称Retrieval-based-Voice-Conversion基于检索的语音转换是一个基于深度学习的语音转换框架。它的核心能力是“音色转换”——学习某个人的声音特征比如歌手的音色然后将另一个人的语音比如你的清唱转换成前者的音色。它能做什么AI翻唱这是最流行的应用。用你喜欢的歌手或任何有清晰音频的人的声音数据训练一个模型然后输入你的清唱输出就是“他/她”在唱你的歌。语音变声实时或离线改变语音的音色可用于配音、游戏变声等场景。声音克隆用少量音频样本理论上几分钟即可训练出一个专属的声音模型。为什么选择RVC WebUI原始的RVC项目需要一定的命令行和Python环境配置知识。而RVC WebUI为其提供了一个图形化操作界面大大降低了使用门槛。你只需要在网页上点一点、拖一拖就能完成模型训练和推理对新手极其友好。2.2 FunASR精准的中文“耳朵”FunASRFundamental Speech Recognition Toolkit是由达摩院开源的一款语音识别工具包在中文场景下表现出色。它的优势是什么高精度中文识别针对中文语音优化对歌词、对话等内容的识别准确率高。处理带背景音乐的音频相比通用ASR模型它对音乐、噪声环境下的语音有更好的鲁棒性这对于从歌曲中扒歌词至关重要。易于部署提供了多种部署方式包括本地Python库、可执行文件和服务器API方便集成到我们的流水线中。在流水线中的角色FunASR负责第一步——将你提供的原唱音频文件精准地转换为文本歌词LRC格式或纯文本为后续的翻唱提供准确的“歌词本”。3. 环境准备与快速部署我们的目标是在CSDN云原生AI平台基于Kubernetes上快速部署好RVC WebUI和FunASR服务。这里我们选择最便捷的“镜像部署”方式。3.1 部署RVC WebUI访问镜像广场打开 CSDN星图镜像广场在搜索框中输入“RVC”。选择镜像找到名为“RVC AI翻唱语音变声器”的镜像。从描述中确认它包含了RVC WebUI的完整环境。一键部署点击该镜像的“部署”按钮。在配置页面通常需要关注以下两点资源规格训练模型需要GPU建议选择带GPU的规格如T4、A10等。如果仅进行推理使用现成模型CPU也可以但速度会慢很多。端口映射RVC WebUI默认运行在7865端口。确保在服务配置中容器端口7865已正确映射到主机端口平台通常会自动处理。启动与访问点击“启动”等待容器状态变为“运行中”。平台会提供一个访问地址格式通常为https://[你的Pod地址]-7865.web.gpu.csdn.net。点击该链接即可打开RVC WebUI的推理界面。3.2 部署FunASR服务为了让RVC能方便地调用我们需要将FunASR部署为一个独立的API服务。准备FunASR镜像在CSDN镜像广场可能已有集成的FunASR服务镜像。如果没有我们可以使用一个简单的Dockerfile来构建FROM python:3.8 RUN pip install funasr modelscope # 下载预训练模型以Paraformer-zh为例适合中文通用场景 RUN python -c from modelscope.hub.snapshot_download import snapshot_download; snapshot_download(damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch) COPY app.py /app.py CMD [python, /app.py]编写API服务app.py创建一个简单的Flask/FastAPI应用来提供识别服务。from funasr import AutoModel from flask import Flask, request, jsonify import os app Flask(__name__) # 加载模型 print(正在加载FunASR模型...) model AutoModel(modeldamo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch) print(模型加载完毕) app.route(/asr, methods[POST]) def transcribe(): if audio not in request.files: return jsonify({error: 未提供音频文件}), 400 audio_file request.files[audio] # 保存临时文件 temp_path f/tmp/{audio_file.filename} audio_file.save(temp_path) try: # 执行语音识别 res model.generate(inputtemp_path) text res[0][text] return jsonify({text: text}) except Exception as e: return jsonify({error: str(e)}), 500 finally: # 清理临时文件 if os.path.exists(temp_path): os.remove(temp_path) if __name__ __main__: app.run(host0.0.0.0, port8000)部署服务将上述Dockerfile和app.py打包构建成镜像并在CSDN平台上部署为一个服务暴露端口例如8000。记下它的服务访问地址如http://funasr-service:8000。4. 构建端到端翻唱流水线现在我们有了两个独立运行的服务RVC WebUI端口7865和FunASR API端口8000。接下来我们需要用一段脚本作为“胶水”把它们粘合起来形成一个自动化流程。4.1 流水线工作流程整个流程可以概括为以下四步输入用户提供一首歌曲的原唱音频文件如original_song.mp3和用于模仿的目标音色干声音频如target_singer.wav。步骤一歌词识别调用FunASR服务将original_song.mp3识别成文本歌词保存为lyrics.txt。步骤二训练声音模型在RVC WebUI中使用target_singer.wav训练出一个专属的音色模型例如target_singer.pth。步骤三生成翻唱在RVC WebUI中加载训练好的target_singer.pth模型然后输入你自己的清唱音频需对照lyrics.txt演唱或者直接使用原曲伴奏模型进行转换最终生成翻唱音频cover_song.wav。4.2 自动化脚本示例我们可以编写一个Python脚本来自动化步骤一和步骤四的调用部分。假设你已经通过RVC WebUI的界面手动完成了步骤二模型训练。import requests import json import os # 配置信息 FUNASR_API_URL http://你的Funasr服务地址:8000/asr # 替换为你的实际地址 RVC_INFERENCE_URL http://你的RVC服务地址:7865/run/predict # RVC WebUI的推理API地址 ORIGINAL_SONG_PATH ./original_song.mp3 TARGET_MODEL_PATH ./assets/weights/target_singer.pth # 假设训练好的模型在此路径 MY_VOCAL_PATH ./my_vocal.wav # 你录制的清唱干声 OUTPUT_PATH ./my_cover.wav def step1_asr(audio_path): 步骤1调用FunASR识别歌词 print(正在调用FunASR进行歌词识别...) with open(audio_path, rb) as f: files {audio: f} response requests.post(FUNASR_API_URL, filesfiles) if response.status_code 200: lyrics response.json().get(text, ) print(f识别结果{lyrics[:100]}...) # 打印前100字符 # 保存歌词文件 with open(./lyrics.txt, w, encodingutf-8) as lf: lf.write(lyrics) print(歌词已保存至 lyrics.txt) return lyrics else: print(f识别失败{response.text}) return None def step4_rvc_inference(model_path, input_vocal_path, output_path): 步骤4调用RVC进行语音转换推理 print(正在调用RVC进行AI翻唱生成...) # 注意RVC WebUI的API调用参数需根据其具体接口调整以下为示例格式 # 通常需要通过模拟前端请求的方式这里展示逻辑流程 payload { data: [ model_path, # 模型文件路径 input_vocal_path, # 输入干声音频 0, # 音高调整参数 (pitch) rmvpe, # 音高提取算法 None, # 索引文件路径可选 0.75, # 检索特征占比 3, # 音色融合度 0, # 呼吸音修复程度 pm, # 发声长度算法 None, # 二次编码时长可选 0.33, # 语音切片长度 ] } # 实际调用可能需要处理文件上传和session此处为简化逻辑 # 更稳定的做法是使用 selenium 或 playwright 自动化WebUI操作或者直接研究其内部API print(提示请手动在RVC WebUI界面中加载模型并上传干声进行转换。) print(f模型路径{model_path}) print(f干声路径{input_vocal_path}) print(f输出路径将设置在RVC界面中指定。) # 由于直接调用内部API较复杂建议初学者先通过WebUI界面手动操作步骤4。 if __name__ __main__: # 1. 识别歌词 lyrics step1_asr(ORIGINAL_SONG_PATH) if lyrics: print(\n歌词识别成功请根据 lyrics.txt 中的歌词录制你的清唱干声。) print(录制完成后将文件保存为 my_vocal.wav 并放置在当前目录。) input(按回车键继续进入下一步模型推理...) # 检查用户是否已准备好干声 if os.path.exists(MY_VOCAL_PATH): # 2. 进行AI翻唱推理此处需手动或完善自动化 step4_rvc_inference(TARGET_MODEL_PATH, MY_VOCAL_PATH, OUTPUT_PATH) else: print(f未找到清唱干声文件 {MY_VOCAL_PATH}请先录制。) else: print(流水线因歌词识别失败而终止。)脚本使用说明将脚本中的FUNASR_API_URL和RVC_INFERENCE_URL替换为你实际部署的服务地址。运行脚本python pipeline.py它会自动调用FunASR识别歌词并保存。脚本会提示你根据识别出的歌词录制清唱。你可以使用任何录音软件确保录制的是干净的干声无背景音乐。录制完成后目前步骤四RVC推理的完全自动化调用较为复杂。脚本给出了提示最直接的方式是打开RVC WebUI界面。在“模型推理”标签页加载你之前训练好的target_singer.pth模型。上传你刚刚录制的my_vocal.wav文件。调整参数音高、音色融合等点击“转换”即可在线生成并下载你的翻唱作品。5. 核心步骤详解训练你的第一个声音模型虽然流水线脚本可以自动化部分流程但训练一个高质量的RVC模型是关键且需要手动精心操作的一步。让我们回到RVC WebUI界面完成核心的模型训练。5.1 数据准备收集与处理干声模型的优劣七分靠数据。为目标音色准备高质量的干声音频至关重要。音源要求尽量选择纯净、无背景音乐、无混响、无尖锐噪音的语音或歌唱片段。说话和唱歌的数据可以混合使用但唱歌数据对翻唱效果提升更明显。时长要求RVC所需数据量不大10到30分钟的清晰干声通常就能训练出不错的效果。质量远重于数量。格式处理将收集到的音频文件如.mp3, .m4a转换为单声道、22050Hz或44100Hz采样率的WAV格式。可以使用格式工厂、Audacity等工具。放置数据将处理好的所有WAV文件放入RVC WebUI目录下的dataset_raw文件夹根据版本可能是input中建议为每个目标音色建立一个子文件夹例如dataset_raw/target_singer。5.2 在WebUI中训练模型切换到训练标签页在RVC WebUI界面点击顶部的“训练”标签。实验命名与模型选择实验名填写一个名字如target_singer用于区分不同训练任务。模型架构新手选择v2即可。采样率与你音频数据的采样率一致通常22k或40k。数据预处理在“训练数据集路径”中指向你放置干声的文件夹如./dataset_raw/target_singer。点击“一键处理数据集”。这个步骤会自动进行音频切片、提取音高和特征耗时几分钟到十几分钟不等。处理后的数据会保存在logs文件夹下以你实验名命名的子文件夹中。配置训练参数总训练轮数建议从100轮开始。可以观察损失值loss下降曲线如果后期下降平缓即可停止。批量大小根据你的GPU显存调整显存小如6G可以设为4-8显存大可以设16或更高。保存频率设为10或20即每10/20轮保存一个中间模型。开始训练点击“开始训练”。你可以在终端或WebUI的日志框中看到训练进度和损失值。训练时间因数据量、轮数和GPU性能而异从几十分钟到数小时不等。模型导出训练完成后最终的模型文件.pth会保存在assets/weights目录下。同时在logs/你的实验名目录下会生成一个特征索引文件.index在推理时搭配使用可以提升音色相似度。6. 应用场景与创意玩法这条技术流水线不仅仅用于“复刻”歌声它打开了更多创意应用的大门。6.1 个人娱乐与内容创作跨语种翻唱识别外语歌曲歌词并翻译然后用中文音色模型演唱创造独特的“中文版”外语歌。经典重现训练已故歌手或老年时期歌手的音色模型让其“演唱”新歌满足粉丝情怀。个性化配音为自己训练一个模型为短视频、Vlog配音保持声音一致性。6.2 辅助音乐制作与教育DEMO试听作曲者可以在编曲完成后快速用不同歌手的音色模型试听人声部分效果辅助编曲决策。声乐学习学生可以用自己的声音模型去“演唱”专业歌手的歌曲对比与原版在音准、气息上的差异进行针对性练习。6.3 注意事项与伦理边界版权风险用于训练模型的音频数据应确保不侵犯他人版权。生成的翻唱作品若用于公开传播或商业用途需格外谨慎最好取得原作品著作权人授权。声音权与伦理未经他人明确许可使用其声音数据训练模型并公开使用可能涉及声音权等伦理和法律问题。请务必在合法、合规、征得同意的范围内进行技术实践。技术局限性当前技术对气声、强混声、复杂和声的转换效果可能不完美且极度依赖输入干声和训练数据的质量。7. 总结通过将FunASR的高精度中文语音识别与RVC的强大音色转换能力相结合我们成功搭建了一条从“原曲”到“个人翻唱”的端到端AI流水线。这条流水线极大地简化了传统翻唱制作的流程降低了技术门槛。回顾核心步骤部署在云平台快速部署RVC WebUI和FunASR服务。识别利用FunASR自动从原曲中提取歌词文本。训练在RVC WebUI中用目标音色的干声数据训练出专属声音模型。合成录制你的干声或用原曲伴奏通过RVC模型合成最终翻唱作品。技术的价值在于应用和创造。希望本文提供的实践指南不仅能帮助你实现AI翻唱的乐趣更能激发你探索AI语音技术在更多场景下的创新应用。从今天开始让你的声音拥有无限可能。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

RVC与FunASR联动:中文语音识别+AI翻唱端到端流水线

RVC与FunASR联动:中文语音识别AI翻唱端到端流水线 1. 引言:当AI翻唱遇见语音识别 想象一下这个场景:你有一段喜欢的歌曲音频,想用自己的声音翻唱它,但苦于记不住歌词,或者原唱语速太快跟不上。传统的做法…...

告别双流!用Vision Transformer (ViT) 搭建单流目标跟踪器OSTrack,实测速度提升40%

单流目标跟踪新范式:ViT驱动的OSTrack实战解析 在计算机视觉领域,目标跟踪技术正经历着从传统双流架构向单流范式的革命性转变。当我们面对复杂场景中的实时跟踪需求时,传统方法的性能瓶颈日益凸显——特征提取与关系建模的割裂处理导致计算冗…...

ViT在语义分割中的性能优化:从VOC2012数据集看如何提升自行车识别准确率

ViT在语义分割中的性能优化:从VOC2012数据集看如何提升自行车识别准确率 语义分割作为计算机视觉领域的核心任务之一,其目标是为图像中的每个像素分配类别标签。近年来,Vision Transformer(ViT)凭借其强大的全局建模能…...

UDS诊断服务-10例程控制服务(0x31)实战:从协议解析到车辆传感器校准

1. 从车辆抖动问题认识0x31服务的重要性 去年夏天,我遇到一辆行驶里程8万公里的SUV,车主反映急加速时发动机抖动明显。用诊断仪读取故障码显示"P0172 - 燃油修正系统过浓",但更换氧传感器和火花塞后问题依旧。这时候就需要请出我们…...

GLM-4-9B-Chat-1M与Dify平台集成:无代码长文本处理系统搭建

GLM-4-9B-Chat-1M与Dify平台集成:无代码长文本处理系统搭建 1. 引言 想象一下,你手头有一份200页的法律合同需要快速审核,或者需要分析整本学术专著的核心观点,甚至要处理多语言的长篇商业文档。传统的人工处理方式耗时耗力&…...

Mermaid Live Editor:代码驱动图表设计的终极解决方案

Mermaid Live Editor:代码驱动图表设计的终极解决方案 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-editor…...

别再手动改配置了!用Docker Compose一键部署Pikachu靶场,5分钟搞定测试环境

5分钟极速搭建Pikachu靶场:Docker Compose自动化实战指南 每次准备网络安全练习环境时,最头疼的莫过于反复安装配置各种服务——PHP版本不兼容、MySQL连接失败、Web服务器配置错误...这些琐碎问题消耗了本应用于渗透测试学习的宝贵时间。今天要分享的这套…...

ROS2 Humble下,如何用MoveIt! Action接口让机械臂“听话”?一个抓取demo的完整复盘

ROS2 Humble下机械臂精准控制实战:从MoveIt! Action接口到完整抓取任务 在工业自动化和服务机器人领域,机械臂的精准运动控制一直是核心挑战。ROS2 Humble版本中的MoveIt!框架为这一挑战提供了优雅的解决方案,而理解其Action接口的运作机制则…...

LaTeX-PPT:重新定义PowerPoint公式编辑体验

LaTeX-PPT:重新定义PowerPoint公式编辑体验 【免费下载链接】latex-ppt Use LaTeX in PowerPoint 项目地址: https://gitcode.com/gh_mirrors/la/latex-ppt 一、学术演示的隐形效率杀手 周三下午的组会演示前,李教授盯着屏幕上歪歪扭扭的公式叹气…...

基于SpringBoot的CLAP音频分类服务开发实战

基于SpringBoot的CLAP音频分类服务开发实战 1. 项目背景与价值 音频分类在实际业务中有着广泛的应用场景,比如内容审核、智能家居、媒体分析等。传统的音频分类方案通常需要大量标注数据来训练专用模型,这在很多实际场景中成本高昂且不够灵活。 CLAP&…...

墨语灵犀助力软件测试:智能测试用例生成与缺陷报告分析

墨语灵犀助力软件测试:智能测试用例生成与缺陷报告分析 作为一名在软件测试领域摸爬滚打多年的工程师,我深知这份工作的“痛”与“乐”。痛的是,面对动辄几十上百页的需求文档,手动编写测试用例的枯燥与耗时;乐的是&a…...

Fun-ASR语音识别新手入门:3步启动Web服务,麦克风实时转文字实测

Fun-ASR语音识别新手入门:3步启动Web服务,麦克风实时转文字实测 1. 快速认识Fun-ASR Fun-ASR是由钉钉与通义实验室联合推出的语音识别系统,专为中文场景优化设计。与市面上常见的云端语音识别服务不同,它最大的特点是支持本地化…...

用战神引擎开服后,别忘了这几步:服务器安全、日志监控与性能调优指南

战神引擎开服后的高阶运维指南:安全加固、日志监控与性能调优实战 当你成功用战神引擎架设传奇手游服务器后,真正的挑战才刚刚开始。服务器能跑起来只是第一步,如何让它跑得稳、跑得安全、跑得高效,才是区分普通服主和专业运维的关…...

Bilibili-Evolved性能优化实战:突破60fps流畅播放全解析

Bilibili-Evolved性能优化实战:突破60fps流畅播放全解析 【免费下载链接】Bilibili-Evolved 强大的哔哩哔哩增强脚本 项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-Evolved Bilibili-Evolved作为强大的哔哩哔哩增强脚本,通过深度优化浏…...

AI辅助开发新体验:描述需求即可让快马AI生成智能浏览器下载插件

今天想和大家分享一个用AI辅助开发浏览器插件的实战经验。最近在InsCode(快马)平台上尝试开发了一个智能下载插件,整个过程让我深刻体会到AI如何改变传统开发流程。 需求分析 这个插件的核心目标是让下载变得更智能。传统下载工具需要我们手动选择保存位置&#xff…...

小麦联合收割机的设计【说明书+SW三维+CAD图纸】

小麦联合收割机作为现代农业机械化的核心装备,其设计需兼顾效率、可靠性与适应性。该设备通过集成收割、脱粒、清选及集粮功能,实现小麦收获环节的连续作业,显著缩短田间作业周期,降低人工劳动强度。其核心作用体现在三方面&#…...

HarmonyOS6 半年磨一剑 - RcCheckboxGroup 组件与全选不确定态机制深度解析

文章目录前言一、RcCheckboxGroup 内部状态同步1.1 双层状态管理1.2 选中状态判断二、布局渲染架构2.1 横向与纵向的渲染分支2.2 itemGap 的类型安全处理2.3 属性透传机制三、全选与不确定态(indeterminate)3.1 三态状态机3.2 全选逻辑实现3.3 indetermi…...

从Dify到Coze再回来:一个后端开发用Gin+Swagger构建AI工作流的踩坑实录

从Dify到Coze再回来:一个后端开发用GinSwagger构建AI工作流的踩坑实录 作为一名长期使用Gin框架的后端开发者,当我第一次尝试将现有服务接入Dify平台构建AI工作流时,本以为会是一次顺畅的旅程。毕竟,我们的API已经通过Swagger 2.0…...

告别手动操作!Open-AutoGLM让iPhone听懂人话,自动执行指令

告别手动操作!Open-AutoGLM让iPhone听懂人话,自动执行指令 1. 引言 你是否厌倦了每天重复点击手机屏幕的操作?是否希望手机能像真人助理一样理解你的需求并自动完成任务?今天我要介绍的Open-AutoGLM正是这样一个革命性的AI手机智…...

3个突破性技术,让抖音无水印视频下载效率提升200%

3个突破性技术,让抖音无水印视频下载效率提升200% 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …...

Mac用户的移动Win10工坊:从WTG配置到驱动、激活、文件共享的完整避坑指南

Mac用户的移动Win10工坊:从WTG配置到驱动、激活、文件共享的完整避坑指南 当Mac用户需要运行Windows应用时,双系统方案往往是最佳选择。而通过Windows To Go(WTG)技术将Win10安装在移动硬盘上,不仅保留了Mac原生系统的…...

Whisper语音识别镜像快速部署:5分钟搭建多语言客服转写服务

Whisper语音识别镜像快速部署:5分钟搭建多语言客服转写服务 1. 引言:语音识别在客服场景的挑战 在全球化的商业环境中,客服中心面临着多语言支持的巨大挑战。传统语音识别系统往往需要为每种语言单独部署模型,不仅成本高昂&…...

Phi-3-mini-4k-instruct-gguf GPU利用率优化:CUDA核心占用率与吞吐量分析

Phi-3-mini-4k-instruct-gguf GPU利用率优化:CUDA核心占用率与吞吐量分析 1. 模型概述与性能挑战 Phi-3-mini-4k-instruct-gguf是微软推出的轻量级文本生成模型,基于GGUF格式优化,特别适合问答、文本改写和摘要生成等场景。虽然模型体积小巧…...

AIVideo一站式AI长视频工具与Visual Studio的深度集成开发

AIVideo一站式AI长视频工具与Visual Studio的深度集成开发 1. 引言 作为一名长期使用Visual Studio进行开发的程序员,我经常遇到这样的痛点:想要录制一段代码演示视频,需要反复切换多个软件;想要制作项目介绍视频,得…...

5个关键步骤:使用SMUDebugTool解决AMD Ryzen硬件调试难题

5个关键步骤:使用SMUDebugTool解决AMD Ryzen硬件调试难题 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https:/…...

CogVideoX-2b多轮迭代技巧:基于首版视频反馈优化Prompt的实战方法

CogVideoX-2b多轮迭代技巧:基于首版视频反馈优化Prompt的实战方法 1. 从新手到导演的快速入门 如果你正在寻找一个简单好用的文字生成视频工具,CogVideoX-2b可能会成为你的新宠。这个基于智谱AI开源模型的工具,专门为AutoDL环境优化&#x…...

Qwen2-VL-2B-Instruct一键部署教程:基于Ubuntu 20.04的GPU环境快速搭建

Qwen2-VL-2B-Instruct一键部署教程:基于Ubuntu 20.04的GPU环境快速搭建 你是不是也遇到过这种情况?看到一个很酷的多模态大模型,想立刻上手试试,结果被复杂的依赖安装、环境配置、驱动适配搞得头大,折腾半天还没跑起来…...

Bootstrap4 导航栏详解

Bootstrap4 导航栏详解 引言 Bootstrap 是一个流行的前端框架,它为开发者提供了丰富的组件和工具,以快速构建响应式、移动优先的网站和应用程序。导航栏是网站的重要组成部分,它能够帮助用户轻松地在网站的不同页面之间导航。Bootstrap4 提供…...

Pixel Aurora Engine部署教程:Nginx反向代理+HTTPS配置像素AI服务公网访问

Pixel Aurora Engine部署教程:Nginx反向代理HTTPS配置像素AI服务公网访问 1. 项目介绍与准备 Pixel Aurora Engine是一款基于AI扩散模型的高端像素艺术生成工具,采用复古8-bit游戏风格界面设计。通过本教程,您将学会如何通过Nginx反向代理和…...

PFC5.0代码:含三种矿物组成的岩石或类岩石材料GBM单轴压缩2d算例代码,仅供学习与提升

PFC5.0代码,含三种矿物组成的岩石或者类岩石材料,GBM,单轴压缩2d,算例代码仅供学习以及提升 打开PFC5.0的建模界面,突然想把花岗岩里的石英、长石、云母做成颗粒组合。先整点暴力的——直接拿球体颗粒拼成矿物晶粒&…...