当前位置: 首页 > news >正文

尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

首先需要标明的是,我这里是图片说话类型,而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。
我使用的基础软件是Stable Diffusion,SadTalker是作为插件放进来的,需要注意的是这对自己的电脑GPU要求比较高,至少需要8G,至少我的电脑是8G显存。

下载并安装ffmpeg

下载并安装ffmpeg,这一步的作用是语音格式的各种转换,虚拟数字人能开口说话,需要我们上传自己的语音,如果格式不符合会自动转换。
到https://ffmpeg.org/download.html选择自己操作系统然后选择下载格式。
在这里插入图片描述

选择下载的类型,我选择全量版的。
在这里插入图片描述

然后我解压到D:\VideoSoft目录下。
在这里插入图片描述

需要配置环境变量了。
Windows+r同时按下,然后输入SYSTEMPROPERTIESADVANCED,然后点击确定。

在这里插入图片描述

然后选择高级,点击环境变量
在这里插入图片描述

选择Path,然后点击编辑
在这里插入图片描述

然后点击新建
在这里插入图片描述

把你上边解压的目录找到bin那级的目录放到环境变量里边,然后点击确定
在这里插入图片描述

把上一级窗口也点击确定
在这里插入图片描述

系统属性这一级窗口也点击确定
在这里插入图片描述

然后同时按下Windows+r,输入cmd然后按下确定键。
在这里插入图片描述

然后输入ffmpeg -version,要是显示出来很多内容,那么就是正常安装好了。
在这里插入图片描述

Stable Diffusion安装插件

我使用的Stable Diffusion是秋叶版的。
在这里插入图片描述

下载扩展

点击扩展,选择从网址安装,然后把git仓库https://github.com/OpenTalker/SadTalker.git放入指定的位置,然后点击安装。
在这里插入图片描述

发现报错如下:

GitCommandError: Cmd('git') failed due to: exit code(128) cmdline: git clone -v -- https://github.com/OpenTalker/SadTalker.git D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker stderr: 'Cloning into 'D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker'... fatal: unable to access 'https://github.com/OpenTalker/SadTalker.git/': Failed to connect to github.com port 443 after 21039 ms: Couldn't connect to server '

在这里插入图片描述

我到https://github.com/OpenTalker/SadTalker里边,下载源代码的zip包。
在这里插入图片描述

然后把压缩包解压至Stable Diffusion启动器所在的目录下一级目录extensions里边,目录如下所示。
在这里插入图片描述

checkpoint文件下载和配置,

需要到https://github.com/OpenTalker/SadTalker/releases,下载以下四个文件。
在这里插入图片描述

然后当前网页上边,往下滑动,点开Assets,然后下载红圈中的文件。
在这里插入图片描述

将上边下载好的文件放入到自己D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker\checkpoints里边,很有可能,你没有checkpoints这个目录,自己新建一个就行了。
在这里插入图片描述

另外hub.zip需要解压。
在这里插入图片描述

下载GFPGAN模型

到https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi下载文件解压到D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker里边。
在这里插入图片描述

接下来就是重新启动Stable Diffusion进行画图了。点击SadTalker,然后上传图片,之后上传音频,然后点击生成。
在这里插入图片描述

需要等待。
在这里插入图片描述

生成之后如下图:
在这里插入图片描述

无法上传视频,没有办法展示效果了。

我是知识星球上约有3万人的AI破局俱乐部初创合伙人,我的微信号是zhaoseaside,欢迎大家加我,相互学习AI知识和个人IP知识,毕竟这是未来两大风口。
大家要是需要文档中的文件,可以加我备注SadTalker,我用百度网盘发给你。

相关文章:

尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

首先需要标明的是,我这里是图片说话类型,而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。 我使用的基础软件是Stable Diffusion,SadTalker是作为插件放进来的,需要注意的是这对自己的…...

链路聚合原理与配置

链路聚合原理 随着网络规模不断扩大,用户对骨干链路的带宽和可靠性提出了越来越高的要求。在传统技术中,常用更换高速率的接口板或更换支持高速率接口板的设备的方式来增加带宽,但这种方案需要付出高额的费用,而且不够灵活。采用…...

第8章 通信网络安全

文章目录 8.1 信息系统安全概述8.1.1 信息系统的构成和分类8.1.2 信息系统安全1、信息系统中的安全概念2、信息系统安全问题的发展演变3、信息系统的安全结构 8.1.3 信息系统的安全保护等级1.TCSEC(可信计算机系统评估准则)2. 我国信息安全标准 8.1.4 通…...

L1-092 进化论(Java)

在“一年一度喜剧大赛”上有一部作品《进化论》,讲的是动物园两只猩猩进化的故事。猩猩吕严说自己已经进化了 9 年了,因为“三年又三年”。猩猩土豆指出“三年又三年是六年呐”…… 本题给定两个数字,以及用这两个数字计算的结果,…...

SpringBoot 源码解析5:ConfigurationClassPostProcessor整体流程和@ComponentScan源码分析

SpringBoot 源码解析5:ConfigurationClassPostProcessor整体流程和ComponentScan源码分析 1. 知道以下几点,读ConfigurationClassPostProcessor源码会更轻松2. 源码解析 ConfigurationClassPostProcessor#postProcessBeanDefinitionRegistry2.1 Configur…...

一.初识Linux 1-3操作系统概述Linux初识虚拟机介绍

目录 一.初识Linux 1.操作系统概述 计算机组成 硬件: 软件: 操作系统: 操作系统工作流程 操作系统作用 常见的操作系统 PC端: 移动端:(掌上操作系统) 一.初识Linux 2.Linux初识 linu…...

Eureka整合seata分布式事务

文章目录 一、分布式事务存在的问题二、分布式事务理论三、认识SeataSeata分布式事务解决方案1、XA模式2、AT模式3、SAGA模式4.SAGA模式优缺点:5.四种模式对比 四、微服务整合Seata AT案例Seata配置微服务整合2.1、父工程项目创建引入依赖 2.2、Eureka集群搭建2.3、…...

华为云磁盘性能指标(参考)

MD[华为云磁盘性能指标(参考)] 云硬盘(Elastic Volume Service, EVS) 根据性能,磁盘可分为极速型SSD V2、极速型SSD、通用型SSD V2、超高IO、通用型SSD、高IO、普通IO。 性能指标(参考),测速说明:操作系统-windows …...

利用OpenGL图形库实现人物动画移动效果

使用OpenGL库实现人物动画移动效果需要涉及到更复杂的图形编程和事件处理。以下是一个简单的例子,使用OpenGL和GLUT库实现人物的基本动画移动效果。 确保你已经安装了OpenGL和GLUT。你可以使用包管理器或者从官方网站下载并安装。 一、如果你已经安装过了OpenGL和…...

History命令解释,及一个相关的bash脚本(如何编写脚本程序从记录文件中提取history命令)

目 录 一、history命令介绍 1、history命令是什么? 2、history的主要功能 二、history命令的用法 1、语法 2、选项说明 3、命令实例 三、history和历史记录文件bash_history 四、history命令的相关配置 1,命令带时间展示-HISTTI…...

apisix 单机部署 linux

安装etcd: cd /home/app rz tar -zxvf etcd-v3.5.4-linux-amd64.tar.gz cd etcd-v3.5.4-linux-amd64 vim start.sh内容: #!/bin/sh nohup etcd --name infra0 --initial-advertise-peer-urls http://127.0.0.1:2380 \--listen-peer-urls http://127.0.…...

Redis 面试题 | 06.精选Redis高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…...

2008年苏州大学837复试机试C/C++

2008年苏州大学复试机试 题目 编写程序充成以下功能: 一、从键盘上输入随机变量x的 10个取样点。X0,X1—X9 的值; 1、计算样本平均值 2、判定x是否为等差数列 3、用以下公式计算z的值(t0.63) 注。请对程序中必要地方进行注释 补充:个人觉得这个题目回忆…...

MySQL笔记-information_schema库中COLUMNS表的一些笔记

mysql建表中可以添加comment,也就是注释,这些注释会写到information_schema库的COLUMNS表中,可以使用如下SQL语句进行查询: SELECT COLUMN_NAME, COLUMN_COMMENT FROM information_schema.COLUMNS WHERE TABLE_SCHEMA your_data…...

归并排序模板

模板在文末,以下步骤方便理解记忆。 先贴一张快速排序模板步骤,用于对比记忆 归并排序步骤: (0)如果数组左边界L ≥ 数组右边界,则不需要排序,直接return。 (1)直接取…...

【NVIDIA】Jetson Orin Nano系列:安装 Qt6、firefox、jtop、flameshot

1、使用命令安装 sudo apt install qtcreator sudo apt install qt6-* sudo apt install libqt6* sudo apt install qml-qt6 sudo apt install qmlscene-qt6 sudo apt install assistant-qt6 sudo apt install designer-qt62、启动 qtcreator 3、常用工具安装 sudo apt in…...

Fastapi+Jsonp实现前后端跨域请求

文章目录 一、实现方法1.后端部分【Fastapi】2.前端部分【JS】二、测试一、实现方法 1.后端部分【Fastapi】 # coding:utf-8import json from fastapi import FastAPI, Response from fastapi.middleware.cors import CORSMiddlewareapp = FastAPI(...

MacOS受欢迎的数据库开发工具 Navicat Premium 15 中文版

Navicat Premium 15 Mac是一款数据库管理工具,提供了一个全面的解决方案,用于连接、管理和维护各种数据库系统。以下是Navicat Premium 15 Mac的一些主要功能和特点: 软件下载:Navicat Premium 15 中文版下载 多平台支持&#xff…...

helm---自动化一键部署

什么是helm?? 在没有这个helm之前,deployment service ingress helm的作用就是通过打包的方式,把deployment service ingress 这些打包在一块,一键式部署服务,类似于yum 官方提供的一个类似于安装仓库的功能,可以实…...

求助帖(setiosflags)的左右对齐问题:

以后自己要注意,如果两个相互矛盾的标志同时被设置,如先设置 setiosflags(ios::right),然后又设置 setiosflags(ios::left),那么结果可能就是两个标志都不起作用。因此,在设置了某标志,又要设置其他与之矛盾…...

04. Web可访问性最佳实践:让每个用户都能平等访问

04. Web可访问性最佳实践:让每个用户都能平等访问 引言 Web 可访问性是前端开发的重要组成部分,它确保所有用户,包括残障人士,都能平等地访问和使用网站。作为一名把代码当散文写的 UI 匠人,我始终认为:好…...

忍者像素绘卷微信小程序开发:生成图水印添加与版权保护机制实现

忍者像素绘卷微信小程序开发:生成图水印添加与版权保护机制实现 1. 项目背景与需求分析 忍者像素绘卷是一款基于Z-Image-Turbo深度优化的图像生成工作站,它融合了忍者文化与16-Bit复古游戏美学,为用户提供独特的创作体验。随着用户生成内容…...

【国家级智能制造项目核心代码解密】:Java实现的轻量级工业协议网关引擎(支持国密SM4加密+断线续传)

第一章:轻量级工业协议网关引擎总体架构设计轻量级工业协议网关引擎面向边缘侧资源受限场景,以低内存占用、高协议兼容性与热插拔扩展能力为核心设计目标。整体采用分层解耦架构,由运行时核心、协议适配层、数据路由层和管理接口层四大部分构…...

PADS 9.5集成的组件

PADS 9.5是一个高度集成的PCB设计平台,主要由三大核心组件构成:PADS Logic(原理图设计)、PADS Layout(PCB布局设计)和PADS Router(交互式布线)。这三个模块各司其职,又紧…...

像素时装锻造坊:零基础5分钟快速部署,开启你的AI像素时装设计之旅

像素时装锻造坊:零基础5分钟快速部署,开启你的AI像素时装设计之旅 1. 为什么选择像素时装锻造坊 想象一下,你正在设计一款复古风格的像素游戏,需要为角色制作各种皮革时装。传统方法要么需要专业的美术功底,要么得花…...

Windows系统下Neo4j社区版手动安装与配置指南(非Docker方案)

1. 环境准备:JDK安装与验证 在Windows系统下手动安装Neo4j社区版,第一步就是搞定Java环境。我见过太多新手卡在这一步,其实只要注意几个关键点就能轻松过关。Neo4j作为基于Java开发的图数据库,必须依赖JDK才能运行,但不…...

ncmdumpGUI:一站式NCM音乐格式转换解决方案,轻松搞定加密音乐跨设备播放

ncmdumpGUI:一站式NCM音乐格式转换解决方案,轻松搞定加密音乐跨设备播放 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 清晨的音乐烦恼…...

图像处理算法资料(FPGA Verilog): RGB2GRAY、阈值分割、滤波、边缘检测等算...

图像处理算法资料( FPGA Verilog) 分别有RGB2GRAY、阈值分割(二值化)、均值滤波、中值滤波、sobel边缘检测、膨胀、腐蚀、开闭运算。 各个模块的结构与上图的顶层模块结构一致,通过模块之间的组合串联组成 ISP 顶层模块。 使用vivado软件&…...

dupeguru重复文件查找终极指南:3种扫描模式与高效文件管理完全教程

dupeguru重复文件查找终极指南:3种扫描模式与高效文件管理完全教程 【免费下载链接】dupeguru Find duplicate files 项目地址: https://gitcode.com/gh_mirrors/du/dupeguru 你是否曾经因为电脑磁盘空间不足而烦恼?面对成千上万的文件&#xff0…...

别再只调包了!用Sentence-Transformers从零训练你的专属Embedding模型(附完整代码)

从零构建领域专属Embedding模型:超越调包侠的实战指南 当你第一次调用model.encode("你的文本")就能获得一个语义向量时,是否好奇过这个黑箱背后的魔法?在电商推荐、智能客服等垂直场景中,通用Embedding模型的表现往往差…...