当前位置：首页 > news >正文

重塑视频新语言，让每一帧都焕发新生——Video-Retalking，开启数字人沉浸式交流新纪元！

news 2026/5/12 4:17:16

模型简介

Video-Retalking 模型是一种基于深度学习的视频再谈话技术，它通过分析视频中的音频和图像信息，实现视频角色口型、表情乃至肢体动作的精准控制与合成。这一技术的实现依赖于强大的技术架构和核心算法，特别是生成对抗网络（GAN）等先进算法的应用。

一、在算家云搭建

1.选择模型实例

在应用社区中搜索或找到“video-retalking”模型

或者在“视频生成”选项功能中单击选择“视频配音”

微信截图_20240913164613.png

2.创建模型实例

在video-retalking模型界面页面中单击“创建应用”

微信截图_20240913164637.png

选择GPU资源项选择RTX 3090后单击”立即创建“

微信截图_20240913164726.png

3.使用模型

单击webSSH进入终端：

3090进入终端.jpg

使用下列命令运行项目

conda activate video_retalking
cd video-retalking
python webUI.py

微信截图_20240913165426.png

返回项目实例页面点击video-retalking项目开放端口

开放端口.jpg

打开一个新的网页，将得到网址进行粘贴，模型界面成功打开：

微信截图_20240910140649.png

二、本地部署教程

系统：Ubuntu22.04 系统，显卡：3090，显存：24G

1.查看系统是否有 Miniconda3 的虚拟环境

conda -V
如果输入命令没有显示 Conda 版本号，则需要安装。

安装教程可查看：

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统缺失命令下载

apt-get update 
apt-get upgrade 
apt-get install -y vim wget unzip lsof net-tools openssh-server git git-lfs gcc cmake build-essential

3.创建虚拟 Python 环境

创建一个名为"Video-Retalking"的虚拟镜像，python 版本为 3.10

conda create -n video_retalking python=3.10

微信截图_20240910115534.png

进入"video_retalking"虚拟环境

conda activate video_retalking

微信截图_20240910115552.png

4.下载模型

输入下列命令对 video_retalking 模型进行下载

git clone https://gitclone.com/github.com/AILab-CVC/VideoCrafter.gitls
cd VideoCrafter

微信截图_20240910115643.png

5.下载 pytorch

输入下列命令：

pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1

微信截图_20240910125835.png

耐心等待直到”Successfully“出现：

微信截图_20240910125848.png

6.下载模型依赖包

先输入下载 tb-nightly 包避免下载其他依赖包报错：

pip install tb-nightly -i https://mirrors.aliyun.com/pypi/simple

微信截图_20240910125910.png

再输入下列命令：

pip install -r requirements.txt

微信截图_20240910125948.png

耐心等待直到”Successfully“出现

微信截图_20240910134730.png

最后安装 ffmpeg：

conda install ffmpeg

微信截图_20240910153111.png

7.添加模型文件

先创建一个名为 checkpoints

mkdir checkpoints
cd checkpoints

微信截图_20240910142612.png

下载权重文件：

git lfs install
git clone https://hf-mirror.com/yachty66/video_retalking

微信截图_20240910144503.png

8.推理

输入下列命令：

python3 inference.py
--face examples/face/1.mp4
--audio examples/audio/1.wav
--outfile results/1_3.mp4

微信截图_20240912083436.png

9.web 界面展示

输入下列命令启动界面：

python webUI.py

此时系统会自动下载缺失权重文件

微信截图_20240910145034.png

复制网址打开页面：

微信截图_20240910140649.png

以上就是在算家云搭建以及本地部署的详细教程。进入算家云-AI-应用社区|模型社区|镜像社区一键使用，快来体验吧~

算家云——简单、高效、便宜

算家云官网.png

重塑视频新语言，让每一帧都焕发新生——Video-Retalking，开启数字人沉浸式交流新纪元！

模型简介 Video-Retalking 模型是一种基于深度学习的视频再谈话技术，它通过分析视频中的音频和图像信息，实现视频角色口型、表情乃至肢体动作的精准控制与合成。这一技术的实现依赖于强大的技术架构和核心算法，特别是生成对抗网络&#xff0…...

编程日记 2024/12/2 2:41:17

联想Lenovo SR650服务器硬件监控指标解读

随着企业IT架构的复杂性和业务需求的增长，服务器的稳定运行变得至关重要。联想Lenovo SR650服务器以其高性能和稳定性，在各类应用场景中发挥着关键作用。为了保障服务器的稳定运行，监控易作为一款专业的IT基础设施监控软件，为联想…...

编程日记 2024/12/2 2:39:15

二十一、QT C++

1.1QT介绍 1.1.1 QT简介 Qt 是一个跨平台的应用程序和用户界面框架，用于开发图形用户界面（GUI）应用程序以及命令行工具。它最初由挪威的 Trolltech （奇趣科技）公司开发，现在由 Qt Company 维护&#xff…...

编程日记 2024/12/2 2:35:10

微服务上下线动态感知实现的技术解析

序言随着微服务架构的广泛应用，服务的动态管理和监控变得尤为重要。在微服务架构中，服务的上下线是一个常见的操作，如何实时感知这些变化，确保系统的稳定性和可靠性，成为了一个关键技术挑战。本文将深入探讨微服务上…...

编程日记 2024/12/2 2:34:09

int *p[3]; // 定义一个包含 3 个指向 int 的指针的数组int a 10, b 20, c 30; p[0] &a; // p[0] 指向 a p[1] &b; // p[1] 指向 b p[2] &c; // p[2] 指向 c // 访问指针所指向的值 printf("%d %d %d\n", *p[0], *p[1], *p[2]); // 输出: 10 20 30…...

编程日记 2024/12/2 2:33:07

短视频账号矩阵系统源码--独立saas技术部署

短视频矩阵系统通过多账号在多个平台上发布内容，形成一种网络效应。对于抖音平台而言，技术公司需具备特定接口权限方能进行开发工作。然而，视频发布及企业号评论与回复等功能的接口权限往往难以获取。通过构建抖音账号矩阵，利用多…...

编程日记 2024/12/2 2:31:06

leaflet 介绍

目录一、leaflet 官网二、leaflet 在项目中的引用 1、在head中引入 2、在main.js中引入 leaflet目前版本是1.9.4，在leaflet插件库中，很多插件因长时间未更新，适配的是1.7版本的，在选用插件的时候要查看版本适配。 leaflet详…...

编程日记 2024/12/2 2:30:05

总结贴:Servlet过滤器、MVC拦截器

一:Servlet过滤器 1.1解析 Filter 即为过滤，用于请求到达Servlet之前(Request),以及再Servlet方法执行完之后返回客户端进行后处理(HttpServletResponse)。简单说就是对请求进行预处理，对响应进行后处理在请求到达Servlet之前,可以经过多个Filt…...

编程日记 2024/12/2 2:29:04

鸿蒙开发：自定义一个任意位置弹出的Dialog

前言鸿蒙开发中，一直有个问题困扰着自己，想必也困扰着大多数开发者，那就是，系统提供的dialog自定义弹窗，无法实现在任意位置进行弹出，仅限于CustomDialog和Component struct的成员变量，这就导致…...

编程日记 2024/12/2 2:28:03

在Windows下编译支持https的wsdl2h

下载源码在官网下载源码安装Openssl 下载OpenSSL并安装，安装完成后需要将OpenSSL的路径添加到环境变量中配置VS 1、打开工程 2、因为前面安装的OpenSLL是64位的，因此需要创建一个X64的配置打开配置管理器，然后选择新建&#xff0…...

编程日记 2024/12/2 2:26:01

PHP和GD库如何根据像素绘制图形

使用PHP和GD库，你可以根据像素绘制各种图形，比如点、线、矩形、圆形等。GD库是PHP的一个扩展，它提供了一系列用于创建和处理图像的函数。以下是一个简单的示例，展示如何使用GD库根据像素绘制图形。安装GD库首先，确…...

编程日记 2024/12/2 2:25:00

webpack（react）基本构建

文章目录概要整体架构流程技术名词解释技术细节小结概要 Webpack 是一个现代 JavaScript 应用程序的静态模块打包工具。它的主要功能是将各种资源（如 JavaScript、CSS、图片等）视为模块，并将它们打包成一个或多个输出文件，以便…...

编程日记 2024/12/2 2:21:56

《Opencv》基础操作＜1＞

目录一、Opencv简介主要特点： 应用领域： 二、基础操作 1、模块导入 2、图片的读取和显示 （1）、读取 （2）、显示 3、图片的保存 4、获取图像的基本属性 5、图像转灰度图 6、图像的截取 7、图…...

编程日记 2024/12/2 2:20:55

Oracle 11g R2 RAC 到单实例 Data Guard 搭建（RMAN备份方式）

一、配置方案环境说明角色主库主库备库主机名rac01rac02racdg公网IP10.10.10.14110.10.10.14310.10.10.191VIP10.10.10.14210.10.10.144-SCAN10.10.10.14010.10.10.140-INSTANCE_NAMEorcl1orcl2orclDB_NAMEorclorclorclSERVICE_NAMEorclorclorclDB_UNIQUE_NAMEorclorclorcl…...

编程日记 2024/12/2 2:19:54

HTTPS 加密

HTTPS 加密技术 1. HTTPS 概述 HTTPS（HyperText Transfer Protocol Secure）是 HTTP 协议的安全版本，利用 SSL/TLS 协议对通信进行加密，确保数据的机密性、完整性和身份认证。HTTPS 在保护敏感数据的传输（如登录凭证、…...

编程日记 2024/12/2 2:17:51

泛微e9开发编写前端请求后端接口方法以及编写后端接口

泛微e9开发前端请求后端接口以及后端发布接口前端请求后端接口前端发起get请求 fetch(/api/youpath, {method: GET, // 默认 GET 方法，可以省略headers: {Content-Type: application/json, // 通常 GET 请求无需指定 body，Content-Type 不太重要},…...

编程日记 2024/12/2 2:16:51

Linux —— 《线程控制》

文章目录前言：为什么要链接pthread库？线程控制：线程创建：start_routine?传递自定义类型同一份栈空间？ 线程等待：返回值与参数？创建多线程线程终止线程分离前言： 上一文我们学习…...

编程日记 2024/12/2 2:15:50

基于HTML+CSS的房地产销售网站设计与实现

摘要房地产销售系统，在二十年来互联网时代下有着巨大的意义，随着互联网不断的发展扩大，一个方便直观的房地产管理系统的网站开发是多么地有意义，不仅打破了传统的线下看房，线下获取资讯，也给房地产从业…...

编程日记 2024/12/2 2:14:49

操作系统 | 学习笔记 | 王道 | 2.4死锁

2.4 死锁文章目录 2.4 死锁2.4.1 死锁的概念2.4.2 死锁预防2.4.3 死锁避免2.4.4 死锁检测和解除 2.4.1 死锁的概念死锁的定义在并发环境下，各进程因竞争资源而造成的一种互相等待对方手里的资源，导致各进程都阻塞，都无法向前推进的现象&am…...

编程日记 2024/12/2 2:12:46

【FPGA开发】Vivado自定义封装IP核，绑定总线

支持单个文件的封装、整个工程的封装，这里用单个文件举例。在文件工程目录下，自建一个文件夹，里面放上需要封装的verilog文件。选择第三个，指定路径封装，找到文件所在目录取个名，选择封装IP的路径会…...

编程日记 2024/12/2 2:11:45

Discord集成Claude智能体：极简Docker容器化部署与安全实践

1. 项目概述：一个为Discord量身定制的Claude智能体运行栈如果你和我一样，既想在日常工作的Discord频道里无缝调用Claude这样的强大AI助手，又对复杂、臃肿的Bot框架感到头疼，那么 nanoclaw-discord 这个项目可能就是你在找的答…...

编程新知 2026/5/12 3:52:07

第六篇：《JMeter逻辑控制器：循环、条件和交替执行》

在实际业务测试中，并非只是简单的顺序执行。有时需要重复执行某些操作（循环），有时需要根据条件决定执行哪个分支（条件），有时需要模拟多个用户的交替行为（交替）。JMeter 提…...

编程新知 2026/5/12 3:16:34

3PEAK思瑞浦 TPA1882Q-SO1R-S SOP8 运算放大器

特性供电电压:4.5伏至36伏或2.25伏至18伏偏移电压:最大50V 差分输入电压范围至电源轨，可作为比较器工作输入轨至-Vs，轨到轨输出带宽:12MHz，斜率:10V/us 优异的EMI抑制性能:1GHz时85dB 过温保护低噪声:1kHz时为10nV/vHz 符合AEC-Q100认证…...

编程新知 2026/5/12 3:11:55

3PEAK思瑞浦 TP2262-TSR TSSOP8 运算放大器

特性供电电压:3V至36V 低供电电流:每通道最大1000A差分输入电压范围至电源轨，可作为比较器工作输入轨至-Vs，轨到轨输出快速响应:3.5MHz带宽，15V/us斜率，100ns过载恢复时间低失调电压:-25C时最大2mV-2.5 mV在-40C至85C(最大) -3…...

编程新知 2026/5/12 2:41:00

New-API数据导出功能：轻松管理AI模型使用记录与账单数据

New-API数据导出功能：轻松管理AI模型使用记录与账单数据【免费下载链接】new-api A unified AI model hub for aggregation & distribution. It supports cross-converting various LLMs into OpenAI-compatible, Claude-compatible, or Gemini-compatible for…...

编程新知 2026/5/12 1:58:55

VisualCppRedist AIO：告别DLL错误，Windows系统必备的一体化运行库解决方案

VisualCppRedist AIO：告别DLL错误，Windows系统必备的一体化运行库解决方案【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经在打…...

编程新知 2026/5/11 23:49:51

别再到处找激活码了！手把手教你用vlmcsd在Windows上自建KMS服务器（附各版本密钥）

企业级Windows批量激活解决方案：安全高效的本地KMS部署指南在数字化办公环境中，批量激活Windows操作系统一直是IT管理员面临的常见挑战。传统单机激活方式效率低下，而依赖外部KMS服务器又存在连接不稳定、隐私泄露等潜在风险。本文将深入探讨…...

编程新知 2026/5/11 21:10:29

FPGA调试实录：我的SPI Master模块为什么读不到数据？常见问题排查指南

FPGA调试实录：SPI Master模块数据读取失败的深度排查指南当你的SPI Master模块在调试过程中突然"罢工"，示波器上的波形看似正常却始终无法读取数据时，那种挫败感每个硬件工程师都深有体会。本文将从实战角度出发，分享一…...

编程新知 2026/5/11 19:24:35

HEIF Utility：Windows平台HEIF格式兼容性完整解决方案实战

HEIF Utility：Windows平台HEIF格式兼容性完整解决方案实战【免费下载链接】HEIF-Utility HEIF Utility - View/Convert Apple HEIF images on Windows. 项目地址: https://gitcode.com/gh_mirrors/he/HEIF-Utility 对于使用iPhone或iPad的Windows用户而言&a…...

编程新知 2026/5/11 18:54:06

从零到精通Gemini Deep Research：手把手带跑通生物医药/法律/金融三大垂直领域真实案例

更多请点击： https://intelliparadigm.com 第一章：Gemini Deep Research功能概览与核心价值 Gemini Deep Research 是 Google 推出的面向专业研究者的增强型推理能力模块，专为处理长上下文、跨文档溯源、多跳逻辑推演与学术可信验证而设计。…...

编程新知 2026/5/11 17:42:47