当前位置：首页 > news >正文

StableVideo：使用Stable Diffusion生成连续无闪烁的视频

news 2026/5/15 8:48:10

使用Stable Diffusion生成视频一直是人们的研究目标，但是我们遇到的最大问题是视频帧和帧之间的闪烁，但是最新的论文则着力解决这个问题。

本文总结了Chai等人的论文《StableVideo: Text-driven consistency -aware Diffusion Video Editing》，该论文提出了一种新的方法，使扩散模型能够编辑具有高时间一致性的视频。关键思想是：

1、帧间传播，获得一致的目标外观

2、图集聚合，获得连贯的运动和几何

论文的实验表明，与最先进的方法相比，视频编辑效果更好。

论文提出的StableVideo是一个文本驱动的视频编辑框架，通过对自然视频的大量实验表明，与其他基于扩散的方法相比，StableVideo在保持几何形状和时间连续性的情况下产生优越的编辑结果。

图像编辑与扩散模型

扩散模型已经成为最先进的深度生成模型，用于根据文本提示或条件生成和编辑高保真图像。dall - e2和Stable Diffusion等模型可以合成符合所需文本描述的逼真图像。对于图像编辑也可以基于文本在语义上修改图像。

但是目前为止直接将扩散模型应用于视频编辑仍然是一个挑战。这里的一个最主要的关键的原因是缺乏时间一致性：SD模型是直接独立编辑每一帧，所以往往会导致闪烁效果和不连续的运动。

基于图集表示的视频编辑

为了在视频帧之间平滑地传播编辑，许多研究已经提出将视频分解为图集表示。视频帧被映射到统一的二维坐标空间，称为atlases，它随时间汇总像素。编辑该集合可以在映射过程中对整个视频进行连贯的更改。

以前的研究omnimates和神经分层图集(NLA)，将前景和背景分离到不同的图集中。而Text2LIVE在NLA图集上增加了一个额外的图层，用于文本驱动的外观编辑。但是直接使用扩散模型的研究还没有成功

StableVideo框架

StableVideo框架通过结合两者的优点实现了高质量的基于扩散的视频编辑，并具有时间一致性。他的想法是与其直接编辑图集，不如先编辑关键帧，然后将它们聚合到编辑过的图集中，这样可以获得更好的结果。

也就是说具体来说，管道首先使用NLA将输入视频分解为前景和背景图集。然后根据文本提示分别应用扩散模型编辑背景和关键帧前景。为了确保连贯的外观，使用帧间传播编辑前景关键帧。编辑的关键帧被聚合成一个新的前景图集，它与编辑的背景一起重建最终的输出视频。

方法简介

1、基于神经分层图集的视频分解

作为先决条件，使用预训练的NLA模型将输入视频分解为前景和背景图集。这为前景和背景提供了像素坐标和标准化图集坐标之间的映射:

UVb(.) = Mb(I)

UVf(.) = Mf(I)

这里I是输入帧，而UVb和UVf分别给出了背景和前景图集中相应的位置。

2、基于扩散的编辑

实际的编辑过程使用扩散模型Gb和Gf作为背景和前景。Gb直接编辑背景图集，Gf编辑前景关键帧:

Ab_edit = Gb(Ab, text_prompt) //编辑背景图集

Ei = Gf(Fi, text_prompt) //编辑关键帧

与严重扭曲的图集相比，在关键帧上工作提供了更可靠的编辑。

3、帧间传播前景编辑

为了保证关键帧编辑的时间一致性，提出了一种帧间传播机制。对于第一帧F0，扩散模型Gf正常编辑:

E0 = Gf(F0, text_prompt, structure_guidance)

对于随后的帧Fi，编辑的条件是文本提示和前一帧Ei-1的外观:

Ei-1到ai - 1f的部分图谱映射
将Ai-1_f反向映射为当前帧E^i
在文本提示和结构指导下对E^i进行降噪，得到Ei

这种传播允许在关键帧之间依次生成具有一致外观的新前景对象。

4、Atlas聚合

编辑后的关键帧使用简单的3D CNN聚合成统一的前景图集。该网络被训练到最小化关键帧和它们从聚合图谱的反向映射之间的重建误差。这种紧密耦合确保编辑被合并到一个暂时一致的图集中。

最后，将编辑后的前景和背景图集进行映射和合成，得到最终编辑后的视频帧。使用原始的前景分割蒙版来混合图层。

优势

论文对包含复杂动作的自然视频进行了合成、风格转移、背景替换等多种视频编辑场景的演示。定性和定量实验均表明StableVideo优于现有的基于扩散的方法:

与Tune-A-Video相比，文本提示的可信度更高
与Tune-A-Video相比，闪烁和偏差明显减少
通过避免图集扭曲，比Text2LIVE更全面的编辑
比Text2LIVE/Tune-A-Video中的完整视频/编辑再培训更快的推理

消融试验也验证了所提出的传播和聚合模块的贡献——与独立编辑相比，关键帧传播大大提高了外观一致性。对于一个GPU上的70帧768x432视频来说，只需要30秒的运行时间。

安装和使用

 git clone https://github.com/rese1f/StableVideo.gitconda create -n stablevideo python=3.11pip install -r requirements.txt

所有的模型和检测器都可以从ControlNet的页面下载。

然后工作目录是这样的

 StableVideo├── ...├── ckpt│   ├── cldm_v15.yaml|   ├── dpt_hybrid-midas-501f0c75.pt│   ├── control_sd15_canny.pth│   └── control_sd15_depth.pth├── data│   └── car-turn│       ├── checkpoint # NLA models are stored here│       ├── car-turn # contains video frames│       ├── ...│   ├── blackswan│   ├── ...└── ...

运行

 python app.py

点击渲染按钮后，生成的mp4视频和关键帧将存储在/log目录中。

总结

StableVideo是一种具有扩散模型的高质量和时间一致的文本驱动视频编辑的新方法。其核心思想是编辑关键帧并在它们之间传播外观，并将编辑聚合到统一的图集空间中。大量的实验表明，该方法在编辑广泛的自然视频方面具有优越的连贯性。该技术提供了一种高效的解决方案，以适应强大的扩散模型，实现平滑的视频编辑。

看看我们的演示视频：

https://weixin.qq.com/sph/AkqDCb

最后就是论文地址：

https://avoid.overfit.cn/post/bc9b051949ea48078de19b3d5622e326

作者：TutorMaster

StableVideo：使用Stable Diffusion生成连续无闪烁的视频

图像编辑与扩散模型

基于图集表示的视频编辑

StableVideo框架

方法简介

优势

安装和使用

总结

相关文章：

StableVideo：使用Stable Diffusion生成连续无闪烁的视频

「快学Docker」Docker容器安全性探析

鲍威尔“放鹰”，美联储或将再加息？

docker go安装库失败

利用python进行键盘模拟输入

2024年java面试（二）--spring篇

cyclictest stress 工具使用

天合翔宇荣获 HICOOL 2023 全球创业者大赛决赛二等奖

【LeetCode75】第三十五题统计二叉树中好节点的数目

探究排序算法：比较与非比较排序算法及性能分析

如何输出高质量软文，媒介盒子教你4大技巧

用centos7镜像做yum仓库

【无法联网】电脑wifi列表为空的解决方案

Ajax-Axios的快速入门

mysql insert出现主键冲突错误的解决方法

Visual Studio2022史诗级更新，增加多个提高生产力的功能

理解HTTPS/TLS/SSL（一）基础概念+配置本地自签名证书

前端需要理解的Vue知识

【Go 基础篇】Go语言中的自定义错误处理

LeetCode面试经典150题（day 1）

C++内存管理：从malloc到new的进化之路

3步掌握小红书内容高效采集：XHS-Downloader完全指南

别再只用AddModuleScore了！用irGSEA包一站式搞定单细胞基因集富集分析与8种可视化

从零构建个性化语音克隆系统：基于VITS与Coqui TTS的实战指南

【实战指南】利用VCS-XA与Verdi实现高效数模混合仿真

AI智能体开发脚手架：基于模板快速构建可工程化智能体系统

手把手教你用SSD2828点亮MIPI屏：从示波器波形到BIST画面的完整调试记录

【弹簧】碟形弹簧内锥角数值计算Matlab实现

工业场景安全升级：跨镜追踪联动三维重构，实时预警高危区域入侵

基于dq解耦的双向DC-AC逆变器有功无功功率控制