当前位置: 首页 > news >正文

ExVideo: 提升5倍性能-用于视频合成模型的新型后调谐方法

标题:ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
作者: Zhongjie Duan; Wenmeng Zhou; Cen Chen; Yaliang Li; Weining Qian
DOI: 10.48550/arXiv.2406.14130
摘要: Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model’s capacity to generate up to $5\times$ its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn’t compromise the model’s innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.
GitHub: https://github.com/modelscope/DiffSynth-Studio

📜 研究核心

⚙️ 内容

该研究的核心在于开发了一种创新的后调优方法——ExVideo,它致力于克服当前视频扩散模型在生成长时间视频方面的限制。ExVideo的设计目标是增强现有模型的功能,使之在不大幅增加训练成本的前提下,能够输出更长的视频序列。

该方法巧妙地利用了3D卷积、时间注意力和位置嵌入等常见时间模型结构的扩展策略,确保了在视频长度显著增加的同时,模型依旧能保持其在不同风格和分辨率视频生成上的泛化性能。通过在Stable Video Diffusion模型上的扩展训练,ExVideo证明了其能够使模型生成帧数最多提升至原视频5倍的能力,并且只需1,500 GPU小时的训练量,这在4万个视频组成的数据库上得到了验证。

💡 创新点

  1. 参数高效性:ExVideo提出了一种新的后调优策略,使得在不对整个模型进行大规模重训的情况下,仅通过对模型中时序相关组件的微调,就能够显著增强其生成更长视频片段的能力。这种方法大大降低了对计算资源的需求,仅需1.5k GPU小时就能将视频生成帧数提高至原模型的5倍。

  2. 多架构兼容性:该策略设计了针对不同时间模型架构(如3D卷积、时间注意力和位置嵌入)的扩展策略,这使得它能够广泛应用于多种现有的视频合成模型,提高了方法的通用性和适用范围。

  3. 视频连贯性和质量保障:ExVideo不仅提升了视频长度,而且确保了生成视频的视觉质量和叙事连贯性,避免了常见的视频连贯性问题,如错误累积导致的图像断裂现象,这是通过精细的模型调整实现的。

  4. 泛化能力不受损:即使视频长度显著增加,ExVideo的模型依然能保持其在生成不同风格和分辨率视频方面的优势,证明了模型在扩展视频长度的同时,其内在的泛化能力并未被削弱。

🧩 不足

  1. 基础模型限制:ExVideo增强的视频扩散模型仍然受限于其基础模型的固有局限。例如,尽管能够生成更长的视频序列,但在合成高质量的人像方面表现不佳,经常出现帧不完整或人像失真的情况。这意味着对于需要高度精确的人脸或人体动作合成的应用场景,当前解决方案可能不尽理想。

  2. 资源约束:研究团队指出,由于资源限制,他们未能独立预训练一个大型的视频合成基础模型。这意味着模型的潜力可能还未完全释放,且对于未来进一步提升模型性能,可能需要更多计算资源或更高效的训练策略。

  3. 长期视频理解能力:尽管ExVideo在生成较长视频方面有所突破,但当前的视频合成模型普遍缺乏对长期视频连贯性的理解和处理能力。这意味着在生成长视频时,模型可能会累积误差,影响视频的整体连贯性和叙事逻辑,特别是在没有额外优化措施的情况下。

  4. 版权与数据来源:尽管使用了如OpenSora等公开数据集来规避版权问题,但这些数据集的视频质量和多样性可能仍有限制,可能无法完全代表实际应用场景中的全部复杂性和多样性,这可能会影响模型的泛化能力。

  5. 技术挑战:尽管采用了多项工程优化措施(如参数冻结、混合精度训练、梯度检查点、Flash Attention及深度加速库),以应对扩展视频序列训练中的计算资源挑战,但这些技术手段可能仍有优化空间,尤其是在处理极端长视频或高分辨率视频时。

🔁 研究内容

💧 数据

使用了一个包含40,000个视频的大型数据集进行实验,数据集包含多样化的风格和分辨率,确保了模型训练的广泛适用性。

👩🏻‍💻 方法

扩展时序模块后调优策略

  1. 目标与动机
  • 目标:使现有的视频合成模型能够生成更长的视频,而不需要从头开始训练或大幅增加计算资源消耗。

  • 动机:尽管视频合成技术取得了显著进步,但大多数模型受限于计算资源,只能生成较短的视频片段。ExVideo旨在克服这一限制,同时维持模型的泛化能力和生成多样风格、分辨率视频的优势。

  1. 3D卷积层的保留与利用
  • 原理与保留:3D卷积层是视频处理中常用的一种技术,它可以捕获空间和时间维度上的特征。先前研究表明,即使不经过微调,3D卷积层也能自适应地处理不同尺度的数据,因此ExVideo方法选择直接保留模型中原有的3D卷积层结构。

  • 优势:保留这些层可以保持模型对不同视频分辨率和时序长度的广泛适应性,无需对这些基础层做重大改动,减少了模型调整的复杂度。

  1. 时间注意力模块的微调
  • 策略:受到大型语言模型中时间注意力机制扩展应用于更长序列的启发,ExVideo对时间注意力层的参数进行了微调。通过这种微调,增强了模型处理更长视频序列的能力。

  • 效果:这种调整使得模型能够更好地捕捉和利用长序列中的上下文依赖,从而提高生成视频的连贯性和复杂性。

  1. 可训练位置嵌入的引入
  • 问题:原始的静态位置嵌入或固定的可训练嵌入在面对更长视频时可能不再适用。

  • 解决方案:引入了扩展的可训练位置嵌入,这些嵌入参数以循环模式初始化,与预训练模型的位置嵌入配置相兼容,从而能适应更长的视频序列。

  • 附加策略:在位置嵌入层之后添加了一个恒等3D卷积层,其核心初始化为恒等矩阵,其余参数初始化为零。这个层旨在学习长期的视频特征,同时在训练初期保持视频表示的不变性,以维护与原始计算过程的一致性。

  1. 总体架构调整
  • 适应性修改:所有修改都是适应性的,确保了预训练模型原有的泛化能力得以保留。在训练扩展模块时,模型外部的参数被固定,以此来降低内存使用,提高训练效率。

  • 优化效率:考虑到注意力操作的计算复杂度随序列长度增加呈二次增长,ExVideo采取的策略在不显著增加计算负担的前提下,提高了模型处理长视频序列的能力。

综上所述,ExVideo通过针对性地调整时序模块,即优化3D卷积层、微调时间注意力机制并引入改进的位置嵌入策略,实现了在不牺牲模型原有特性的基础上,有效扩展视频合成模型生成视频长度的目标。这种方法不仅提升了模型的实用性,还为视频合成技术的发展开辟了新的方向。

🔬 实验

本文主要介绍了作者在视频合成模型方面所做的研究和实验。首先,作者对现有的视频合成模型进行了分类,并提出了三种常见的时空模块架构:3D卷积、时空注意力和位置编码。然后,作者提出了一种扩展时空模块的方法,以提高模型的生成能力。最后,作者通过多个实验验证了他们的方法的有效性,并与其他现有模型进行了比较。

第一个实验是针对文本到视频合成的任务。作者将现有的文本到图像模型与视频合成模型相结合,可以轻松地开发出集成管道,将文本描述转换为视频。在这个任务中,作者使用了Stable Diffusion 3作为基础帧生成器,并展示了该模型能够从高质量的图像中生成流畅的运动过渡,即使训练数据集中不包括某些风格(如平面动漫和像素艺术)也是如此。这个实验的结果表明,扩展后的Stable Video Diffusion模型保留并扩展了原始模型的一般化能力。

第二个实验是为了展示模型学习过程中的动态变化。作者展示了在训练过程中,模型生成的视频如何从只有结构完整性逐渐发展成为具有复杂运动的能力。这个实验的结果表明,模型能够在长时间的学习过程中理解场景的深度和空间关系。

第三个实验是为了测试模型在不同分辨率下的性能。作者展示了模型在常见宽高比下能够成功生成更高分辨率的视频。这个实验的结果表明,模型不仅具有强大的泛化能力和鲁棒性,而且经过后调优后能够进一步提高其性能。

最后一个实验是对模型与其他现有模型的比较。作者选择了多种不同的视频合成模型,包括AnimateDiff、LaVie、ModelScopeT2V等,并将其结果与扩展后的Stable Video Diffusion模型进行了比较。结果显示,大多数现有模型通常只能生成少量的运动,而扩展后的Stable Video Diffusion模型则具有更强的生成能力,能够生成更复杂的运动。这表明扩展后的模型具有更高的生成性能。

📜 结论

  • 视频质量与连贯性:ExVideo不仅成功扩展了视频长度,而且保证了生成视频的质量和叙事连贯性,没有因视频长度的增加而牺牲这些关键指标。

  • 泛化能力:模型在生成不同风格和分辨率的视频时仍然表现出色,表明其内在的泛化能力未受损害

🤔 个人总结

文章优点

该论文提出了一种名为ExVideo的视频合成模型增强技术,通过后调优的方式扩展了现有视频合成模型的时间范围,从而实现了更长的视频生成。该方法在Stable Video Diffusion模型上进行了验证,并成功将生成帧数从25帧扩展到128帧,同时保持了原始模型的生成能力。此外,该方法还具有内存效率高、可与其他开源技术集成等优点。

方法创新点

该论文的主要贡献在于提出了ExVideo技术,这是一种基于后调优的方法,可以有效地扩展现有视频合成模型的时间范围。与传统的训练方法相比,这种方法不需要大量的计算资源,可以在有限的计算资源下实现更长的视频生成。此外,该方法还可以无缝地与文本到图像模型集成,进一步提高了其应用价值。

未来展望

虽然ExVideo技术已经取得了一些进展,但仍然存在一些限制。例如,该方法仍受到基础模型的限制,无法准确合成人类肖像。因此,在未来的研究中,需要开发更加先进的基础模型来提高视频合成的质量。此外,还需要更多的数据集和更强大的计算资源来支持这种技术的发展。

相关文章:

ExVideo: 提升5倍性能-用于视频合成模型的新型后调谐方法

标题:ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning作者: Zhongjie Duan; Wenmeng Zhou; Cen Chen; Yaliang Li; Weining QianDOI: 10.48550/arXiv.2406.14130摘要: Recently, advancements in video synthesis have attracted s…...

laravel Dcat Admin 入门应用(三)Grid 之 Column

Dcat Admin 是一个基于 Laravel-admin 二次开发而成的后台构建工具,只需很少的代码即可构建出一个功能完善的高颜值后台系统。支持页面一键生成 CURD 代码,内置丰富的后台常用组件,开箱即用,让开发者告别冗杂的 HTML 代码。 larav…...

掌握Llama 2分词器:填充、提示格式及更多

目录 简介Llama 2分词器基础为分词器设置填充添加特殊标记使用BOS和EOS标记进行分词定义填充标记训练中使用填充标记高级功能:掩码标记Llama的提示格式结论 简介 在语言模型领域,时间变化迅速。自Llama 2发布已经有几个月了,但关于其分词器…...

pdf合并,pdf合并成一个pdf,pdf合并在线网页版

在处理pdf文件的过程中,有时我们需要将多个pdf文件合并成一个pdf文件。作为一名有着丰富计算机应用经验的技术博主,我将为您详细介绍如何将多个pdf文件合并成一个pdf文件。 pdf合并方法:使用, “轻云处理pdf官网” 打开 “轻云处…...

算法基础--------【图论】

图论(待完善) DFS:和回溯差不多 BFS:进while进行层序遍历 定义: 图论(Graph Theory)是研究图及其相关问题的数学理论。图由节点(顶点)和连接这些节点的边组成。图论的研究范围广泛,涉及路径、…...

x86和x64架构的区别及应用

x86和x64架构的区别及应用 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 在计算机硬件和软件领域,x86和x64是两种常见的处理器架构。它们在计算能…...

2024年度总结:不可错过的隧道IP网站评估推荐

随着网络技术的飞速发展,隧道IP服务成为了许多企业和个人在进行网络活动时的得力助手。作为专业的测评团队,我们经过一整年的深入研究和测试,为大家带来了三款备受瞩目的隧道IP网站推荐——品易HTTP、极光HTTP和一G代理。接下来,我…...

Linux下VSCode的安装和基本使用

应用场景:嵌入式开发。 基本只需要良好的编辑环境,能支持文件搜索和跳转,就挺OK的。 之所以要在Linux下安装,是因为在WIN11上安装后,搜索功能基本废了,咋弄都弄不好,又不方便重装win系统&#x…...

C# 实现websocket双向通信

🎈个人主页:靓仔很忙i 💻B 站主页:👉B站👈 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:C# 🤝希望本文对您有所裨益,如有不足之处&#xff…...

Spring Boot结合FFmpeg实现视频会议系统视频流处理与优化

在构建高效稳定的视频会议系统时,实时视频流的处理和优化是开发者面临的核心挑战之一。这不仅仅是简单的视频数据传输,更涉及到一系列复杂的技术问题,需要我们深入分析和有效解决。 高并发与实时性要求: 视频会议系统通常需要支持多人同时进行视频通话,这就意味着系统需要…...

扫扫地,搞搞卫生 ≠ 车间5S管理

在制造业的日常运营中,车间管理是一项至关重要的工作,它直接关系到生产效率、产品质量以及员工的工作环境。然而,许多人常常将简单的“扫扫地,搞搞卫生”等同于车间5S管理,这种误解不仅可能导致管理效果不佳&#xff0…...

ES(笔记)

es就是json请求体代替字符串查询 dsl查询和过滤,一个模糊查询,一个非模糊查询 must,should 做模糊查询的,里面都是match,根据查询内容进行匹配,filter过滤,term词元查询,就是等值查…...

开箱即用的fastposter海报生成器

什么是 fastposter ? fastposter 海报生成器是一款快速开发海报的工具。只需上传一张背景图,在对应的位置放上组件(文字、图片、二维码、头像)即可生成海报。 点击代码直接生成各种语言 SDK 的调用代码,方便快速开发。 软件特性&…...

力扣每日一题 6/28 动态规划/数组

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 2742.给墙壁刷油漆【困难】 题目: 给你两个长度为 n 下标从 0…...

[数据集][目标检测]游泳者溺水检测数据集VOC+YOLO格式8275张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):8275 标注数量(xml文件个数):8275 标注数量(txt文件个数):8275 标注…...

若依 ruoyi 分离版 vue 简单的行内编辑实现

需要实现的效果&#xff1a;双击文本 - 修改文本 - 保存修改。 原码&#xff1a;仅文本显示文字内容 <el-table-column label"商品" align"center" prop"goodsName" width"200" v-if"columns[1].visible" /> 实现…...

【工具】API文档生成DocFX

文章目录 总述示例第一步&#xff1a;安装 DocFX第二步&#xff1a;初始化项目第三步&#xff1a;编辑配置文件第四步&#xff1a;编写文档第五步&#xff1a;生成文档第六步&#xff1a;预览文档第七步&#xff1a;部署文档 总述 DocFX 是一个由微软开发的开源文档生成工具&a…...

在 JavaScript 中处理异步操作和临时事件处理程序

关键技术和设计总结 使用 Promise 和 then 进行异步操作: 我们通过使用 Promise 来处理异步操作&#xff0c;确保操作按顺序执行。在 getReportListByCurrentTime 函数中&#xff0c;返回一个 Promise 对象&#xff0c;保证在数据加载完成后调用 resolve&#xff0c;以便可以在…...

[Cocos Creator] v3.8开发知识点记录(持续更新)

问题&#xff1a;从 cc 里找不到宏定义 CC_PREVIEW 等。 解决方案&#xff1a;找不到就自己定义&#xff0c;将 declare const CC_PREVIEW; 添加到需要的ts文件里。参考&#xff1a;creator3d 找不到宏定义如 CC_EDITOR&#xff0c;CC_PREVIEW&#xff0c;CC_JSB - Creator 3.x…...

Excel_VBA编程

在Excel中&#xff0c;VBA&#xff08;Visual Basic for Applications&#xff09;是一种强大的工具&#xff0c;可以用来自动化各种任务。下面介绍一些常用的VBA函数和程序结构&#xff1a; 常用函数 MsgBox&#xff1a;用于显示消息框。 MsgBox "Hello, World!"In…...

Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢&#xff0c;博主的学习进度也是步入了Java Mybatis 框架&#xff0c;目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学&#xff0c;希望能对大家有所帮助&#xff0c;也特别欢迎大家指点不足之处&#xff0c;小生很乐意接受正确的建议&…...

连锁超市冷库节能解决方案:如何实现超市降本增效

在连锁超市冷库运营中&#xff0c;高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术&#xff0c;实现年省电费15%-60%&#xff0c;且不改动原有装备、安装快捷、…...

全球首个30米分辨率湿地数据集(2000—2022)

数据简介 今天我们分享的数据是全球30米分辨率湿地数据集&#xff0c;包含8种湿地亚类&#xff0c;该数据以0.5X0.5的瓦片存储&#xff0c;我们整理了所有属于中国的瓦片名称与其对应省份&#xff0c;方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

MMaDA: Multimodal Large Diffusion Language Models

CODE &#xff1a; https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA&#xff0c;它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践

6月5日&#xff0c;2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席&#xff0c;并作《智能体在安全领域的应用实践》主题演讲&#xff0c;分享了在智能体在安全领域的突破性实践。他指出&#xff0c;百度通过将安全能力…...

Python如何给视频添加音频和字幕

在Python中&#xff0c;给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加&#xff0c;包括必要的代码示例和详细解释。 环境准备 在开始之前&#xff0c;需要安装以下Python库&#xff1a;…...

【MATLAB代码】基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),附源代码|订阅专栏后可直接查看

文章所述的代码实现了基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),针对传感器观测数据中存在的脉冲型异常噪声问题,通过非线性加权机制提升滤波器的抗干扰能力。代码通过对比传统KF与MCC-KF在含异常值场景下的表现,验证了后者在状态估计鲁棒性方面的显著优…...

MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)

macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 &#x1f37a; 最新版brew安装慢到怀疑人生&#xff1f;别怕&#xff0c;教你轻松起飞&#xff01; 最近Homebrew更新至最新版&#xff0c;每次执行 brew 命令时都会自动从官方地址 https://formulae.…...

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...

恶补电源:1.电桥

一、元器件的选择 搜索并选择电桥&#xff0c;再multisim中选择FWB&#xff0c;就有各种型号的电桥: 电桥是用来干嘛的呢&#xff1f; 它是一个由四个二极管搭成的“桥梁”形状的电路&#xff0c;用来把交流电&#xff08;AC&#xff09;变成直流电&#xff08;DC&#xff09;。…...