当前位置：首页 > news >正文

I2VGen-XL高清图像生成视频大模型

news 2026/3/31 19:07:08

本项目I2VGen-XL旨在解决根据输入图像生成高清视频任务。I2VGen-XL由达摩院研发的高清视频生成基础模型之一，其核心部分包含两个阶段，分别解决语义一致性和清晰度的问题，参数量共计约37亿，模型经过在大规模视频和图像数据混合预训练，并在少量精品数据上微调得到，该数据分布广泛、类别多样化，模型对不同的数据均有良好的泛化性。项目相比于现有视频生成模型，I2VGen-XL在清晰度、质感、语义、时序连续性等方面均具有明显的优势。
在这里插入图片描述

此外，I2VGen-XL的许多设计理念和设计细节（比如核心的UNet部分）都继承于我们已经公开的工作VideoComposer，您可以参考我们的VideoComposer和本项目ModelScope的了解详细细节。

https://modelscope.cn/models/damo/Image-to-Video/summary

模型介绍 (Introduction)：
如图Fig.2所示，I2VGen-XL是一种基于隐空间的视频扩散模型(VLDM)，其通过我们专门设计的时空UNet(ST-UNet)在隐空间中进行时空建模，然后通过解码器重建出最终视频（具体模型结构可以参考VideoComposer）。为能够生成720P视频，我们将I2VGen-XL分为两个阶段，第一阶段是在低分辨率条件下保证语义一致性，第二阶是利用新的VLDM进行去噪以提高视频分辨率以及同时提升时间和空间上的一致性。通过在模型、数据和训练上的联合优化，I2VGen-XL主要具有以下几个特点：

高清&宽屏，可以直接生成720P(1280*720)分辨率的视频，且相比于现有的开源项目，不仅分辨率得到有效提高，其生产的宽屏视频可以适合更多的场景
连续性，通过特定训练和推理策略，在视频的细节生成的稳定性上（时间和空间维度）有明显提高
质感好，通过收集特定的风格的视频数据训练，使得生成的视频在质感上得到明显提升，可以生成科技感、电影色、卡通风格和素描等类型视频
无水印，模型通过我们内部大规模无水印视频/图像训练，并在高质量数据微调得到，生成的无水印视频可适用更多视频平台，减少许多限制。

在这里插入图片描述

I2VGen-XL高清图像生成视频大模型

相关文章：

I2VGen-XL高清图像生成视频大模型

Angular知识点系列（1）-每天10个小知识

【从0开发】百度BML全功能AI开发平台【实操：以部署情感分析模型为例】

源码解析FlinkKafkaConsumer支持punctuated水位线发送

vue3学习（五）--- 父子组件传值

寻找AI时代的关键拼图，从美国橡树岭国家实验室读懂AI存力信标

多线程并发篇---第十二篇

P7537 [COCI2016-2017#4] Rima

SwiftUI Swift CoreData 计算某实体某属性总和

docker安装skyWalking笔记

【Codeforces】 CF1097G Vladislav and a Great Legend

力扣每日一题36：有效的数独

钉钉数字校园小程序开发：开启智慧教育新时代

数据结构与算法--其他算法

矩阵键盘行列扫描

unity 实现拖动ui填空，并判断对错

《机器学习》第5章神经网络

FPGA project ： flash_erasure

AC修炼计划（AtCoder Regular Contest 166）

Android---Android 是如何通过 Activity 进行交互的

腰椎滑脱和腰间盘突出，日常护理大不同，做错反而加重病情

Linux 核心操作合集（网络配置、XShell远程连接、vim文本编辑与操作、权限管理实操手册）

微信小程序语音交互实战：长按录制与点击播放的完整实现方案

释放创意：Mi-Create让智能表盘设计触手可及

数据转换的艺术：用DataTransformer优化表单处理

AI数字人制作：零门槛创建专属虚拟形象

深入解析STM32与FreeRTOS内存管理：从理论到实践的最佳配置策略

ComfyUI-FramePackWrapper功能选择指南：如何根据资源控制与使用便捷性选择最优方案

【Python并发革命】：GIL解除后首个生产级无锁插件生态正式开放下载（限时72小时）

Qwen3-TTS-Tokenizer-12Hz快速上手：Web界面一键处理音频文件