当前位置：首页 > news >正文

【视频生成大模型】视频生成大模型 THUDM/CogVideoX-2b

news 2025/7/13 1:14:35

【视频生成大模型】视频生成大模型 THUDM/CogVideoX-2b

CogVideoX-2b 模型介绍
- 发布时间
- 模型测试生成的demo视频
- 生成视频限制
运行环境安装
运行模型
下载
开源协议
参考

CogVideoX-2b 模型介绍

CogVideoX是清影同源的开源版本视频生成模型。

基础信息：

在这里插入图片描述

发布时间

2024年8月份

模型测试生成的demo视频

https://github.com/THUDM/CogVideo/raw/main/resources/videos/1.mp4

https://github.com/THUDM/CogVideo/raw/main/resources/videos/2.mp4

生成视频限制

提示词语言 English*
提示词长度上限 226 Tokens
视频长度 6 秒
帧率 8 帧 / 秒
视频分辨率 720 * 480，不支持其他分辨率(含微调)

运行环境安装

# diffusers>=0.30.1
# transformers>=0.44.0
# accelerate>=0.33.0 (suggest install from source)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

运行模型

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_videoprompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16
)pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
video = pipe(prompt=prompt,num_videos_per_prompt=1,num_inference_steps=50,num_frames=49,guidance_scale=6,generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]export_to_video(video, "output.mp4", fps=8)

Quantized Inference

PytorchAO 和 Optimum-quanto 可以用于对文本编码器、Transformer 和 VAE 模块进行量化，从而降低 CogVideoX 的内存需求。这使得在免费的 T4 Colab 或较小 VRAM 的 GPU 上运行该模型成为可能！值得注意的是，TorchAO 量化与 torch.compile 完全兼容，这可以显著加快推理速度。

# To get started, PytorchAO needs to be installed from the GitHub source and PyTorch Nightly.
# Source and nightly installation is only required until next release.import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXPipeline
from diffusers.utils import export_to_video
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only, int8_dynamic_activation_int8_weightquantization = int8_weight_onlytext_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX-2b", subfolder="text_encoder", torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="transformer", torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX-2b", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())# Create pipeline and run inference
pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",text_encoder=text_encoder,transformer=transformer,vae=vae,torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()# prompt 只能输入英文
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."video = pipe(prompt=prompt,num_videos_per_prompt=1,num_inference_steps=50,num_frames=49,guidance_scale=6,generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]export_to_video(video, "output.mp4", fps=8)

下载

model_id: THUDM/CogVideoX-2b
下载地址：https://hf-mirror.com/THUDM/CogVideoX-2b 不需要翻墙

开源协议

License: apache-2.0

参考

https://hf-mirror.com/THUDM/CogVideoX-2b
https://github.com/THUDM/CogVideo

【视频生成大模型】视频生成大模型 THUDM/CogVideoX-2b

【视频生成大模型】视频生成大模型 THUDM/CogVideoX-2b CogVideoX-2b 模型介绍发布时间模型测试生成的demo视频生成视频限制运行环境安装运行模型下载开源协议参考 CogVideoX-2b 模型介绍 CogVideoX是清影同源的开源版本视频生成模型。基础信息： 发布时间 2…...

编程日记 2024/10/20 4:57:22

【MR开发】在Pico设备上接入MRTK3（三）——在Unity中运行MRTK示例

在前面的文档中，介绍了如何在Unity工程中配置号MRTK和Pico SDK 【MR开发】在Pico设备上接入MRTK3（一）在Unity中导入MRTK3依赖【MR开发】在Pico设备上接入MRTK3（二）在Unity中配置Pico SDK 本文将介绍如何运行一个简单…...

编程日记 2024/10/20 4:56:22

C#中委托的应用与示例

委托委托是指把事情托付给别人或别的机构办理。在C#语言中委托是一种特殊类，它定义了方法的类型，使得可以将方法当作另一个方法的参数来进行传递。委托是具有特定参数列表和返回类型的方法的引用的类型（不是引用对象，而是引用方法）。可以委托将看作一个包含有序方法列表…...

编程日记 2024/10/20 4:55:21

算法: 模拟题目练习

文章目录模拟替换所有的问号提莫攻击Z 字形变换外观数列数青蛙总结模拟替换所有的问号按照题目的要求写代码即可~ public String modifyString(String ss) {int n ss.length();if (n 1) {return "a";}char[] s ss.toCharArray();for (int i 0; i < n; i…...

编程日记 2024/10/20 4:53:19

软考中级科目怎么选？软考中级证书有什么用？

❇有计算机背景： 建议选择软件设计师或网络工程师。软件设计师更适合软件工程专业的同学报考，而网络工程师更适合网络工程专业的朋友（仅供参考）。 ❇没有计算机背景： 建议选择系统集成项目管理工程师作为入门科目。…...

编程日记 2024/10/20 4:50:15

HTTP 请求的请求体是什么

HTTP 请求的请求体（request body）是指在 HTTP 请求中除了请求行（request line）、请求头（headers）之外的实际数据部分。请求体通常包含用于向服务器发送数据的信息，这些信息可以是表单数据、JSON 对象、XML 文档或其他任何形式的数据。 http请求一般包含的内容 HTTP（超…...

编程日记 2024/10/20 4:48:13

助力语音技术发展，景联文科技提供语音数据采集服务

语音数据采集是语音识别技术、语音合成技术以及其他语音相关应用的重要基础。采集高质量的语音数据有助于提高语音识别的准确性，同时也能够促进语音技术的发展。景联文科技作为专业的数据采集标注公司，支持语音数据采集。可通过手机、专业麦克风阵列、专…...

编程日记 2024/10/20 4:45:11

PyTorch搭建神经网络入门教程

PyTorch搭建神经网络入门教程在机器学习和深度学习中，神经网络是最常用的模型之一，而 PyTorch 是一个强大的深度学习框架，适合快速开发与研究。在这篇文章中，我们将带你一步步搭建一个简单的神经网络，并介绍 PyTorch…...

编程日记 2024/10/20 4:43:09

你的电脑能不能安装windows 11，用这个软件检测下就知道了

为了应对Windows 11的推出，一款名为WhyNotWin11的创新型诊断软件应运而生。这个强大的工具不仅仅是一个简单的兼容性检测器，它更像是一位细心的数字医生，全方位评估您的计算机是否准备好迎接微软最新操作系统的挑战。 WhyNotWin11的功能远超…...

编程日记 2024/10/20 4:40:05

BF 算法

目录 BF算法算法思路完整代码时间复杂度查找所有起始位置 BF算法 BF算法：即暴力(Brute Force)算法，是一种模式匹配算法，将目标串 S 的第一个字符与模式串 T 的第一个字符进行匹配，若相等，则继续比较 S 的第二…...

编程日记 2024/10/20 4:39:03

SHOW-O——一款结合多模态理解和生成的单一Transformer

1.前言大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作，例如 LLaVA、MiniGPT-4 和 InstructBLIP，展示了卓越的多模态理解能力。为了将 LLM 集成到多模态领域，这些研究探索了将预训练的模态特定编码…...

编程日记 2024/10/20 4:38:02

缓存框架JetCache源码解析-缓存变更通知机制

为什么需要缓存变更通知机制？如果我们使用的是本地缓存或者多级缓存（本地缓存远程缓存），当其中一个节点的本地缓存变更之后，为了保证缓存尽量的一致性，此时其他节点的本地缓存也需要去变更，这时…...

编程日记 2024/10/20 4:37:01

Android 设置特定Activity内容顶部显示在状态栏底部,也就是状态栏的下层以及封装一个方法修改状态栏颜色

推荐:https://github.com/gyf-dev/ImmersionBar 在 Android 中要实现特定 Activity 内容顶部显示在状态栏底部以及封装方法修改状态栏颜色，可以通过以下步骤来完成： 一、让 Activity 内容显示在状态栏底部在 AndroidManifest.xml 文件中，为特…...

编程日记 2024/10/20 4:33:58

用自己的数据集复现YOLOv5

yolov5已经出了很多版本了，这里我以目前最新的版本为例，先在官网下载源码：GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite 然后下载预训练模型，需要哪个就点击哪个模型就行&am…...

编程日记 2024/10/20 4:32:57

如何在博客中插入其他的博客链接（超简单）最新版

如何在博客中插入其他的博客链接 1.复制自己要添加的网址（组合键：Ctrlc）2. 点击超链接按钮3. 粘贴自己刚才复制的网址（组合键：Ctrlv）并点击确定即可4.让博客链接显示中文5.点击蓝字即可打开 1.复制自己要添…...

编程日记 2024/10/20 4:31:56

JS通过递归函数来剔除树结构特定节点

最近在处理权限类问题过程中，遇到多次需要过滤一下来列表的数据，针对不同用户看到的数据不同。记录一下我的数据大致是这样的： class UserTree {constructor() {this.userTreeData [// 示例数据{ nodeid: "1", nodename: "R…...

编程日记 2024/10/20 4:29:54

javayufa

1.变量、运算符、表达式、输入输出编写一个简单的Java程序–手速练习 public class Main { public static void main(String[] args) { System.out.println("Hello World"); } } 三、语法基础变量变量必须先定义，才可以使用。不能重名。变量定义的方…...

编程日记 2024/10/20 4:27:52

软考-高级系统分析师知识点-补充篇

云计算云计算的体系结构由5部分组成，分别为应用层，平台层，资源层，用户访问层和管理层，云计算的本质是通过网络提供服务，所以其体系结构以服务为核心。系统的可靠性技术---容错技术---冗余技术容错是指系…...

编程日记 2024/10/20 4:26:51

JavaScript全面指南(四)

🌈个人主页：前端青山 🔥系列专栏：JavaScript篇 🔖人终将被年少不可得之物困其一生依旧青山,本期给大家带来JavaScript篇专栏内容:JavaScript全面指南目录 61、如何防止XSRF攻击 62、如何判断一个对象是否为数组&…...

编程日记 2024/10/20 4:24:48

2024年诺贝尔物理学奖的创新之举

对于2024年诺贝尔物理学奖的这一创新之举，我的观点可以从以下几点展开： 跨学科融合的里程碑：将诺贝尔物理学奖颁发给机器学习与神经网络领域的研究者，标志着科学界对跨学科合作和融合的认可达到新高度。这不仅体现了理论物理与计算…...

编程日记 2024/10/20 4:23:47

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2025/7/11 7:17:03

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2025/7/11 6:46:28

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下： struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

编程新知 2025/6/17 9:20:49

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下，商品详情API作为连接电商平台与开发者、商家及用户的关键纽带，其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息（如名称、价格、库存等）的获取与展示，已难以满足市场对个性化、智能…...

编程新知 2025/6/15 17:37:51

【人工智能】神经网络的优化器optimizer（二）：Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad（Adaptive Gradient Algorithm）是一种自适应学习率的优化算法，由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率，适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

编程新知 2025/7/9 13:08:48

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2025/7/12 15:09:09

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/7/6 13:40:50

Python爬虫（二）：爬虫完整流程

爬虫完整流程详解（7大核心步骤实战技巧） 一、爬虫完整工作流程以下是爬虫开发的完整流程，我将结合具体技术点和实战经验展开说明： 1. 目标分析与前期准备网站技术分析： 使用浏览器开发者工具（F12&…...

编程新知 2025/7/12 9:05:51

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/7/11 13:46:02

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2025/7/12 15:02:42

【视频生成大模型】 视频生成大模型 THUDM/CogVideoX-2b

CogVideoX-2b 模型介绍

发布时间

模型测试生成的demo视频

生成视频限制

运行环境安装

运行模型

下载

开源协议

参考

相关文章：

【视频生成大模型】视频生成大模型 THUDM/CogVideoX-2b