多模态本地部署ConVideoX-5B模型文生视频
文章目录
- 一、多模态概念
- 1.多模态学习
- 2. 人机交互
- 3. 健康医疗
- 4. 内容创作和娱乐
- 二、模型介绍
- 三、环境安装
- 1. 安装工具包
- 2. 模型下载
- 四、运行代码
- 五、代码解析
- 六、效果生成
- 七. 总结
- 1. 模型介绍
- 2. 部署环境
- 3. 部署步骤
- 4. 生成视频
- 5. 应用场景
一、多模态概念
多模态(Multimodality)指的是集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在人工智能和机器学习领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多模态方法的目的是利用不同模态中的互补信息来提升任务的性能,比如提高分类的准确性、增强用户体验或提高决策质量。
以下是多模态在不同领域的一些应用示例:
1.多模态学习
在教育技术中,结合文本、图像和音频可以提供更丰富的学习材料。在自动驾驶汽车中,整合视觉(摄像头)、听觉(声音传感器)和位置(GPS)数据来提高导航和决策能力。
2. 人机交互
智能助手可能需要理解语音命令(音频)、文本消息和用户的面部表情(图像)来提供服务。在虚拟现实(VR)或增强现实(AR)中,用户可以通过多种方式与环境互动,如手势(视觉)、语音(音频)和触觉反馈(传感器数据)。
3. 健康医疗
医生可以同时分析病人的医疗影像(图像)、病历(文本)和生化检验结果(传感器数据)来做出诊断。
在远程医疗中,结合视频通话(视频)、病人的语音描述(音频)和可穿戴设备的数据(传感器数据)可以帮助医生更好地了解病人的状况。
4. 内容创作和娱乐
在电影制作中,结合剧本(文本)、视觉特效(图像/视频)和音效(音频)来创作完整的作品。在游戏开发中,结合故事情节(文本)、游戏画面(图像/视频)和背景音乐(音频)来提供沉浸式体验。多模态方法的挑战包括如何有效地融合不同模态的数据、如何处理不同模态之间的同步问题以及如何设计能够理解和解释多模态信息的算法。随着技术的发展,多模态学习已经成为人工智能领域的一个重要趋势,它有助于创建更加智能和人性化的系统。
二、模型介绍
CogVideoX-5B是由清华大学知识工程组(KEG)开发的一款开源视频生成模型,它基于大规模的文本到视频生成技术,能够根据输入的文本描述生成高质量的视频内容。CogVideoX-5B具有较高的生成质量和视觉效果,适用于需要高质量视频生成的场景。
该模型支持文生视频、图生视频多个能力,可以应用于广告制作、电影剪辑、短视频制作等领域。CogVideoX-5B模型的开源推动了AI视频生成技术的发展,为视频创作开启了新纪元。它还支持多种精度模式(如BF16、FP16等),用户可以根据实际需求选择合适的精度模式,以平衡生成质量和资源消耗。
CogVideoX-5B模型在准确率方面表现出色,生成的视频内容与输入文本描述高度匹配。在速度方面,CogVideoX-5B在单GPU环境下表现良好,尤其是在使用BF16精度时,推理速度较快。资源消耗方面,CogVideoX-5B在单GPU环境下需要至少5GB的显存,适合中高端GPU设备。
此外,CogVideoX-5B模型已经在智谱清言的PC端、移动应用端以及小程序端正式上线,所有C端用户均可通过智谱清言的AI视频生成功能“清影”体验AI 文本生成视频和图像生成视频的服务。CogVideoX-5B的应用场景涵盖了视频创作、广告制作、虚拟现实内容生成等多个领域。
三、环境安装
1. 安装工具包
# diffusers>=0.30.3
# transformers>=0.44.2
# accelerate>=0.34.0
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
2. 模型下载
git clone下面地址即可
root@dsw-850676-5695779c96-24rhj:/mnt/workspace# git clone https://www.modelscope.cn./ZhipuAI/CogVideoX-5b.git
正克隆到 'CogVideoX-5b'...
remote: Enumerating objects: 96, done.
remote: Total 96 (delta 0), reused 0 (delta 0), pack-reused 96
接收对象中: 100% (96/96), 40.08 KiB | 631.00 KiB/s, 完成.
处理 delta 中: 100% (48/48), 完成.
过滤内容: 100% (6/6), 3.64 GiB | 27.29 MiB/s, 完成.
root@dsw-850676-5695779c96-24rhj:/mnt/workspace#
下载完成后,可以查看模型大小
root@dsw-850676-5695779c96-24rhj:/mnt/workspace/CogVideoX-5b# ls
configuration.json LICENSE model_index.json README_en.md README.md scheduler text_encoder tokenizer transformer vae
root@dsw-850676-5695779c96-24rhj:/mnt/workspace/CogVideoX-5b# du -sh *
4.0K configuration.json
8.0K LICENSE
4.0K model_index.json
20K README_en.md
20K README.md
4.5K scheduler
8.9G text_encoder
809K tokenizer
11G transformer
412M vae
四、运行代码
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_videoprompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-5b",torch_dtype=torch.bfloat16
)pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()video = pipe(prompt=prompt,num_videos_per_prompt=1,num_inference_steps=50,num_frames=49,guidance_scale=6,generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]export_to_video(video, "output.mp4", fps=8)
目前这个模型只支持英文,可以中文写好使用翻译工具。
五、代码解析
enable_sequential_cpu_offload():启用顺序CPU卸载,可能用于在CPU和GPU之间分配计算任务以提高效率。
vae.enable_tiling():启用分块处理,用于处理大尺寸输入。
vae.enable_slicing():启用切片处理,用于并行处理或减少内存占用。
prompt=prompt:生成视频的文本提示。
num_videos_per_prompt=1:对于每个提示,生成一个视频,设置几个生成几个,设置越多时间也越长。
num_inference_steps=50:推理步骤的数量,影响生成视频的质量或细节,越大效果越好,但是花费时间也越长。
num_frames=49:生成的视频包含49帧,这个是整个视频的总帧数。其中第一帧为起始,总共是6秒的视频,所以每帧包含8张图片。
guidance_scale=6:指导比例,用于控制生成过程中对提示的遵循程度,这个默认就可以了。
generator=torch.Generator(device=“cuda”).manual_seed(42):设置随机数生成器,指定设备为CUDA(通常用于GPU加速),并手动设置种子为42,以确保结果的可重复性。这个也是默认
frames[0]:从生成的视频帧中选择第一帧。
六、效果生成
运行刚才脚本程序,5分钟时间可以看到有个output.mp4文件生成。
打开视频
感兴趣可以查看视频效果
链接: 生成视频效果
七. 总结
本地部署多模态视频生成模型CogVideoX-5B,本文对于涉及的以下几个方面进行补充和总结。
1. 模型介绍
CogVideoX-5B是一个视频生成模型,它能够根据文本描述生成视频内容。该模型支持多种精度模式,如BF16、FP16等,用户可以根据实际需求选择合适的精度模式,以平衡生成质量和资源消耗。
2. 部署环境
部署CogVideoX-5B模型需要考虑硬件资源,如GPU显存。例如,使用SAT BF16精度时,单GPU显存消耗约为26GB。因此,在部署前需要确保有足够的硬件资源。
3. 部署步骤
加载模型:首先需要加载CogVideoX-5B模型,这可能涉及到从预训练模型中加载参数。
启用优化:为了提高效率,可以启用一些优化技术,如enable_sequential_cpu_offload()、vae.enable_tiling()和vae.enable_slicing()等。
生成视频:使用模型的generate方法根据文本提示生成视频。可以设置一些参数,如num_inference_steps、guidance_scale等,来控制生成过程。
4. 生成视频
CogVideoX-5B模型支持文生视频和图生视频的能力。生成的视频内容与输入文本描述高度匹配,且在速度和资源消耗方面表现良好。
5. 应用场景
CogVideoX-5B模型的应用场景广泛,包括视频创作、广告制作、虚拟现实内容生成等。
总结来说,本地部署CogVideoX-5B模型需要考虑硬件资源、部署环境和步骤。通过合理配置和优化,CogVideoX-5B模型能够生成高质量的视频内容,适用于多种应用场景。
相关文章:

多模态本地部署ConVideoX-5B模型文生视频
文章目录 一、多模态概念1.多模态学习2. 人机交互3. 健康医疗4. 内容创作和娱乐 二、模型介绍三、环境安装1. 安装工具包2. 模型下载 四、运行代码五、代码解析六、效果生成七. 总结1. 模型介绍2. 部署环境3. 部署步骤4. 生成视频5. 应用场景 一、多模态概念 多模态࿰…...

html 点击弹出视频弹窗
一、效果: 点击视频按钮后,弹出弹窗 播放视频 二、代码 <div class="index_change_video" data-video-src="</...

业务干挂数据库,Oracle内存分配不足
📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…...

MongoDB 7 分片副本集升级方案详解(下)
#作者:任少近 文章目录 1.4 分片升级1.5 升级shard11.6 升级shard2,shard31.7 升级mongos1.8重新启用负载均衡器1.9 推荐MongoDB Compass来验证数据 2 注意事项: 1.4 分片升级 使用“滚动”升级从 MongoDB 7.0 升级到 8.0,即在其他成员可用…...

Webpack相关优化总结
在使用webpack时提供了各种配置,这里结合在业务中常用的配置汇总一下可以进行的一系列的webpack优化 缩小文件搜索范围 其原理是在构建时,会以用户配置的Entry为开始依次递归遍历每个Module,在遍历每个Module时会调用相应合适的Loader对原模…...

ollama实践笔记
目录 一、linux安装文件命令: 二、启动ollama 三、linux 如何把ollama serve做为服务方式启动 四、安装deepseek-r1 五、如何在网页中使用ollama? 5.1 安装Open WebUI【不推荐】 5.2 安装ollama-webui-lite 六、Ubuntu安装docker、只需要一句话…...

springCloud-2021.0.9 之 服务调服务 示例
文章目录 前言springCloud-2021.0.9 之 服务调服务 示例1. 主要用到的组件2. 效果3. 源码3.1. 服务A3.2. 服务B接受接口 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。 而且听说点赞的人每…...

如何使用DHTMLX Scheduler的拖放功能,在 JS 日程安排日历中创建一组相同的事件
DHTMLX Scheduler 是一个全面的调度解决方案,涵盖了与规划事件相关的广泛需求。假设您在我们的 Scheduler 文档中找不到任何功能,并且希望在我们的 Scheduler 文档中看到您的项目。在这种情况下,很可能可以使用自定义解决方案来实现此类功能。…...

QxOrm生成json
下载Qxorm-1.5版本 使用vs打开项目,直接生成即可: lib目录中会生成dll和lib文件 新建Qt项目使用Qxorm: 将QxOrm中上面三个目录拷贝到新建的Qt项目中 pro文件添加使用QxOrm第三方库 INCLUDEPATH $$PWD/include/ LIBS -L"$$PWD/lib" LIBS…...
XS9922B(CHIPUP) 模拟高清 寄存器手册 XS9922B 四通道 多合一模拟高清解码芯片
XS9922B 是一款 4 通道模拟复合视频解码芯片,支持 HDCCTV 高清协议和 CVBS 标 清协议,视频制式支持 720P/1080P 高清制式和 960H/D1 标清制式。芯片将接收到的高清 模拟复合视频信号经过模数转化,视频解码以及 2D 图像处理之后…...
Django创建超管用户
在 Django 中创建超级用户(superuser)可以通过命令行工具 createsuperuser 完成。以下是具体步骤: 1. 确保已进行数据库迁移 在创建超级用户前,确保已执行数据库迁移: python manage.py migrate 2. 创建超级用户 …...

基于Kotlin中Flow扩展重试方法
最近项目中统一采用Kotlin的Flow来重构了网络请求相关代码。 目前的场景是,接口在请求的时候需要一个accessToken值,因为此值会过期或者不存在,需要刷新,因此最终方案是在使用Flow请求的时候先获取accessToken值然后再进行接口请求…...

好好说话:深度学习扫盲
大创项目是和目标检测算法YOLO相关的,浅浅了解了一些有关深度学习的知识。在这里根据本人的理解做一些梳理。 深度学习是什么? 之前经常听到AI,机器学习,深度学习这三个概念,但是对于三者的区别一直很模糊。 AI&…...

【状态空间方程】对于状态空间方程矩阵D≠0时的状态反馈与滑模控制
又到新的一年啦,2025新年快乐~。前几个月都没更新,主要还是因为不能把项目上的私密工作写进去,所以暂时没啥可写的。最近在山里实习,突然想起年前遗留了个问题一直没解决,没想到这两天在deepseek的加持下很快解决了&am…...

腾讯大数据基于 StarRocks 的向量检索探索
作者:赵裕隆,腾讯大数据研发工程师 本文整理自腾讯大数据工程师在 StarRocks 年度峰会上的分享,深入探讨了向量检索技术的原理与应用。此功能已应用到腾讯内部多个场景,引入 StarRocks 后,业务不仅不需要维护多套数据库…...

Linux系统调用
文章目录 系统调用和POSIX标准系统调用表程序直接访问系统调用新增系统调用 在linux中,内核空间和用户空间之间增加了一个中间层——系统调用层,如下图: 系统内调用层主要作用: 为用户空间程序提供一层硬件抽象接口。保证系统稳定…...
如何在Servlet容器中使用HttpServletResponse?
HttpServletResponse 是 Java Servlet API 中的一个接口,它代表了服务器对客户端的响应。通过 HttpServletResponse 对象,可以设置响应的状态码、发送数据到客户端(如 HTML 页面、文件等)、添加响应头信息等。下面是如何在 Servle…...

SpringCloud - Seata 分布式事务
前言 该博客为Sentinel学习笔记,主要目的是为了帮助后期快速复习使用 学习视频:7小快速通关SpringCloud 辅助文档:SpringCloud快速通关 源码地址:cloud-demo 一、简介 官网:https://seata.apache.org/zh-cn/ Seata …...

Ansible批量配置服务器免密登录步骤详解
一、准备工作 192.168.85.138 安装ansible,计划配置到139的免密 192.168.85.139 待配置免密 1. 生成SSH密钥对 在Ansible控制节点生成密钥对,用于后续免密认证: ssh-keygen -t rsa -b 4096 -f ~/.ssh/id_rsa 全部回车默认,无…...

互联网大厂中面试的高频计算机网络问题及详解
前言 哈喽各位小伙伴们,本期小梁给大家带来了互联网大厂中计算机网络部分的高频面试题,本文会以通俗易懂的语言以及图解形式描述,希望能给大家的面试带来一点帮助,祝大家offer拿到手软!!! 话不多说,我们立刻进入本期正题! 一、计算机网络基础部分 1 …...

cf2117E
原题链接:https://codeforces.com/contest/2117/problem/E 题目背景: 给定两个数组a,b,可以执行多次以下操作:选择 i (1 < i < n - 1),并设置 或,也可以在执行上述操作前执行一次删除任意 和 。求…...

从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...
python如何将word的doc另存为docx
将 DOCX 文件另存为 DOCX 格式(Python 实现) 在 Python 中,你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是,.doc 是旧的 Word 格式,而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...
python报错No module named ‘tensorflow.keras‘
是由于不同版本的tensorflow下的keras所在的路径不同,结合所安装的tensorflow的目录结构修改from语句即可。 原语句: from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后: from tensorflow.python.keras.lay…...
管理学院权限管理系统开发总结
文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...
Go 语言并发编程基础:无缓冲与有缓冲通道
在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好࿰…...

【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...

Ubuntu Cursor升级成v1.0
0. 当前版本低 使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开,快捷键也不好用,当看到 Cursor 升级后,还是蛮高兴的 1. 下载 Cursor 下载地址:https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ,…...
comfyui 工作流中 图生视频 如何增加视频的长度到5秒
comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗? 在ComfyUI中实现图生视频并延长到5秒,需要结合多个扩展和技巧。以下是完整解决方案: 核心工作流配置(24fps下5秒120帧) #mermaid-svg-yP…...

基于开源AI智能名片链动2 + 1模式S2B2C商城小程序的沉浸式体验营销研究
摘要:在消费市场竞争日益激烈的当下,传统体验营销方式存在诸多局限。本文聚焦开源AI智能名片链动2 1模式S2B2C商城小程序,探讨其在沉浸式体验营销中的应用。通过对比传统品鉴、工厂参观等初级体验方式,分析沉浸式体验的优势与价值…...