当前位置: 首页 > news >正文

Genmoai-smol:专为单 GPU 优化的开源 AI 视频生成模型,低显存生成高质量视频

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. Genmoai-smol 是一个优化过的视频生成模型,能在单个 GPU 上运行,并减少显存占用。
  2. 该模型支持通过 Gradio UI 或命令行界面生成视频,具有高保真度的运动和强大的提示遵循能力。
  3. 项目开源,提供了详细的安装和运行教程,适合在显存有限的设备上进行视频创作。

正文(附运行示例)

Genmoai-smol 是什么

在这里插入图片描述

Genmoai-smol 是 Genmoai 的 txt2video 模型 的一个优化分支,专为在单个 GPU 节点上运行而设计,减少了显存占用。它能够在只有 24GB 显存的 GPU 上生成高质量的视频内容,适合资源受限的环境使用。模型通过高保真度的运动和强大的提示遵循能力,缩小了开放和封闭视频生成系统之间的差距。

Genmoai-smol 的主要功能

  • 视频生成:将文本描述转换为视频内容。
  • 高保真度运动:生成自然流畅的视频内容。
  • 强大的提示遵循能力:理解并遵循用户的文本提示。
  • 优化显存占用:通过技术手段减少显存使用,适合单 GPU 设备。
  • 用户界面:提供 Gradio UI 和命令行界面两种操作方式。

Genmoai-smol 的技术原理

  • 深度学习模型:基于生成对抗网络(GANs)或变分自编码器(VAEs)等深度学习技术生成视频内容。
  • 文本到视频的转换:通过自然语言处理(NLP)技术理解文本提示,生成对应的视频内容。
  • 显存优化:通过将部分模型移回 CPU 和使用 bfloat16 数据类型等手段优化显存使用。
  • 多步骤推理:推理步骤不改变显存使用,但生成视频的时间随步骤增加而增加。
  • 系统资源管理:需要大量系统 RAM(约 64GB)来保证流畅的视频生成过程。

如何运行 Genmoai-smol

安装步骤

  1. 克隆项目仓库:
git clone https://github.com/victorchall/genmoai-smol
cd models
  1. 安装 uv 工具并创建虚拟环境:
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
  1. 下载模型权重(可以从 Hugging Face 下载或使用磁力链接)。

运行 Gradio UI

启动 Gradio UI:

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

命令行生成视频

使用命令行直接生成视频:

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg-scale 4.5 --model_dir "<path_to_downloaded_directory>"

<path_to_downloaded_directory> 替换为您下载模型权重的目录路径。

资源

  • 关注并回复公众号【63】或【GenmoaiSmol】获取相关项目资源。

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章:

Genmoai-smol:专为单 GPU 优化的开源 AI 视频生成模型,低显存生成高质量视频

❤️ 如果你也关注大模型与 AI 的发展现状&#xff0c;且对大模型应用开发非常感兴趣&#xff0c;我会快速跟你分享最新的感兴趣的 AI 应用和热点信息&#xff0c;也会不定期分享自己的想法和开源实例&#xff0c;欢迎关注我哦&#xff01; &#x1f966; 微信公众号&#xff…...

RHCE8

一、防火墙 防火墙&#xff1a;防火墙是位于内部网和外部网之间的屏障&#xff0c;它按照系统管理员预先定义好的规则来控制数据包的进出。防火墙又可以分为硬件防火墙与软件防火墙。 硬件防火墙是由厂商设计好的主机硬件&#xff0c;这台硬件防火墙的操作系统主要以提供数据…...

长短期记忆网络(LSTM)如何在连续的时间步骤中处理信息

长短期记忆网络&#xff08;LSTM&#xff09;如何在连续的时间步骤中处理信息 长短期记忆网络&#xff08;LSTM&#xff09;是一种高级的循环神经网络&#xff08;RNN&#xff09;&#xff0c;设计用来解决传统RNN在处理长时间序列数据时遇到的梯度消失或爆炸问题。LSTM通过其…...

MySQL基础(三)

一. 插入内容insert tips&#xff1a; &#xff08;一&#xff09;SQL中 表示 字符串&#xff0c;可以用 也可以用 " C/C、Java中&#xff0c; 表示字符&#xff0c;" 表示字符串SQL/Python/JS&#xff0c;没有字符类型&#xff0c;只有字符串&#xff0c; 和 &qu…...

浏览器八股

面试系列文章 万字总结我在寒冬里的面试准备经历前端铜九铁十面试必备八股文——【HTML&CSS】前端铜九铁十面试必备八股文——【JavaScript】前端铜九铁十面试必备八股文——【Vue】前端铜九铁十面试必备八股文——【浏览器】前端铜九铁十面试必备八股文——【网络相关】前…...

华为机试HJ18 识别有效的IP地址和掩码并进行分类统计

首先看一下题 描述 请解析IP地址和对应的掩码&#xff0c;进行分类识别。要求按照A/B/C/D/E类地址归类&#xff0c;不合法的地址和掩码单独归类。 所有的IP地址划分为 A,B,C,D,E五类 A类地址从1.0.0.0到126.255.255.255; B类地址从128.0.0.0到191.255.255.255; C类地址从192.0.…...

计算机网络——TCP拥塞控制原理

吞吐量 端口有16位...

ubuntu-开机黑屏问题快速解决方法

开机黑屏一般是由于显卡驱动出现问题导致。 快速解决方法&#xff1a; 通过ubuntu高级选项->recovery模式->resume->按esc即可进入recovery模式&#xff0c;进去后重装显卡驱动&#xff0c;重启即可解决。附加问题&#xff1a;ubuntu的默认显示管理器是gdm3,如果重…...

DNS服务器

正反解析 [rootlocalhost ~]# systemctl stop firewalld #关防火墙 [rootlocalhost ~]# setenforce 0 #关闭selinux [rootlocalhost ~]# mount /dev/sr0 /mnt #挂载 mount: /mnt: WARNING: source write-protected, mounted read-only. [rootlocalhost ~]# yum …...

【C++笔记】string类使用详解

前言 各位读者朋友们大家好&#xff01;上期我们讲完了C的模板初阶&#xff0c;这一期我们开启STL的学习。STL是C的数据结构和算法库&#xff0c;是我们学习C的很重要的一部分内容&#xff0c;在以后的工作中也很重要。现在我们开始讲解。 目录 前言一. 为什么学习string类1.…...

数字隔离器与光隔离器有何不同?---腾恩科技

在电子隔离中&#xff0c;两种常用的解决方案是数字隔离器和光学隔离器。两者都旨在电气隔离电路的各个部分&#xff0c;以保护敏感元件免受高压干扰&#xff0c;但它们通过不同的技术实现这一目标。本文探讨了这些隔离器之间的差异&#xff0c;重点介绍了它们的工作原理、优势…...

方差与协方差

方差是一种特殊的协方差。...

【含文档】基于Springboot+Vue的工商局商家管理系统 (含源码数据库+LW)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…...

【股票市场情绪量化模型】

股票市场情绪量化模型&#xff1a;理论与实践 目录 什么是股票市场情绪情绪量化模型的基本概念情绪数据的来源与获取情绪量化模型的构建 4.1 情绪指标的选择4.2 模型设计与算法 情绪与市场表现的关系情绪量化模型的应用案例模型的局限性与挑战总结 1. 什么是股票市场情绪 股…...

Oracle视频基础1.3.8与1.4.1练习

1.3.8与1.4.1 -看数据文件的目录&#xff0c; dump 的目录&#xff0c;oracle的软件目录 -(secureCRT&#xff0c;telnet连接linux。)看当前用户&#xff0c;当前所属组&#xff0c;通过操作系统认证以sysdba登陆,启动数据库然后关闭 -看口令文件 看数据文件的目录&#xff0c…...

基于前馈神经网络模型和卷积神经网络的MINIST数据集训练

目录 前馈神经网络FNN模型 卷积神经网络CNN模型 前馈神经网络FNN模型 author: lxy function: model--mnist date : 2024/10/25 email : 13102790991163.com # 导入必要的库 import torch import torch.nn as nn import torchvision.datasets as dsets import torchvision.t…...

Vue3中Element Plus==el-eialog弹框中的input无法获取表单焦点

有弹框情况下 <template> <input ref"input" /> </template> <script setup> import { ref, onMounted } from vue // 声明一个 ref 来存放该元素的引用 // 必须和模板里的 ref 同名 const input ref(null) onMounted(() > { ne…...

16.网工入门篇--------介绍下网络服务及应用

一、网络服务的概念 网络服务是指通过网络提供的软件功能或设施&#xff0c;它允许不同的设备和用户在网络环境中进行信息交换、资源共享和协作。这些服务基于各种网络协议&#xff0c;以实现高效、可靠的通信。 二、常见网络服务类型 &#xff08;一&#xff09;文件传输服务 …...

区分 electron 全屏和最大化

一. 全屏 在 Electron 中&#xff0c;当窗口处于全屏状态时&#xff0c;通常不能直接使用 JavaScript 来改变窗口大小。这是出于安全和用户体验的考虑&#xff0c;以防止意外的窗口大小变化影响全屏体验。 1. 退出全屏后再调整大小 检测全屏状态&#xff0c;退出全屏并调整大…...

封装一个请求的hook(react函数组件)

对于后台系统&#xff0c;上面筛选&#xff0c;下面表格分页的页面&#xff0c;这个hook非常实用 omitBy方法&#xff1a;过滤不为undefined的对象属性 export const omitBy <T extends IObject, K extends keyof T>(object:T, predicate:(value:T[K]) > boolean):I…...

K-Means聚类选K避坑指南:当肘部法则“失灵”,轮廓系数如何救场?

K-Means聚类选K避坑指南&#xff1a;当肘部法则"失灵"&#xff0c;轮廓系数如何救场&#xff1f; 在数据科学实践中&#xff0c;K-Means算法因其简洁高效而广受欢迎&#xff0c;但确定最佳聚类数K却常让从业者陷入困境。当面对高维、噪声多或分布不平衡的真实业务数据…...

AI 视频创作系统:新媒体高效增收工具,AI 自动成片,持续输出优质内容

一、新媒体行业增收难&#xff0c;传统创作模式遇瓶颈如今做新媒体账号想要稳定盈利&#xff0c;离不开高频优质内容输出。但多数从业者普遍面临诸多难题&#xff1a;人工写脚本耗时费力&#xff0c;实拍剪辑流程繁琐&#xff0c;长期聘请专职人员开支巨大&#xff1b;内容产出…...

独立开发者如何利用 Taotoken 模型广场低成本试错选型

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 独立开发者如何利用 Taotoken 模型广场低成本试错选型 对于资源有限的独立开发者或小型团队而言&#xff0c;在产品开发初期选择合…...

Layerdivider:3分钟搞定PSD分层,AI智能分层工具让设计效率提升500%

Layerdivider&#xff1a;3分钟搞定PSD分层&#xff0c;AI智能分层工具让设计效率提升500% 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾经面对…...

STL编程中EN/ENO机制详解:从原理到仿真实践

1. 项目概述&#xff1a;理解STL中的EN/ENO机制在工业自动化编程领域&#xff0c;尤其是可编程逻辑控制器&#xff08;PLC&#xff09;的编程中&#xff0c;结构化文本&#xff08;STL&#xff09;是一种高级的、类似于Pascal或C的文本化编程语言。对于从梯形图&#xff08;LAD…...

终极Windows解析工具:WinFlexBison完整指南

终极Windows解析工具&#xff1a;WinFlexBison完整指南 【免费下载链接】winflexbison Main winflexbision repository 项目地址: https://gitcode.com/gh_mirrors/wi/winflexbison 你是否在Windows平台上开发编译器、解析器或需要处理复杂文本格式时&#xff0c;为缺少…...

免费开源AMD Ryzen处理器调试工具:5分钟掌握SMUDebugTool终极指南

免费开源AMD Ryzen处理器调试工具&#xff1a;5分钟掌握SMUDebugTool终极指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址:…...

OBS实时字幕插件完整指南:3分钟快速部署专业直播字幕

OBS实时字幕插件完整指南&#xff1a;3分钟快速部署专业直播字幕 【免费下载链接】OBS-captions-plugin Closed Captioning OBS plugin using Google Speech Recognition 项目地址: https://gitcode.com/gh_mirrors/ob/OBS-captions-plugin OBS实时字幕插件是一款基于Go…...

霍夫曼编码:让计算机学会“断舍离“的无损压缩原理,为什么Zip文件能完美还原,而JPEG会失真?霍夫曼用一棵二叉树解决了50年的压缩难题

霍夫曼编码&#xff1a;让计算机学会"断舍离"的无损压缩原理 副标题: 为什么Zip文件能完美还原&#xff0c;而JPEG会失真&#xff1f;霍夫曼用一棵二叉树解决了50年的压缩难题痛点&#xff1a;为什么压缩文件能完美还原&#xff1f; 你用WinRAR压缩了一个Word文档&am…...

大语言模型实战:从Transformer到QLoRA微调与RAG应用

1. 项目概述&#xff1a;为什么我们需要一门关于大语言模型的课程&#xff1f;如果你在过去一年里关注过技术圈&#xff0c;那么“大语言模型”这个词一定已经听得耳朵起茧了。从ChatGPT的横空出世&#xff0c;到各类开源模型的百花齐放&#xff0c;再到企业级应用的遍地开花&a…...