当前位置：首页 > news >正文

LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-视频问答成功运行-实现循环问答多次问答

news 2026/2/10 23:21:45

Large World Model（LWM）现在大火，其最主要特点是不仅能够针对文本进行检索交互，还能对图片、视频进行问答交互，自从上文《LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-详细安装记录》发出后，短短两天，github的Star已经涨到了5.4k！
在这里插入图片描述
上次安装之后，没有成功运行起来，今天终于把项目成功跑起来了。
首先体验的是视频问答功能，就是给LWM模型一段视频，然后就这段视频进行问答交互，首先看我给的视频：

beginning-spring

然后：
在这里插入图片描述

看起来效果不错！

项目体验

运行方法：修改scripts/run_vision_chat.sh中对应的模型路径：

export llama_tokenizer_path=""
export vqgan_checkpoint=""
export lwm_checkpoint=""
export input_file=""

然后注意–mesh_dim='!1,-1,32,1’这个参数，按官方解释说：

You can use mesh_dim=dp, fsdp, tp, sp to control the degree of parallelism and RingAttention. It is a string of 4 integers separated
by commas, representing the number of data parallelism, fully sharded
data parallelism, tensor parallelism, and sequence parallelism. For
example, mesh_dim=‘1,64,4,1’ means 1 data parallelism, 64 fully
sharded data parallelism, 4 tensor parallelism, and 1 sequence
parallelism. mesh_dim=‘1,1,4,64’ means 1 data parallelism, 1 fully
sharded data parallelism, 4 tensor parallelism, and 64 sequence
parallelism for RingAttention.

但我这里无论怎么调都失败，索性删掉改参数，让程序使用默认配置。
下一个参数–dtype=‘fp32’ 修改为–dtype=‘fp16’ ，由于我的设备内存有限，改为fp16才能正常运行，修改后能正常运行的命令如下：

python3 -u -m lwm.vision_chat \--prompt="What is the video about?" \--input_file="$input_file" \--vqgan_checkpoint="$vqgan_checkpoint" \--dtype='fp16' \--load_llama_config='7b' \--max_n_frames=8 \--update_llama_config="dict(sample_mode='text',theta=50000000,max_sequence_length=131072,use_flash_attention=False,scan_attention=False,scan_query_chunk_size=128,scan_key_chunk_size=128,remat_attention='',scan_mlp=False,scan_mlp_chunk_size=2048,remat_mlp='',remat_block='',scan_layers=True)" \--load_checkpoint="params::$lwm_checkpoint" \--tokenizer.vocab_file="$llama_tokenizer_path" \

然后 bash run_vision_chat.sh即可查看效果。

多次问答

官方源码中的run_vision_chat.sh脚本只能执行一次脚本输入一个prompt，这样交互太累，我这里做了一点调整，实现多次循环问答交互：
在这里插入图片描述
修改代码如下：
首先复制一份lwm/vision_chat.py，重命名为vision_chat2.py，将其中的FLAGS参数对象修改为：

p={"prompt": "","input_file": "","vqgan_checkpoint": "","temperature": 0.2,"max_n_frames": 8,"seed": 1234,"mesh_dim": "1,-1,1,1","dtype": "fp32","load_llama_config": "","update_llama_config": "","load_checkpoint": "","tokenizer":VideoLLaMAConfig.get_tokenizer_config(),"llama":VideoLLaMAConfig.get_default_config(),"jax_distributed":JaxDistributedConfig.get_default_config()
}
FLAGS = types.SimpleNamespace(**p)FLAGS.vqgan_checkpoint = "模型vqgan路径"
FLAGS.dtype='fp16'
FLAGS.load_llama_config='7b'
FLAGS.max_n_frames=8
FLAGS.update_llama_config = "dict(sample_mode='text',theta=50000000,max_sequence_length=131072,use_flash_attention=False,scan_attention=False,scan_query_chunk_size=128,scan_key_chunk_size=128,remat_attention='',scan_mlp=False,scan_mlp_chunk_size=2048,remat_mlp='',remat_block='',scan_layers=True)"
FLAGS.load_checkpoint = "params::模型params路径"
FLAGS.tokenizer.vocab_file = "模型tokenizer.model路径"

对其中的main方法修改为：

if __name__ == "__main__":   FLAGS.input_file = input('vide path:')JaxDistributedConfig.initialize(FLAGS.jax_distributed)set_random_seed(FLAGS.seed)sampler = Sampler()while True:while FLAGS.prompt=='':FLAGS.prompt = input('input prompt:')prompts = [{'input_path': FLAGS.input_file, 'question': FLAGS.prompt}]output = sampler(prompts, FLAGS.max_n_frames)[0]print(f"Question: {FLAGS.prompt}\nAnswer: {output}")FLAGS.prompt=''

修改完成之后，仍然通过bash脚本来调用，新建一个bash脚本文件：

#! /bin/bash
python3 lwm/vision_chat2.py

祝大家玩得愉快！

LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-视频问答成功运行-实现循环问答多次问答

Large World Model（LWM）现在大火，其最主要特点是不仅能够针对文本进行检索交互，还能对图片、视频进行问答交互，自从上文《LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-详细安装记录》发出后&…...

编程日记 2024/2/22 12:27:00

线阵相机之帧超时

1 帧超时的效果在帧超时时间内相机若未采集完一张图像所需的行数，则相机会直接完成这张图像的采集，并自动将缺失行数补黑出图，机制有以下几种选择： 1. 丢弃整张补黑的图像 2. 保留补黑部分出图 3.丢弃补黑部分出图...

编程日记 2024/2/22 12:25:59

模型转换案例学习：等效替换不支持算子

文章介绍 Qualcomm Neural Processing SDK （以下简称SNPE）支持Caffe、ONNX、PyTorch和TensorFlow等不同ML框架的算子。对于某些特定的不支持的算子，我们介绍一种算子等效替换的方法来完成模型转换。本案例来源于https://github.com/quic/qidk…...

编程日记 2024/2/22 12:23:57

js 数组排序的方式

var numberList [5, 100, 94, 71, 49, 36, 2, 4]; 冒泡排序： 相邻的数据进行两两比较，小数放在前面，大数放在后面，这样一趟下来，最小的数就被排在了第一位，第二趟也是如此，如此类推&#xff0…...

编程日记 2024/2/22 12:21:55

手机连接电脑后资源管理器无法识别(识别设备但无法访问文件)

问题描述小米8刷了pixel experience系统,今天用电脑连接后无法访问手机文件,但是手机选择了usb传输模式为文件传输解决办法在设备和打印机页面中右键选择属性点击改变设置卸载驱动,注意勾选删除设备的驱动程序软件卸载后重新连接手机,电脑弹出希望对设备进行什么操作时…...

编程日记 2024/2/22 12:18:53

安装unget包 sqlsugar时报错，完整的报错解决

前置 .net6的开发环境问题 ? 打开unget官网，搜索报错的依赖Oracle.ManagedDataAccess.Core unget官网通过unget搜索Oracle.ManagedDataAccess.Core查看该依赖的依赖发现应该是需要的依赖Oracle.ManagedDataAccess.Core(>3.21.100)不支持.net6的环境解…...

编程日记 2024/2/22 12:17:52

oracle数据库事务的四大特性与隔离级别与游标

数据库事务的四大特性: 这里提到了 ACID 四个特性，分别是： A（Atomicity）： 原子性，确保事务中的所有操作要么全部执行成功，要么全部不执行，不存在部分执行的情况。 C（…...

编程日记 2024/2/22 12:16:51

Day25--learning English

一、积累 1.crab 2.scrape 3.crude 4.infect 5.blinds 6.plunk 7.fart 8.expel 9.stamp 10.tongs 11.utensil 12.sticky 13.yolk 14.snap 15.fuzz 16.chuck 17.hamper 18.panel 19.prod 20.eyebrow 二、练习 1.牛津原译 scrape /skreɪp/ REMOVE 除去 1.to remove sth from…...

编程日记 2024/2/22 12:15:49

职业技能鉴定服务中心前端静态页面（官网+证书查询）

有个朋友想做职业技能培训，会发证书，证书可以在自己网站可查。想做一个这样的网站，而且要特别土，一眼看上去像xxx官方网站，像jsp .net技术开发的网站。用htmlcssjquery还原了这样子一个前端页面，这里分享给…...

编程日记 2024/2/22 12:11:46

第六十六天 API安全-接口安全阿里云KEY%postmanDVWSXEE鉴权泄露

第66天 API安全-接口安全&阿里云KEY%postman&DVWS&XEE&鉴权&泄露知识点 1.HTTP类接口-测评 2.RPC类接口-测评 3.Web Service类-测评参考链接：https://www.jianshu.com/p/e48db27d7c70 内容点： SOAP(Simple Object Access Prot…...

编程日记 2024/2/22 12:09:44

在Vue3 + Vite项目中使用less

在Vue3 Vite项目中使用less，需要安装less和less-loader两个依赖。首先，在项目根目录下执行以下命令安装less和less-loader： npm install less less-loader --save-dev安装完成后，在vite.config.js配置文件中添加以下代码&…...

编程日记 2024/2/22 12:08:42

this的指向问题总结

this一般会出现在函数里面，但是一般情况下只有在函数被调用执行时，才能确定this指向哪个对象。一般情况下this是指调用函数的对象。 1.在全局作用域下或者普通函数中this的指向一般都是window对象 window.fn（），普通函…...

编程日记 2024/2/22 12:06:40

jQuery的应用(二)

对上一节内容的补充。 jQuery选择器 jQuery选择器类似于CSS选择器，用来选取网页中的元素 jQuery选择器功能强大，种类也很多，分类如下通过CSS选择器选取元素：基本选择器层次选择器属性选择器通过过滤选择器选择元素：基本过滤选择器可见性过滤选择器表单对象过滤选择器…...

编程日记 2024/2/22 11:57:33

芋道源码（yudao）跳转新页面的几种方式

芋道源码（yudao）跳转新页面的几种方式导入useRouter const { push, replace, resolve } useRouter() 当前页面跳转 const goToPage (url: string) > {url push(/hot163) }当前页面跳转 const goToPage (url: string) > {url resolve(/h…...

编程日记 2024/2/22 11:56:31

Open AI — Sora 如何发挥其魔力 — 近距离观察该技术

OpenAI 的大模型 Sora 可以制作一整分钟的高质量视频。他们的工作成果表明，使视频生成模型更大是为现实世界创建多功能模拟器的好方法。Sora 是一种灵活的可视化数据模型。它可以创建不同长度、形状和大小的视频和图片，甚至可以创建长达一分钟的高清视频。我阅读了 OpenAI 的…...

编程日记 2024/2/22 11:55:30

密码解密 - 华为OD统一考试(C卷)

OD统一考试（C卷） 分值： 100分题解： Java / Python / C 题目描述给定一段 “密文”字符串 s ，其中字符都是经过 “密码本” 映射的，现需要将“密文”解密并且输出。映射的规则： ( a−i ) 分…...

编程日记 2024/2/22 11:51:26

【深度学习】Pytorch教程（八）：PyTorch数据结构：2、张量的数学运算（6）：高维张量：乘法、卷积（conv2d~四维张量；conv3d~五维张量）

文章目录一、前言二、实验环境三、PyTorch数据结构1、Tensor（张量）1. 维度（Dimensions）2. 数据类型（Data Types）3. GPU加速（GPU Acceleration） 2、张量的数学运算1. 向量运算2. 矩阵…...

编程日记 2024/2/22 11:50:25

Autosar-Mcal配置详解-GPT

3.3.1添加GPT模块方法与添加Dio相似，可参加Dio模块添加方法。 3.3.2 创建、配置GPT通道 1)根据需求创建GPT通道（即创建几个定时器） 本例中创建了3个定时器通道：1ms，100us，OsTimer。 2)配置GPT通道配置T…...

编程日记 2024/2/22 11:47:23

前端面试问题(jwt/布局/vue数组下标/扁平化/菜单树形/url api/新版本)

前端面试问题(jwt/布局/vue数组下标/扁平化/菜单树形/url api/新版本) 1. jwt鉴权逻辑前端 JWT 鉴权逻辑通常涉及在发起请求时携带 JWT，并在接收到响应后处理可能的授权问题。 1. 用户登录： 用户提供凭证： 用户在登录界面输入用户名和密码…...

编程日记 2024/2/22 11:40:16

Learn HTML in 1 hour

website address https://www.youtube.com/watch?vHD13eq_Pmp8 excerpt All right, what’s going on? everybody. It’s your Bro, hope you’re doing well, and in this video I’m going to help you started with html; so sit back, relax and enjoy the show. If y…...

编程日记 2024/2/22 11:37:13

LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-视频问答成功运行-实现循环问答多次问答

项目体验

多次问答

相关文章：

LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-视频问答成功运行-实现循环问答多次问答

线阵相机之帧超时

模型转换案例学习：等效替换不支持算子

js 数组排序的方式

手机连接电脑后资源管理器无法识别(识别设备但无法访问文件)

安装unget包 sqlsugar时报错，完整的报错解决

oracle数据库事务的四大特性与隔离级别与游标

Day25--learning English

职业技能鉴定服务中心前端静态页面（官网+证书查询）

第六十六天 API安全-接口安全阿里云KEY%postmanDVWSXEE鉴权泄露

在Vue3 + Vite项目中使用less

this的指向问题总结

jQuery的应用(二)

芋道源码（yudao）跳转新页面的几种方式

Open AI — Sora 如何发挥其魔力 — 近距离观察该技术

密码解密 - 华为OD统一考试(C卷)

【深度学习】Pytorch教程（八）：PyTorch数据结构：2、张量的数学运算（6）：高维张量：乘法、卷积（conv2d~四维张量；conv3d~五维张量）

Autosar-Mcal配置详解-GPT

前端面试问题(jwt/布局/vue数组下标/扁平化/菜单树形/url api/新版本)

Learn HTML in 1 hour

Linux应用开发之网络套接字编程(实例篇)

C++_核心编程_多态案例二-制作饮品

工业安全零事故的智能守护者：一体化AI智能安防平台

使用分级同态加密防御梯度泄漏

Python实现prophet 理论及参数优化

push [特殊字符] present

Python+ZeroMQ实战：智能车辆状态监控与模拟模式自动切换

Golang——6、指针和结构体

比较数据迁移后MySQL数据库和OceanBase数据仓库中的表

通过MicroSip配置自己的freeswitch服务器进行调试记录