当前位置：首页 > news >正文

TWM论文阅读笔记

news 2026/2/11 3:29:46

在这里插入图片描述

这是ICLR2023的一篇world model论文，用transformer来做世界模型的sequence prediction。
文章贡献是transformer-based world model（不同于以往的如transdreamer的world model，本文的transformer-based world model在inference 的时候可以丢掉）两个损失，一个采样策略。

WM

TWM用的仍然是经典的world model框架：
- encoder-decoder用的是VAE，不过输入是四帧而不是一帧
- dynamic model用过去 $l$ 步的 $z$ $a$ $r$ 和当前的 $z$ $a$ 作为输入，用transformer预测 $h_t$ ，再用 $h_t$ 预测 $r_t$ ， $\gamma_t$ 和 $z_{t+1}$ ，如下：
- 上面的三个 $p$ 都是MLP， $f$ 是transformerXL， $3 l - 1$ 个token输入，预测一个token：
- z，r，gamma的MLP的输出分别是：a vector of independent categorical distributions, a normal distribution,
  and a Bernoulli distribution
提的两个损失，一个是如下的encoder-decoder的损失，由三项组成，第一项是VAE的损失，第二项是对z的熵损失，第三项是与sequence model的一致损失：
第二个损失是用来train sequence model的，第一项其实跟上一个损失的第三项一样，但是上一个损失是train VAE的，这个损失是train sequence model的；第二项第三项不用说，就是正常的reward和discount的损失：
相比LSTM GRU之类模型，transformer的好处在于长序列建模，sequence model总是能看到过去 $l$ 步发生的确切的事情，而非仅能观察到一个压缩的状态 $h_t$

RL

这里可以看到，dreamerv3等模型预测的是奖励 $r_t$ 和terminate $d_t$ ，但是TWM预测的是discount factor $\gamma$ ，在这里就可以派上用场了，预测的 $\gamma$ 用来train RL模型（而其他的WM，RL模型的 $\gamma$ 用的是固定值）。那么训练的时候 $\gamma$ 怎么监督呢，文章定义的label是 $\gamma_t=0$ 和 $\gamma_t=\gamma$ ，即当terminate的时候 $\gamma=0$ 而其他时候 $\gamma$ 是固定值，label是这样，而模型应该会灵活预测？不知道
这里有一些新的损失，比如对策略的熵的损失，不能低于一个阈值：
这里还要关注的是policy model的输入，一般policy model的输入是 $z_t$ 和 $h_t$ 的concate,如dreamerv3和STORM，文章试了发现decoder的输出也可以（IRIS就这么干的）， $o_t$ 也可以，本文用的是 $z_t$ ，比较轻量快速，只需要encoder而不需要sequence model。并且，训练的时候用的是sequence model预测的zt，而测试的时候则用的是encoder编码的zt加上frame stacking操作（这里有点疑问，维度？）
train的时候还是常规的三步走：用RL model采样，train world model，用world model train RL model。
training的时候有个sampling的stategy，如下，是为了让模型更关注后面采样得到的sample，但vt的公式也没给，之说是incremented every time an entry is sampled：

TWM论文阅读笔记

这是ICLR2023的一篇world model论文，用transformer来做世界模型的sequence prediction。文章贡献是transformer-based world model（不同于以往的如transdreamer的world model，本文的transformer-based world model在inference 的时候可以丢掉…...

编程日记 2024/6/24 3:46:48

探索ChatTTS项目：高效的文字转语音解决方案

文章目录 📖 介绍 📖📒 ChatTTS 📒📝 项目介绍📝 项目亮点📝 UI 🎈 项目地址 🎈 📖 介绍 📖 在AI技术迅速发展的今天，文本到语音&…...

编程日记 2024/6/24 3:45:47

[Django学习]Q对象实现多字段模糊搜索

一、应用场景假设我们现在有一个客房系统,前端界面上展示出来了所有客房的所有信息。用户通过客房的价格、面积、人数等对客房进行模糊搜索，如检索出价格在50到100元之间的客房，同时检索面积在20平方米到30平方米之间的客房，此时后端可以借助…...

编程日记 2024/6/24 3:44:46

transdreamer 论文阅读笔记

这篇文章是对dreamer系列的改进，是一篇world model 的论文改进点在于，dreamer用的是循环神经网络，本文想把它改成transformer，并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉，dreamer用ht…...

编程日记 2024/6/24 3:41:43

AIGC技术的发展现状与未来趋势探讨

AIGC技术的发展现状与未来趋势探讨随着人工智能（AI）技术的迅猛发展，AI生成内容（AI-Generated Content，AIGC）成为了一项颠覆性的技术，它能够自动生成文本、图像、音频和视频等多种内容。本文将…...

编程日记 2024/6/24 3:40:42

Postman Postman接口测试工具使用简介

Postman这个接口测试工具的使用做个简单的介绍，仅供参考。插件安装 1）下载并安装chrome浏览器 2）如下软件使用说明...

编程日记 2024/6/24 3:39:39

Java开发笔记Ⅱ（Jsoup爬虫）

Jsoup 爬虫 Java 也能写爬虫！！！ Jsoup重要对象如下： Document：文档对象，每个html页面都是一个Document对象 Element：元素对象，一个Document对象里有多个Element对象 Node&#…...

编程日记 2024/6/24 3:38:38

一五三、MAC 安装MongoDB可视化工具连接

若没有安装brew包管理工具，在命令行输入安装命令 /bin/bash -c “$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)”上面步骤安装完成后，开始安装MongoDB，输入安装命令： brew tap mongodb/brewbrew u…...

编程日记 2024/6/24 3:35:35

ULTRAINTERACT 数据集与 EURUS 模型：推动开源大型语言模型在推理领域的新进展

在人工智能的浪潮中，大型语言模型（LLMs）已经成为推动自然语言处理技术发展的关键力量。它们在理解、生成语言以及执行复杂任务方面展现出了巨大的潜力。然而，尽管在特定领域内取得了显著进展，现有的开源LLMs在处理多样…...

编程日记 2024/6/24 3:34:32

【leetcode刷题】面试经典150题 , 27. 移除元素

leetcode刷题面试经典150 27. 移除元素难度：简单文章目录一、题目内容二、自己实现代码2.1 方法一：直接硬找2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析 2.2 方法二：排序整体删除再补充2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析三、…...

编程日记 2024/6/24 3:33:31

红队内网攻防渗透：内网渗透之内网对抗：横向移动篇PTH哈希PTT票据PTK密匙Kerberoast攻击点TGTNTLM爆破

红队内网攻防渗透 1. 内网横向移动1.1 首要知识点1.2 PTH1.2.1 利用思路第1种：利用直接的Hash传递1.2.1.1、Mimikatz1.2.2 利用思路第2种：利用hash转成ptt传递1.2.3 利用思路第3种：利用hash进行暴力猜解明文1.2.4 利用思路第4种：修改注册表重启进行获取明文1.3 PTT1.3.1、漏…...

编程日记 2024/6/24 3:32:30

springBoot不同module之间互相依赖

在 Spring Boot 多模块项目中，不同模块之间的依赖通常是通过 Maven 或 Gradle 来管理的。以下是一个示例结构和如何设置这些依赖的示例。项目结构假设我们有一个多模块的 Spring Boot 项目，结构如下： my-springboot-project │ ├── p…...

编程日记 2024/6/24 3:30:27

[modern c++] 类型萃取 type_traits

前言： #include <type_traits> type_traits 又叫类型萃取，是一个在编译阶段用于进行类型判断/类型变更的库，在c11中引入。因为其工作阶段是在编译阶段，因此被大量应用在模板编程中，同时也可以结合 constexpr…...

编程日记 2024/6/24 3:29:26

函数模板和类模板的区别

函数模板和类模板在C中都是重要的泛型编程工具，但它们之间存在一些显著的区别。以下是它们之间的主要区别： 实例化方式： 函数模板：隐式实例化。当函数模板被调用时，编译器会根据传递给它的参数类型自动推断出模板参数…...

编程日记 2024/6/24 3:28:24

ChatGPT 提示词技巧一本速通

目录一、基本术语二、提示词设计的基本原则三、书写技巧 2.1 赋予角色 2.2 使用分隔符 2.2 结构化输出 2.3 指定步骤 2.4 提供示例 2.5 指定长度 2.6 使用或引用参考文本 2.7 提示模型进行自我判断 2.8 思考问题的解决过程编辑 2.10 询问是否有遗漏 2.11 …...

编程日记 2024/6/24 3:27:23

【windows解压】解压文件名乱码

windows解压，文件名乱码但内容正常。我也不知道什么时候设置出的问题。。。换了解压工具也没用，后来是这样解决的。目录 1.环境和工具 2.打开【控制面板】 3.点击【时钟和区域】 4.选择【区域】 5.【管理】中【更改系统区域设置】 6.选择并确定…...

编程日记 2024/6/24 3:24:20

使用Flink CDC实时监控MySQL数据库变更

在现代数据架构中，实时数据处理变得越来越重要。Flink CDC（Change Data Capture）是一种强大的工具，可以帮助我们实时捕获数据库的变更，并进行处理。本文将介绍如何使用Flink CDC从MySQL数据库中读取变更数据&#xff0…...

编程日记 2024/6/24 3:18:15

学生课程信息管理系统

摘要目前，随着科学经济的不断发展，高校规模不断扩大，所招收的学生人数越来越多；所开设的课程也越来越多。随之而来的是高校需要管理更多的事务。对于日益增长的学生相关专业的课程也在不断增多，高校对其管理具有一…...

编程日记 2024/6/24 3:17:13

如何看待鸿蒙HarmonyOS？

鸿蒙系统，自2019年8月9日诞生就一直处于舆论风口浪尖上的系统，从最开始的“套壳”OpenHarmony安卓的说法，到去年的不再兼容安卓的NEXT版本的技术预览版发布，对于鸿蒙到底是什么，以及鸿蒙的应用开发的讨论从来没停止过。…...

编程日记 2024/6/24 3:15:11

【论文复现|智能算法改进】一种基于多策略改进的鲸鱼算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 SCI二区|鲸鱼优化算法（WOA）原理及实现【附完整Matlab代码】 2.改进点混沌反向学习策略将混沌映射和反向学习策略结合，形成混沌反向学习方法，通过该方法…...

编程日记 2024/6/24 3:14:10

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下： struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

编程新知 2025/11/27 21:52:13

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2026/2/10 22:14:48

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日，国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。据「TMT星球」了解，“超级…...

编程新知 2026/2/8 4:08:40

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2026/1/31 11:58:35

微信小程序云开发平台MySQL的连接方式

注：微信小程序云开发平台指的是腾讯云开发先给结论：微信小程序云开发平台的MySQL，无法通过获取数据库连接信息的方式进行连接，连接只能通过云开发的SDK连接，具体要参考官方文档： 为什么？ 因为…...

编程新知 2026/2/1 5:24:17

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域，高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表，以及基于它们实现的 Reactor 模式，为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。一、I…...

编程新知 2026/2/10 11:29:59

什么是Ansible Jinja2

理解 Ansible Jinja2 模板 Ansible 是一款功能强大的开源自动化工具，可让您无缝地管理和配置系统。Ansible 的一大亮点是它使用 Jinja2 模板，允许您根据变量数据动态生成文件、配置设置和脚本。本文将向您介绍 Ansible 中的 Jinja2 模板，并通…...

编程新知 2026/2/6 1:00:25

Java线上CPU飙高问题排查全指南

一、引言在Java应用的线上运行环境中，CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时，通常会导致应用响应缓慢，甚至服务不可用，严重影响用户体验和业务运行。因此，掌握一套科学有效的CPU飙高问题排查方法&…...

编程新知 2025/11/2 5:30:15

Java求职者面试指南：计算机基础与源码原理深度解析

Java求职者面试指南：计算机基础与源码原理深度解析第一轮提问：基础概念问题 1. 请解释什么是进程和线程的区别？ 面试官：进程是程序的一次执行过程，是系统进行资源分配和调度的基本单位；而线程是进程中的…...

编程新知 2025/12/9 14:22:07

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2026/1/31 8:53:50

WM

RL

相关文章：