当前位置: 首页 > news >正文

经典文献阅读之--World Models for Autonomous Driving(自动驾驶的世界模型:综述)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时,并附带200G的免费磁盘空间。通过链接注册并联系客服,可以获得20元代金券(相当于6-7H的免费GPU资源)。欢迎大家体验一下~

0. 简介

在自动驾驶的快速发展领域中,准确预测未来事件及评估其含义的能力对于安全性和效率至关重要,这对决策过程至关重要。世界模型作为一种变革性方法出现,使自动驾驶系统能够合成和解释大量传感器数据,从而预测潜在的未来场景并弥补信息缺口。《World Models for Autonomous Driving: An Initial Survey》提供了对自动驾驶中世界模型当前状态和未来进展的初步回顾,涵盖了它们的理论基础、实际应用以及旨在克服现有限制的持续研究努力。突出了世界模型在推进自动驾驶技术中的重要作用,本调查旨在为研究社区提供一个基础参考,便于迅速获取和理解这一新兴领域,并激发持续的创新和探索。

1. 还原世界发展

本节概述了世界模型的复杂架构,详细说明了它们的关键组成部分及在各项研究中的重要应用。这些模型旨在复制人类大脑的复杂认知过程,使自主系统能够以类似于人类思维的方式做出决策和理解其环境。

1.1 世界模型的架构基础

世界模型的架构旨在模拟人类大脑的连贯思考和决策过程,集成了几个关键组件:

  1. 感知模块:作为系统的感官输入,类似于人类的感官。它采用先进的传感器和编码模块(如变分自编码器[VAE]、掩码自编码器[MAE]和离散自编码器[DAE])来处理和压缩环境输入(图像、视频、文本、控制命令),转换成更易管理的格式。这一模块的有效性对于准确感知复杂、动态环境至关重要,促进了模型随后的预测和决策。
  2. 记忆模块:起到类似人类海马体的作用,关键在于记录和管理过去、现在和预测的世界状态及其相关的成本或奖励。它通过重放最近的经验支持短期和长期记忆功能,这一过程通过将过去的见解纳入未来的决策来增强学习和适应。
  3. 控制/行动模块:负责通过行动与环境互动。它评估世界模型提供的当前状态和预测,以确定旨在实现特定目标(如最小化成本或最大化奖励)的最优行动序列。
  4. 世界模型模块:作为架构的核心,执行两个主要功能:估计当前世界状态的任何缺失信息和预测环境的未来状态。这种双重能力使系统能够生成一个全面的、预测性的环境模型,考虑到不确定性和动态变化。

这些组件共同形成了一个强大的框架,使世界模型能够模拟类似人类的认知过程和决策。通过集成这些模块,世界模型实现了对其环境的全面和预测性理解,这对于开发能够以前所未有的精细度导航和与真实世界互动的自主系统至关重要。

在这里插入图片描述

图2:代理的世界模型框架图

在高维感官输入场景中,世界模型利用潜在动态模型抽象地表示观察到的信息,使得在潜在状态空间内进行紧凑的前向预测成为可能。这些潜在状态比直接预测高维数据要空间效率得多,感谢深度学习和潜变量模型的进步,它们促进了大量并行预测的执行。例如,考虑在十字路口一辆汽车方向的不确定性,这是真实世界动态固有不可预测性的一个象征性场景。潜变量作为表示这些不确定结果的有力工具,为世界模型设定了基于当前状态的未来可能性范围的舞台。这项努力的核心在于协调预测的确定性方面与真实世界现象的内在不确定性之间的平衡,这是世界模型效力的中心。

为了应对这一挑战,已经提出了多种策略,从通过温度变量引入不确定性[12],到采用如循环状态空间模型(RSSM)[23, 24, 25, 26, 27]和联合嵌入预测架构(JEPA)[1, 28, 19, 29]等结构化框架。这些方法力图在预测的精确性和灵活性之间找到最佳平衡。此外,利用Top-k采样并从基于CNN的模型过渡到变压器架构[30, 14, 31],如变压器状态空间模型(TSSM)或空间时间片状变压器(STPT),已显示出通过更好地近似真实世界的复杂性和不确定性来增强模型性能的潜力。这些解决方案努力使世界模型的输出更紧密地与真实世界的可能发展相一致。这种对齐是至关重要的,因为与游戏环境相比,真实世界有更广泛的影响因素范围和更大程度的未来结果随机性。过分依赖最高概率预测可能导致长期预测中的重复循环。相反,预测中的过度随机性可能导致与现实严重偏离的荒谬未来。

特别是,RSSM和JEPA是世界模型研究中最广泛使用的核心结构。

在这里插入图片描述

图 3:潜在动态建模中RNN、SSM和RSSM架构的比较示意图

1.1.1 递归状态空间模型(RSSM)

递归状态空间模型(RSSM)[24] 在Dreamer系列世界模型中占据了关键地位,旨在仅在潜在空间内进行前向预测。这种创新结构使得模型能够通过潜在状态空间预测,其中,转换模型内的随机和确定性路径在成功规划中起着关键作用

图3展示了潜在动态模型在三个时间步骤中的示意图。在最初观察两个时间步骤后,模型随后预测第三个。这里,随机变量(圆圈)和确定性变量(方块)在模型架构内相互作用——实线描绘生成过程,而虚线代表推理路径。图3(a)中的初始确定性推理方法揭示了其在捕获多样潜在未来方面的局限性,因为其性质是固定的。相反,图3(b)中完全随机的方法在跨时间步骤保持信息方面存在挑战,鉴于其固有的不可预测性

RSSM的创新之处在于其将状态分解为随机和确定性组件的策略性,如图3©所示,有效地利用确定性元素的预测稳定性和随机元素的适应潜力。这种混合结构确保了强大的学习和预测能力,同时适应现实世界动态的不可预测性并保持信息的连续性。通过结合RNN的优势和状态空间模型(SSM)的灵活性,RSSM为世界模型建立了一个全面的框架,增强了它们预测未来状态的能力,实现了精确性和适应性的平衡。

1.1.2 联合嵌入预测架构(JEPA)

联合嵌入预测架构(JEPA)[1] 通过专注于表示空间而不是直接的、详细的预测,标志着预测建模的范式转变。如图4所示,通过将输入(x)和目标(y)通过双编码器抽象为表示( s x s_x sx s y s_y sy),并利用潜变量(z)进行预测,JEPA在效率和准确性上实现了重大飞跃。这个模型擅长过滤掉噪声和不相关信息,专注于预测任务的本质。策略性地使用潜变量(z)来管理不确定性,进一步提炼了模型的焦点,使其能够以更高的精确度预测抽象结果。通过优先考虑相关特征并接受预测任务的固有不确定性,JEPA不仅简化了预测过程,而且确保结果既相关又可靠,为复杂环境中的预测建模树立了新标准。

在这里插入图片描述

图4:联合嵌入体系结构、生成体系结构和联合嵌入预测体系结构的比较示意图。

1.2 各种各样的应用

如表1所示,世界模型在多样化的环境中展现了无与伦比的表现力,尤其在游戏领域,它们的能力被突出展示。在竞争激烈的Atari 100k排行榜上,世界模型占据了前五名中的四席,这些创新架构[15, 31, 14, 32, 33]占据了主导地位。在这些模型中,EfficientZero通过显著提高图像增强学习的采样效率,利用MuZero的基础原理,在短短两小时的训练内实现了与人类相媲美的游戏技能[34],从而脱颖而出。在Minecraft游戏中,DreamerV3作为首个自主挖掘钻石的模型,这一成就未依赖人类生成的数据或预定义的学习课程,归功于其创新的Symlog预测使用,通过采用静态的symlog变换[26, 35],使模型能够适应不同环境规模的变化。相反,HarmonyDream引入了世界模型学习中损失缩放的动态方法,通过复杂的规模、维度和训练动态的精细平衡,优化多任务学习效率[33]。DreamerV3的symlog变换与HarmonyDream的动态损失调整的协同整合,有潜力进一步提升世界模型的性能和多样性。

基于图像的联合嵌入预测架构(I-JEPA)[29]展示了一种学习高度语义化图像表示的方法,而不依赖于手工制作的数据增强。I-JEPA通过使用抽象表示来预测缺失的目标信息,有效地消除了不必要的像素级细节。这使得模型能够学习更多的语义特征,通过对世界的抽象表示进行自监督学习,更准确地分析和完成不完整的图像。除了图像,这种架构还在音频基于联合嵌入预测架构(A-JEPA)[28]中展示了高扩展性,在多个音频和语音分类任务上设立了新的最先进性能,超越了依赖外部监督预训练的模型。

在诸如Fetch[36]、DeepMind控制套件[37]和元世界[38]等机器人操控任务中,潜行者探索者成就者(LEXA)[27]通过通过想象同时训练探索者和成就者,在40个机器人操作和移动任务中超越了之前的无监督方法。此外,在这些任务中,L3P[39]设计了一种新颖的算法,学习分布在目标空间的潜在地标,在三个机器人操控环境中实现了学习速度和测试时间泛化的主导性能。谷歌团队将世界模型的概念创新性地应用于机器人导航任务,利用它们获取有关周围环境的信息,并使智能代理能够预测其在特定情境中行为的后果。Pathdreamer在机器人导航中的实现利用世界模型增强了环境意识和预测规划,通过其对3D点云环境表示的创新使用,实现了导航成功率的显著提升[40]。此外,SafeDreamer将基于拉格朗日的方法融入Dreamer框架中,用于安全强化学习,展示了高性能、低成本安全应用的可行性[41]。

世界模型的快速训练能力,如DayDreamer在现实世界机器人学习效率中的示范,与传统方法形成鲜明对比,突显了这些模型在加速学习过程和提高性能方面的变革潜力。在虚拟场景和视频生成中,SORA和Genie引领了这一领域的进步。SORA能够从多样化的提示中产生连贯的高清视频,代表了向模拟复杂世界动态迈出的重要一步。尽管在物理交互模拟方面面临挑战,但SORA的一致的3D空间表示强调了其作为基础世界模型的潜力[44]。Genie的互动环境生成,尽管在视频质量方面不如SORA先进,但引入了用户驱动的世界操纵的新维度,为世界模型在创造沉浸式、可控虚拟现实中的未来应用提供了一瞥[45]。

这一全面审视强调了世界模型的卓越多样性和前沿进展,展示了它们在推动游戏、机器人、虚拟环境生成等方面创新的基础作用。这些模型的能力与动态适应和多领域泛化的融合预示着AI的新时代,世界模型不仅作为特定任务的工具,而且作为更广泛探索、学习和发现的平台。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 自动驾驶的世界模型

本节深入探讨了世界模型在自动驾驶领域的变革性应用,强调了它们在环境理解、动态预测以及阐明控制运动的物理原则方面的关键贡献。作为世界模型应用的新兴前沿,自动驾驶领域呈现出独特的挑战和机遇,以利用这些先进的计算框架。尽管对这一领域的兴趣日益增长,但世界模型在自动驾驶中的整合主要围绕场景生成、规划和控制机制,这些领域正等待着探索和创新

在这里插入图片描述

图5:自动驾驶流程中的世界模型

2.1 驾驶场景生成

在自动驾驶中获取数据面临着重大挑战,包括数据收集和标注的高成本、法律限制和安全考虑。通过自我监督学习范式,世界模型提供了一个有希望的解决方案,使得从大量未标记数据中提取有价值的见解成为可能,从而以成本效益的方式提高模型性能。世界模型在驾驶场景生成中的应用尤其值得注意,因为它促进了多样化和逼真的驾驶环境的创建。这一能力显著丰富了训练数据集,使自动系统具备了导航稀有和复杂驾驶场景的韧性。

GAIA-1[54]代表了一种能够使用视频、文本和动作输入创建逼真驾驶视频的新型自动生成AI模型。通过在Wayve的英国城市的大量真实驾驶数据上的训练,GAIA-1学习并理解了一些真实世界的规则和驾驶场景中的关键概念,包括不同类型的车辆、行人、建筑和基础设施。它可以根据几秒钟的视频输入预测和生成后续的驾驶场景。值得注意的是,生成的未来驾驶场景并不紧密地依赖于提示视频,而是基于GAIA-1对世界规则的理解。通过使用核心的自回归变换网络,GAIA-1根据输入图像、文本和动作token预测即将到来的图像token,然后将这些预测解码回像素空间。GAIA-1可以预测多种可能的未来并根据提示生成多样化的视频或特定的驾驶场景(例如,改变天气、场景、交通参与者、车辆动作),甚至包括超出其训练集的动作和场景(例如,强制进入人行道)。这展示了其理解和推断训练集中不存在的驾驶概念的能力。在现实世界中,由于其风险性,这类驾驶行为很难获取数据。驾驶场景生成允许进行模拟测试,丰富数据组成,增强系统在复杂场景中的能力,并更好地评估现有的驾驶模型。此外,GAIA-1生成连贯的动作,并有效捕捉3D几何结构的视角影响,展示了其对上下文信息和物理规则的理解。

…详情请参照古月居

相关文章:

经典文献阅读之--World Models for Autonomous Driving(自动驾驶的世界模型:综述)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时&…...

孙健提到的实验室的研究方向之一是什么?()

孙健提到的实验室的研究方向之一是什么?() 点击查看答案 A.虚拟现实B.环境感知和理解 C.智能体博弈D.所有选项都正确 图灵奖是在哪一年设立的?() A.1962B.1966 C.1976D.1986 孙健代表的实验室的前身主要研究什么?&…...

初级java每日一道面试题-2024年7月23日-Iterator和ListIterator有什么区别?

面试官: Iterator和ListIterator有什么区别? 我回答: Iterator和ListIterator都是Java集合框架中用于遍历集合元素的接口,但它们之间存在一些关键的区别,主要体现在功能和使用场景上。下面我将详细解释这两种迭代器的不同之处: 1. Iterat…...

2024-07-23 Unity AI行为树2 —— 项目介绍

文章目录 1 项目介绍2 AI 代码介绍2.1 BTBaseNode / BTControlNode2.2 动作/条件节点2.3 选择 / 顺序节点 3 怪物实现4 其他功能5 UML 类图 项目借鉴 B 站唐老狮 2023年直播内容。 点击前往唐老狮 B 站主页。 1 项目介绍 ​ 本项目使用 Unity 2022.3.32f1c1,实现基…...

Unity-URP-SSAO记录

勾选After Opacity Unity-URP管线,本来又一个“bug”, 网上查不到很多关于ssao的资料 以为会不会又是一个极度少人用的东西 而且几乎都是要第三方替代 也完全没有SSAO大概的消耗是多少,完全是黑盒(因为用的人少,研究的人少,优…...

无人机上磁航技术详解

磁航技术,也被称为地磁导航,是一种利用地球磁场信息来实现导航的技术。在无人机领域,磁航技术主要用于辅助惯性导航系统(INS)进行航向角的测量与校正,提高无人机的飞行稳定性和准确性。其技术原理是&#x…...

使用 cURL 命令测试网站响应时间

文章目录 使用 cURL 命令测试网站响应时间工具介绍cURL 命令详解命令参数说明输出格式说明示例运行结果总结使用 cURL 命令测试网站响应时间 本文将介绍如何使用 cURL 命令行工具来测试一个网站的响应时间。具体来说,我们将使用 cURL 命令来测量并显示各种网络性能指标,包括 …...

「网络通信」HTTP 协议

HTTP 🍉简介🍉抓包工具🍉报文结构🍌请求🍌响应🍌URL🥝URL encode 🍌方法🍌报文字段🥝Host🥝Content-Length & Content-Type🥝User…...

科普文:后端性能优化的实战小结

一、背景与效果 ICBU的核心沟通场景有了10年的“积累”,核心场景的界面响应耗时被拉的越来越长,也让性能优化工作提上了日程,先说结论,经过这一波前后端齐心协力的优化努力,两个核心界面90分位的数据,FCP平…...

LeetCode-day23-3098. 求出所有子序列的能量和

LeetCode-day23-3098. 求出所有子序列的能量和 题目描述示例示例1:示例2:示例3: 思路代码 题目描述 给你一个长度为 n 的整数数组 nums 和一个 正 整数 k 。 一个 子序列的 能量 定义为子序列中 任意 两个元素的差值绝对值的 最小值 。 请…...

CSS3雷达扫描效果

CSS3雷达扫描效果https://www.bootstrapmb.com/item/14840 要创建一个CSS3的雷达扫描效果,我们可以使用CSS的动画(keyframes)和transform属性。以下是一个简单的示例,展示了如何创建一个类似雷达扫描的动画效果: HTM…...

单例模式懒汉模式和饿汉模式

线程安全 单例模式在单线程中,当然是安全的。但是如果在多线程中,由于并行判断,可能会导致创建多个实例。那么如何保证在多线程中单例还是只有一个实例呢? 常见的三种方式: 局部静态变量 原理和饿汉模式相似,利用static只会初始…...

python __repr__和__str__区别

1. __repr__ __repr__ 方法由 repr() 内置函数调用,用于计算对象的“正式”字符串表示形式。理想情况下,这个字符串应该看起来像一个有效的 Python 表达式,可以在适当的环境下用来重新创建具有相同值的对象。如果这不可能实现,那…...

huawei USG6001v1学习----NAT和智能选路

目录 1.NAT的分类 2.智能选路 1.就近选路 2.策略路由 3.智能选路 NAT:(Network Address Translation,网络地址转换) 指网络地址转换,1994年提出的。NAT是用于在本地网络中使用私有地址,在连接互联网时转而使用全局…...

FPGA JTAG最小系统 EP2C5T144C8N

FPGA的文档没有相应的基础还真不容易看懂,下面是B站上对FPGA文档的解读(本文非对文档解读,只是为个人记录第三期:CycloneIV E最小系统板设计(一)从Datasheet上获取FPGA的基本参数_哔哩哔哩_bilibili 电源部份 核心电…...

Android 15 之如何快速适配 16K Page Size

在此之前,我们通过 《Android 15 上 16K Page Size 为什么是最坑》 介绍了: 什么是16K Page Size为什么它对于 Android 很坑如何测试 如果你还没了解,建议先去了解下前文,然后本篇主要是提供适配的思路,因为这类适配…...

学习unity官方的网络插件Netcode【一】

对bool值的个人理解: using Unity.Netcode; using UnityEngine; //个人理解:通过Rpc完成了一次客户端给服务端发消息,服务端再向所有客户端广播消息 public class RpcTest : NetworkBehaviour {public override void OnNetworkSpawn(){if (!…...

QT写一个mainWindow

切换风格的写法&#xff1a; 先看看样式效果&#xff1a; mian_window.h文件 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>class MainWindow : public QMainWindow {Q_OBJECTpublic:MainWindow(QWidget *parent nullptr);~MainWindow();void Ini…...

Java查找算法练习(2024.7.23)

顺序查找 package SearchExercise20240723; import java.util.Scanner; public class SearchExercise {public static void main(String[] args) {Scanner sc new Scanner(System.in);System.out.println("需要多大的数组?");int size sc.nextInt();int[] array …...

洗地机哪个牌子好?四款口碑最好的洗地机排名推荐

随着“懒人经济”的出现&#xff0c;越来越多的人开始使用洗地机。洗地机哪个牌子好&#xff1f;为了帮助大家在这个琳琅满目的市场中做出明智决策&#xff0c;本文特别整理了四款口碑最好的洗地机排名推荐&#xff0c;它们凭借出色的清洁效果、智能化的操作体验以及用户的高度…...

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景 随着HarmonyOS 5.0对Web兼容层的增强&#xff0c;React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。 二、核心实现方案 1. 环境配置 &#xff08;1&#xff09;使用React Native…...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件 路径&#xff1a;src/utils/timer.ts 完整代码&#xff1a; import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

Spring AI 入门:Java 开发者的生成式 AI 实践之路

一、Spring AI 简介 在人工智能技术快速迭代的今天&#xff0c;Spring AI 作为 Spring 生态系统的新生力量&#xff0c;正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务&#xff08;如 OpenAI、Anthropic&#xff09;的无缝对接&…...

如何理解 IP 数据报中的 TTL?

目录 前言理解 前言 面试灵魂一问&#xff1a;说说对 IP 数据报中 TTL 的理解&#xff1f;我们都知道&#xff0c;IP 数据报由首部和数据两部分组成&#xff0c;首部又分为两部分&#xff1a;固定部分和可变部分&#xff0c;共占 20 字节&#xff0c;而即将讨论的 TTL 就位于首…...

论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing

Muffin 论文 现有方法 CRADLE 和 LEMON&#xff0c;依赖模型推理阶段输出进行差分测试&#xff0c;但在训练阶段是不可行的&#xff0c;因为训练阶段直到最后才有固定输出&#xff0c;中间过程是不断变化的。API 库覆盖低&#xff0c;因为各个 API 都是在各种具体场景下使用。…...

零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程

STM32F1 本教程使用零知标准板&#xff08;STM32F103RBT6&#xff09;通过I2C驱动ICM20948九轴传感器&#xff0c;实现姿态解算&#xff0c;并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化&#xff0c;适合嵌入式及物联网开发者。在基础驱动上新增…...

书籍“之“字形打印矩阵(8)0609

题目 给定一个矩阵matrix&#xff0c;按照"之"字形的方式打印这个矩阵&#xff0c;例如&#xff1a; 1 2 3 4 5 6 7 8 9 10 11 12 ”之“字形打印的结果为&#xff1a;1&#xff0c;…...

解析“道作为序位生成器”的核心原理

解析“道作为序位生成器”的核心原理 以下完整展开道函数的零点调控机制&#xff0c;重点解析"道作为序位生成器"的核心原理与实现框架&#xff1a; 一、道函数的零点调控机制 1. 道作为序位生成器 道在认知坐标系$(x_{\text{物}}, y_{\text{意}}, z_{\text{文}}…...

链式法则中 复合函数的推导路径 多变量“信息传递路径”

非常好&#xff0c;我们将之前关于偏导数链式法则中不能“约掉”偏导符号的问题&#xff0c;统一使用 二重复合函数&#xff1a; z f ( u ( x , y ) , v ( x , y ) ) \boxed{z f(u(x,y),\ v(x,y))} zf(u(x,y), v(x,y))​ 来全面说明。我们会展示其全微分形式&#xff08;偏导…...