当前位置: 首页 > article >正文

【VLA】Vision Language Action

文章目录一、什么是世界模型World Model✅ 定义 核心功能 技术原理典型架构二、世界模型在具身智能中的作用三、VLAVision-Language-Action模型是什么✅ 定义 技术原理四、世界模型、VLA、RL 的区别与联系 联系三者如何协同五、为什么 VLA 需要配合世界模型和 RL❌ VLA 单独使用的局限✅ 配合后的优势六、当前趋势三者融合的代表工作七、VLA vs. VLM训练好后的优势✅ 总结一、什么是世界模型World Model✅ 定义世界模型是智能体Agent内部对环境动态dynamics的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作环境会如何变化”。 核心功能状态编码将观测如图像、激光雷达压缩为紧凑的潜在状态z t z_tzt​动态预测给定当前状态z t z_tzt​和动作a t a_tat​预测下一状态z t 1 f ( z t , a t ) z_{t1} f(z_t, a_t)zt1​f(zt​,at​)奖励/回报预测可选预测未来奖励r t 1 r_{t1}rt1​想象/规划在内部“模拟”多步未来无需与真实环境交互。 技术原理典型架构以Dreamer / DreamerV2 / DreamerV3为代表graph LR O_t[Observation o_t]--Encoder --z_t[Latent State z_t]z_t --Dynamics --z_t1[Predicted z_{t1}]a_t[Action a_t]--Dynamics z_t1 --Decoder --ō_t1[Reconstructed o_{t1}]EncoderCNN RNN 将图像序列编码为z t z_tzt​Dynamics NetworkRNN 或 Transformer 预测状态转移训练目标重建观测 预测奖励 保持信息瓶颈避免过拟合。关键思想在潜在空间中建模世界而非像素空间效率高、泛化好。二、世界模型在具身智能中的作用作用说明降低样本复杂度在内部模拟中试错减少真实环境交互节省时间/成本长期规划能力想象多步未来如“开门→进屋→拿杯子”支持分层决策鲁棒性提升对传感器噪声、部分遮挡更鲁棒因建模的是语义状态零样本迁移学到的动态模型可迁移到新任务只要环境物理规律不变没有世界模型的具身智能 ≈ 盲目试错有世界模型 ≈ 带“想象力”的智能体。三、VLAVision-Language-Action模型是什么✅ 定义VLA 模型是一种端到端的策略网络直接将视觉观测 自然语言指令 映射为机器人动作。典型代表RT-2 (Google), OpenVLA, GR00T (NVIDIA)。 技术原理多模态编码图像 → ViT 编码文本指令 → LLM如 PaLM, Llama编码融合与决策跨模态注意力融合视觉语言特征解码器输出离散/连续动作如关节角、末端速度训练方式行为克隆Behavior Cloning从人类演示数据中学习( o , l ) → a (o, l) \rightarrow a(o,l)→a微调 RLHF用少量 RL 或人类反馈优化。VLA 本质是“模仿学习”的极致看图听指令→做动作。四、世界模型、VLA、RL 的区别与联系维度世界模型WMVLA强化学习RL目标学习环境动态预测未来学习策略输入→动作最大化累积奖励是否需要奖励可无监督仅观测不需要靠演示必须有奖励信号交互方式可离线训练离线演示数据在线/离线交互泛化性高学到物理规律中依赖演示覆盖低任务特定样本效率高内部模拟高一次性学习低需大量试错典型输入观测序列观测 语言指令观测 奖励 联系三者如何协同提供初始策略想象未来轨迹优化动作提供稀疏奖励提供稀疏奖励“VLA: 看图听令→动作”“世界模型: 模拟动作后果”“规划器: 选最优动作序列”“RL: 在真实环境中微调”VLA 提供“常识策略”快速响应语言指令世界模型提供“想象力”评估 VLA 动作是否安全/有效RL 提供“最终校准”在真实环境中修正偏差。五、为什么 VLA 需要配合世界模型和 RL❌ VLA 单独使用的局限缺乏长期规划只能做“反应式”动作无法处理多步任务如“先拿钥匙再开门”安全风险高直接输出动作可能撞墙、摔东西泛化到新场景弱演示数据未覆盖的动作会失败无纠错机制一旦出错无法回溯调整。✅ 配合后的优势组件补足 VLA 的什么缺陷世界模型提供安全沙盒在内部模拟 VLA 动作的后果拒绝危险动作支持多步推理通过想象规划完整任务流程。强化学习提供在线适应在真实环境中微调策略弥补演示数据偏差优化长期回报超越模仿追求任务成功率最大化。理想架构VLA快思考 世界模型慢思考/规划 RL经验校准 鲁棒、高效、可解释的具身智能RL 在 VLA 框架中的作用虽然 VLA 初始训练通常采用模仿学习Imitation Learning / SFT——即让机器人模仿人类录制的视频或轨迹但 RL 的加入不可或缺超越“平均水平”模仿学习只能让机器人做得和演示者一样好。RL 可以通过自我博弈或奖励机制让机器人探索出比人类演示更高效、更稳健的动作路径。长程任务的一致性在长达数分钟的任务中微小的预测偏差会累积误差漂移。RL 能够通过目标导向的反馈强制模型在整个任务周期内保持动作的一致性。安全性与约束通过设置负奖励RL 可以教会 VLA 避开危险区域如不要撞到人不要打碎玻璃杯这是纯模仿学习很难学到的“边界感”。六、当前趋势三者融合的代表工作方法核心思想RT-2 World Model用 RT-2 生成候选动作世界模型筛选安全/有效的序列OpenVLA MBPO将 VLA 作为策略初始化用模型基策略优化MBPO提升性能GR00T SimulationNVIDIA 构建大规模仿真环境含物理引擎训练世界模型 VLA 联合策略七、VLA vs. VLM训练好后的优势VLM (Vision-Language Model)侧重于“看图说话”理解和描述而VLA侧重于“看图干活”交互和决策。特性VLM (如 GPT-4o, LAVA)VLA (如 RT-2, OpenVLA)输出目标文本描述、分类标签具体的电机控制指令 (如 7-DoF 关节转角)空间感弱可能分不清“左边”和“偏左 3 厘米”极强具备亚厘米级的空间操作精度动态闭环通常是静态交互实时闭环感知→ \rightarrow→动作→ \rightarrow→重新感知推理能力纯逻辑/常识推理具身推理将逻辑转化为物理世界的避障和操作核心优势VLA 解决了“恐怖谷”末端的落地问题。它不仅知道“杯子在桌子上”还知道“如何控制机械臂绕过花瓶以适当的力度拿起杯子”。✅ 总结概念角色类比世界模型智能体的“想象力”和“物理直觉”大脑中的模拟器VLA智能体的“语言理解反射动作”听到指令立刻伸手RL智能体的“实践经验”通过摔跤学会平衡未来具身智能 VLA感知-语言-动作通路 × 世界模型内部模拟 × RL现实校准这种融合架构正成为机器人、自动驾驶、虚拟智能体的主流范式也是通向通用人工智能AGI的关键路径之一。

相关文章:

【VLA】Vision Language Action

文章目录一、什么是世界模型(World Model)?✅ 定义:🌍 核心功能:🔧 技术原理(典型架构):二、世界模型在具身智能中的作用三、VLA(Vision-Language…...

PyQt6开发可视化界面中遇到问题及解决方案集合

PyQt6开发可视化界面中遇到问题及解决方案集合 安装与配置: 1.配环境の拷打 因为博主这个项目本来是在pycharm中的本地python3.12.7环境下开发的,涉及mineru解析,vectordatabase、fuseki、neo4j入库等核心模块,开发桌面软件时遇…...

DeepSeekubernetes-1.35.3/kubernetes-1.35.3/test/utils/ktesting/examples/logging/example_test.go 源码分析

我来分析 Kubernetes 测试工具 ktesting 中的日志示例文件 example_test.go。这个文件展示了如何在 Kubernetes 测试中使用结构化日志。 文件概述 这是 Kubernetes v1.35.3 中 test/utils/ktesting 包的示例文件,展示了如何使用 ktesting 框架进行带有结构化日志的测…...

委托的全面知识总结(C#)

一.定义与本质委托是干什么的?委托就是用来存 方法 的容器你可以把一个方法当成 数据 一样传递1.什么是委托委托是C#中类型安全的函数指针,它是一种“类型”,可以存储,调用,传递一个或多个方法的引用2.核心本质委…...

如何3步轻松备份微博内容:Speechless免费PDF导出完整指南

如何3步轻松备份微博内容:Speechless免费PDF导出完整指南 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 在信息快速更迭的数字时代&…...

PPTist:重构演示文稿创作流程的3大颠覆性突破

PPTist:重构演示文稿创作流程的3大颠覆性突破 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowing for the ed…...

FALCON: Fast Autonomous Aerial ExplorationUsing Coverage Path Guidance(覆盖路径引导的快速自主空中探索)

创新点:提出一种基于连接性的增量式空间分解和连接图构造方法,捕获环境拓扑并促进有效的探测覆盖路径规划提出一种分层的探索规划方法,生成合理的覆盖路径作为全局指导,并优化局部边界访问顺序,保持覆盖路径的意图。提…...

抢答器软件哪家强?五款抢答器软件全方位深度评测

在知识竞赛、企业培训、团队建设等活动中,一套高效、公平、稳定的抢答器软件是活动成功的关键。面对市场上琳琅满目的产品,如何选择成为许多组织者的难题。本文将从实际应用出发,对五款主流的抢答器软件进行深度评测,涵盖功能、性…...

驱动模块的加载与卸载机制

昨天调板子又遇到个怪事:insmod加载驱动一切正常,但rmmod死活卸载不掉,内核日志里只留下一行“Device or resource busy”。查了半小时才发现,原来是有个用户态进程没关,一直占着驱动文件。这种问题在嵌入式开发里太常…...

AI技术原理--AI Token是什么:10分钟搞懂大模型基础单位

当你在ChatGPT里输入"你好,今天天气怎么样"的时候,你以为它真的读懂你的话吗? 并不是。 在你看不到的地方,有一个叫"分词器"的程序,正在把你的文字拆解成一个一个叫"Token"的单元。 …...

【研报280】汽车轻量化材料研究报告:改性塑料的应用趋势

本报告提供限时下载,请查看文后提示以下仅为报告部分内容:摘要:政策与新能源汽车需求双重驱动下,汽车轻量化成为行业核心发展方向,2026年国内将实施新的乘用车碳排放国标,叠加新能源汽车普遍重于燃油车&…...

Delphi经典8大天坑|第五篇:ShortString与String混用,导致字符串截断/乱码

一、现象描述项目中同时使用ShortString和string两种字符串类型,赋值时出现字符串被莫名截断(超过255字符的部分丢失),或出现乱码,尤其是在Delphi D7及以下版本中,问题更常见。典型场景:将一个长…...

强强联合:在快马平台用AI模型驱动你的下一代智能agent应用

最近在尝试用AI辅助开发时,发现了一个特别有意思的方向——智能agent框架。这类框架就像是AI应用的"骨架",而平台内置的AI模型则为其注入了"灵魂"。今天想分享下在InsCode(快马)平台上实现的一个创作辅助agent,整个过程让…...

3步构建数字记忆堡垒:开源工具GetQzonehistory数据留存全攻略

3步构建数字记忆堡垒:开源工具GetQzonehistory数据留存全攻略 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字时代,我们的生活轨迹日益依赖在线平台&#…...

实例 9:液体压强探究

实例 9:液体压强探究 功能介绍: 模拟U形管压强计探究液体内部压强规律。学生将探头放入液体不同深度,观察U形管高度差变化;更换不同密度的液体(水、盐水、酒精),对比压强大小。应用清晰展示“液体压强随深度增加而增大”及“液体压强与液体密度有关”的规律,并可计算具…...

**用Python实现高效分子结构建模与能量计算:从零开始构建你的计算化学工具链**在现代计算化学中,**Python已成

用Python实现高效分子结构建模与能量计算:从零开始构建你的计算化学工具链 在现代计算化学中,Python已成为科研人员首选的编程语言之一,它不仅语法简洁、生态丰富,还具备强大的科学计算能力。本文将带你一步步搭建一个基于Python的…...

双臂机器人piper_ros

1.piper gazebo仿真启动gazebo终端1:cd piper_ros source devel/setup.bash roslaunch piper_gazebo piper_gazebo.launch #有夹爪roslaunch piper_gazebo piper_no_gripper_gazebo.launch #无夹爪启动rviz终端2:cd ~/piper_ros source devel/setup.bash…...

OpenClaw 实用指南-节假日系统巡检全自动化(下)

前言 在上一篇文章中,我们已详细讲解了节假日系统巡检全自动化的前三个核心部分,分别是:Part1:AI节假日智能判断、Part2:目标服务器稳定连接、Part3:借助“小龙虾”工具批量部署软件,并利用部署…...

lvgl_v8之设置label背景颜色一种方式

void lv_label_demo() {static lv_style_t style;lv_style_init(&style);lv_style_set_radius...

Chrome for Testing 终极配置指南:5个实战技巧让浏览器自动化测试更高效

Chrome for Testing 终极配置指南:5个实战技巧让浏览器自动化测试更高效 【免费下载链接】chrome-for-testing 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-for-testing Chrome for Testing 是 GoogleChromeLabs 团队专门为浏览器自动化测试设计的…...

向量数据库:大模型的高效外存

一、 向量数据库概述:AI大模型的“外部记忆体” 向量数据库是一种专门用于存储、索引和查询**向量嵌入(Vector Embedding)**的数据库系统。在大模型时代,它扮演着至关重要的“外部记忆体”角色,其核心价值在于解决大模…...

2024IEEE 《基于二次规划的安全关键型多智能体系统的控制》四旋翼 无人机 MATLAB

2024IEEE 《基于二次规划的安全关键型多智能体系统的控制》四旋翼 无人机 MATLAB 代码复现(文献代码)协同控制 规划 无人机 研究了基于二次规划的安全关键型多智能体系统的控制问题。 每个被控智能体被建模为一个积分器和一个不确定非线性驱动系统的级联…...

基于Comsol的钢筋混凝土腐蚀开裂力学-化学耦合相场模型

基于Comsol的钢筋混凝土腐蚀开裂的力学-化学耦合相场模型 钢筋混凝土腐蚀开裂的力学-化学耦合相场模型,采用多场耦合有限元软件Comsol建模,方便易懂。 相场模型能够准确模拟钢筋混凝土的腐蚀诱导开裂行为。 (附源文件和参考论文)钢…...

BES-XGBoost多变量时间序列预测的‘秃鹰搜索优化算法‘与交叉验证抑制过拟合问题的Mat...

基于秃鹰搜索优化算法优化XGBoost(BES-XGBoost)的多变量时间序列预测 BES-XGBoost多变量时间序列 采用交叉验证抑制过拟合问题 优化参数为迭代次数、最大深度和学习率 matlab代码,注:暂无Matlab版本要求 -- 推荐 2016B 版本及以上 注:采用 XG…...

nlp_gte_sentence-embedding_chinese-large模型在嵌入式Linux系统上的优化部署

nlp_gte_sentence-embedding_chinese-large模型在嵌入式Linux系统上的优化部署 1. 引言 在智能硬件和边缘计算快速发展的今天,越来越多的设备需要在本地运行AI模型。对于嵌入式Linux系统来说,如何在资源受限的环境下高效部署大型文本表示模型&#xff…...

Pixel Aurora Engine应用场景:复古游戏机主题网站AI生成视觉系统集成

Pixel Aurora Engine应用场景:复古游戏机主题网站AI生成视觉系统集成 1. 项目背景与核心价值 Pixel Aurora Engine(像素极光引擎)是一款专为复古游戏风格设计的AI视觉生成系统。它巧妙地将现代AI技术与怀旧像素美学相结合,为网站…...

AI辅助开发:让快马AI理解并生成ccswitch工具的核心逻辑与UI管理代码

AI辅助开发:让快马AI理解并生成ccswitch工具的核心逻辑与UI管理代码 最近在开发一个网络切换工具ccswitch时,发现AI辅助开发能大幅提升效率。通过InsCode(快马)平台集成的AI模型,可以用自然语言描述需求,就能自动生成核心功能代码…...

OpenMS实战指南:如何用开源工具解决质谱数据分析三大难题

OpenMS实战指南:如何用开源工具解决质谱数据分析三大难题 【免费下载链接】OpenMS The codebase of the OpenMS project 项目地址: https://gitcode.com/gh_mirrors/op/OpenMS 你是否正在为复杂的质谱数据分析而烦恼?面对海量的LC-MS数据&#xf…...

FIFA 23 Live Editor终极指南:10分钟掌握实时游戏修改技巧

FIFA 23 Live Editor终极指南:10分钟掌握实时游戏修改技巧 【免费下载链接】FIFA-23-Live-Editor FIFA 23 Live Editor 项目地址: https://gitcode.com/gh_mirrors/fi/FIFA-23-Live-Editor FIFA 23 Live Editor 是一款专为FIFA 23玩家设计的革命性实时编辑工…...

操作系统与数据库系统的核心知识点,属于计算机科学与技术专业(尤其是考研408统考或相关课程)的重点复习提纲

操作系统与数据库系统的核心知识点,属于计算机科学与技术专业(尤其是考研408统考或相关课程)的重点复习提纲。以下是对各部分的简明梳理与关键点说明: ✅ 死锁处理 预防:破坏死锁四个必要条件之一(互斥、占…...