当前位置：首页 > news >正文

机器人操作规划——Deep Visual Foresight for Planning Robot Motion（2017 ICRA）

news 2026/2/9 12:54:13

1 简介

model-based RL方法，预测Action对图像的变化，以push任务进行研究。

采用完全自监督的学习方式，不需要相机标定、3D模型、深度图像和物理仿真。

在这里插入图片描述

2 数据集

采用几百个物体、10个7dof机械臂采集了包括5万个push attempts的数据集。

每个push有以下步骤：

在bin的边缘上随机选择一个起始gripper位姿
以5Hz频率循环迭代以下步骤episodes次：
- 随机选择一个新的target gripper pose：末端的3D坐标和pitch、yaw旋转（roll固定）
- 移动gripper到该pose
- 机器人以10Hz记录当前gripper pose、target gripper pose、RGB图像

3 预测网络

预测模型输入：当前和上一个的图像、当前和上一个的gripper pose、未来的action序列（序列长度是超参数）

使用图像和gripper pose对的原因是，允许模型估计物体的速度。

预测模型输出：在当前状态施加action后的图像（网络一次输出一张图像，将该输出图像再作为输入，循环输出多张图像）。

网络架构：以卷积LSTM为核心，masks指定了物体像素的当前位置，归一化卷积核mc提供了物体运动的相对位置权重，以此计算输出图像中每个像素的值与输入图像同位置像素周围边长为2K的区域内所有像素的关系权重flow map，基于该map与输入图像得到输出图像。（如果物体被其他物体压住，像素目标位置丢失，方法效果会如何？）

网络详细介绍参考作者另一篇论文：Unsupervised Learning for Physical Interaction through Video Prediction

在这里插入图片描述

4 基于预测模型的视觉MPC

MPC：Model-Predictive Control

包括三部分：如何通过图像指定任务goal、验证action、使用MPC进行规划和重规划。

4.1 使用像素运动指定goals

通过指定图像中物体上的起始像素，及该像素的goal位置。

只能用于push这种平面操作任务。

4.2 使用隐式像素对流验证action

给定图像中一个起始像素点位置和一个目标像素点位置，计算经过H步action之后，网络预测的起始像素点运动后的位置是否与目标像素位置一致，如果一致，成功率为1，否则为0。

对于多个像素点，分别计算成功率并求和。

还需要采样Action序列，下一节介绍。

4.3 基于采样和深度模型的MPC

采用cross-entropy方法，在每个时间步t的短期horizon内进行优化。使用一个光流求解器来跟踪像素点的变化。

详细算法看论文：

在这里插入图片描述

5 实验

构建实验来回答两个问题：

能否使用基于action的预测模型来操作训练中未见过的新物体？
仅从原始像素上训练的模型能否对实际物体产生有意义的推理？

测试时， $H = 3$ 、 $T = 15$ ，且在 $H$ 时间步内action保持不变，即每次采样的action序列其实是相同的H个action。

5.1 量化对比

对比了三个baselines：

均匀采样action，随机移动
移动gripper到目标像素位置（需要手眼标定）
从当前像素位置移动到目标像素位置，随着像素位置变化进行重新规划，使用光流求解器跟踪像素位置变化（需要手眼标定）

结果如下图，没感觉本文方法比baseline3好多少

在这里插入图片描述

5.2 定性结果

测试方法能否进行复杂操作，需要推理物体旋转和重心。

该方法在机械臂挡住物体时会失败。

6 讨论和未来计划

作者任务提高预测模型的精度能有效提高操作任务的复杂程度，本人不敢苟同，不管预测精度高不高，基于图像的方法在本质上就不能用于3D复杂操作和克服遮挡情况。

7 方法缺陷

由于采用预测像素位置变化的方式操作物体，因此必须要求物体不能被遮挡（部分遮挡或完全遮挡），而且无法预测物体的3D运动。
通过采样和交叉熵的方式获取最优的Action序列，使得该方法无法处理无法的操作任务，因为那将使采样数量呈指数上升。
以图像为单一媒介，无法进行精确的物体操作。

机器人操作规划——Deep Visual Foresight for Planning Robot Motion（2017 ICRA）

1 简介 model-based RL方法，预测Action对图像的变化，以push任务进行研究。采用完全自监督的学习方式，不需要相机标定、3D模型、深度图像和物理仿真。 2 数据集采用几百个物体、10个7dof机械臂采集了包括5万个push attempts的数据集。每…...

编程日记 2023/2/16 23:50:03

go 连接redis集群

最近用redis shake做redis数据迁移，由于redis提供的客户端没有用于查看集群的工具，且我部署的redis集群是基于k8s来构建的，没有使用ingress做转发，所以只能在k8s内部访问集群，于是我先用gogin框架编写了访问redis集群的…...

编程日记 2023/2/16 23:48:54

LeetCode 146. LRU 缓存

原题链接难度：middle\color{orange}{middle}middle 题目描述请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCacheLRUCacheLRUCache 类： LRUCache(intcapacity)LRUCache(int capacity)LRUCache(intcapacity) 以正整数 …...

编程日记 2023/2/16 23:47:45

【mac】在m2 mbp上通过Parallels Desktop安装ubuntu22.04

文章目录前言一、参考文章二、版本信息三、方法1:通过ubuntu官网提供的iso安装3.1 配置服务器3.2 安装图形界面四、方法2:通过Parallels Desktop提供的安装包五、小工具5.1 调整应用栏图标大小5.2 ubuntu获取mac的剪切板5.3 调整terminal字体大小5.4 安装samba5.5 ubuntu连接m…...

编程日记 2023/2/16 23:46:38

C++类和对象,初见类

坚持看完，结尾有思维导图总结这里写目录标题C语言和 C 的区别类的定义类的初认识类的内容访问限定符类的作用域类的实例化类中的 this 指针总结C语言和 C 的区别 C 的祖师爷除了在 C语言的基础上化简了一些复杂操作更为重要的是，两个语言实现的过程是…...

编程日记 2023/2/16 23:45:30

Redis常用数据结构及应用场景

1.总体结构 Redis中的数据，总体上是键值对，不同数据类型指的是键值对中值的类型。 2.string类型 Redis中最基本的类型，它是key对应的一个单一值。二进制安全，不必担心由于编码等问题导致二进制数据变化。所以redis的string可以…...

编程日记 2023/2/16 23:44:19

C++虚继承内存布局

C菱形继承内存布局编译器：Visual Studio 2019 关于如何查看内存布局 B class B { public:B(): _ib(10), _cb(B){cout << "B()" << endl;}B(int ib, char cb): _ib(ib), _cb(cb){cout << "B(int,char)" << endl;}vi…...

编程日记 2023/2/16 23:43:09

IO模型--从BIO、NIO、AIO到内核select、poll、epoll剖析

IO基本概述 IO的分类 IO以不同的维度划分，可以被分为多种类型；从工作层面划分成磁盘IO（本地IO）和网络IO； 也从工作模式上划分：BIO、NIO、AIO；从工作性质上分为阻塞式IO与非阻塞式IO&#xff1b…...

编程日记 2023/2/16 23:42:01

Zebec完成BNB Chain以及Near链上协议部署，多链化进程加速

从去年开始，Zebec 就开始以多链的形式来拓展自身的流支付生态，一方面向更多的区块链系统拓展自身流支付协议，即从Solana上向EVM链上对协议与通证等进行迁移与拓展。目前基本完成了在BNB Chain以及Near上的合约部署，且能够在这些EV…...

编程日记 2023/2/16 23:40:54

wpscan常见的使用方法

目录简单介绍暴力破解信息收集指定用户爆破命令集合简单介绍 Wordpress是一个以PHP和MySQL为平台的免费自由开源的博客软件和内容管理系统。 WPScan是Kali Linux默认自带的一款漏洞扫描工具，它采用Ruby编写，能够扫描WordPress网站中的多种安…...

编程日记 2023/2/16 23:39:45

Tree 底层源码实现（二叉树、递归、迭代）

树（Tree）是一种非线性数据结构，由一组节点和它们之间的边组成。在树中，每个节点都有零个或多个子节点，除了根节点外，每个节点都有且仅有一个父节点。树可以被用于许多应用程序，如文件系统、XML文…...

编程日记 2023/2/16 23:38:36

家政服务小程序实战教程13-接入客服

小程序在微信里使用，以其无需安装随用随走为特点。但是有个问题是，如果提供商品或者服务的，用户如果有问题往往希望平台的运营方给出专业的解答。为了满足这类需求，就需要我们提供客服接入的功能，用户可以点击客服图标…...

编程日记 2023/2/16 23:37:29

大白话高并发（三）

背景高并发得第三篇，讲一讲压测吧，因为我的目的是模拟100万人同时来秒杀。是不是真的要找100万个人没必要 ，你就算100万人掐着表在同一毫秒内把请求请求某一台机器，服务器也不可能在同一时间处理那么多请求，因为…...

编程日记 2023/2/16 23:36:19

vue全家桶（四）前端工程化

vue全家桶（四）前端工程化1.模块化的相关规范1.1模块化概述1.2模块化的分类A.浏览器端的模块化B.服务器端的模块化C.ES6模块化1.2.1 Node.js中通过bable体验ES6模块化1.2.2 ES6模块化的基本语法1.2.2.1 默认导出与默认导入1.2.2.2 按需导出与按需导入1.2.…...

编程日记 2023/2/16 23:35:09

超螺旋滑模控制(STA)

超螺旋滑模控制(Super Twisting Algorithm, STA) 超螺旋滑模控制又称超扭滑模控制，可以说是二阶系统中最好用的滑模控制方法。系统模型对于二阶系统可以建立具有标准柯西形式的微分方程组 {x˙1x2x˙2fg⋅u\begin{cases} \dot x_1 x_2 \\ \dot x_2 f g \cdo…...

编程日记 2023/2/16 23:33:57

NX二次开发编译时dll自动数字签名及拷贝

前言在UG5.0开始，所有基于UG二次开发的DLL都要“签名”后才能被客户端上正版的NX调用。一、基于C# 开发签名 1、添加资源文件 （1）项目类库上右键–>属性–>资源–>添加资源右边小三角–>添加现有文件–>切换到UG安装目录下…...

编程日记 2023/2/16 23:32:51

教你如何搭建人事OA-薪资管理系统，demo可分享

1、简介1.1、案例简介本文将介绍，如何搭建人事OA-薪资管理。1.2、应用场景根据设置薪资基础及考勤和绩效的数据计算得到各个员工工资详情。2、设置方法2.1、表单搭建1）新建表单【工资表】，字段设置如下；名称类型名称类型人员资料分…...

编程日记 2023/2/16 23:31:42

ChIP-seq 分析：Mapped 数据可视化（4）

1. Mapped reads 现在我们有了 BAM 文件的索引，我们可以使用 idxstatsBam() 函数检索和绘制映射读取的数量。 mappedReads <- idxstatsBam("SR_Myc_Mel_rep1.bam")TotalMapped <- sum(mappedReads[, "mapped"])ggplot(mappedReads, aes(x…...

编程日记 2023/2/16 23:30:35

Jenkins 基于Kubernetes 弹性构建池

流程：创建Jenkins Agent；获取Jenkins Agent的参数；渲染yaml模板；调用K8s API在固定的NS中创建一个Pod；运行Jenkins pipeline到agent；创建Agentimport hudson.model.Node.Mode import hudson.slaves.* impor…...

编程日记 2023/2/16 23:29:28

经典算法题---链表奇偶重排(好题)双指针系列

我听别人说这世界上有一种鸟是没有脚的，它只能够一直的飞呀飞呀，飞累了就在风里面睡觉，这种鸟一辈子只能下地一次，那一次就是它死亡的时候。——《阿甘正传》这一文章讲解链表的奇偶排序问题，这是一道不难但是挺好的链…...

编程日记 2023/2/16 23:28:19

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

（二）原型模式

原型的功能是将一个已经存在的对象作为源目标，其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。一、源型模式的定义原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现，忽略对象创建过程中的其它细节。 📌 核心特点：避免重复初…...

编程新知 2026/2/7 10:59:04

拉力测试cuda pytorch 把 4070显卡拉满

import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试，通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小，增大可提高计算复杂度duration: 测试持续时间（秒&…...

编程新知 2025/12/7 12:35:20

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

在自然语言处理（NLP）领域，我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感，还是实现语言的翻译，都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心，而循环神经网络（RNN）曾被视为…...

编程新知 2026/2/1 7:05:28

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/9/24 13:35:36

Visual Studio Code 扩展 change-case 大小写转换EmmyLua for VSCode 调试插件Bookmarks 书签 change-case 大小写转换 https://marketplace.visualstudio.com/items?itemNamewmaurer.change-case 选中单词后，命令 changeCase.commands 可预览转换效果 EmmyLua…...

编程新知 2026/1/21 17:44:45