当前位置：首页 > article >正文

openpi π₀ 训练与推理矩阵维度详解

article 2026/3/17 1:28:04

1. 关键维度参数┌─────────────────────────────────────────────────────────────────────────────────┐ │ 关键维度参数 │ ├─────────────────────────────────────────────────────────────────────────────────┤ │ │ │ 【输入相关】 │ │ B = batch_size = 32 # 批次大小 │ │ H = W = 224 # 图像分辨率 │ │ C = 3 # RGB 通道 │ │ num_images = 3 # 相机数量 (base, left_wrist, right_wrist)│ │ L = max_token_len = 200 # 语言最大 token 数 │ │ state_dim = 8 # 状态维度 (DROID: 7关节+1夹爪) │ │ │ │ 【动作相关】 │ │ action_horizon = 15 # 预测未来步数 │ │ action_dim = 32 # 每步动作维度 │ │ │ │ 【SigLIP 视觉编码器】 │ │ patch_size = 14 # patch 大小 │ │ num_patches = (224/14)² = 256 # 每张图的 patch 数 │ │ vision_dim = 1152 # SigLIP 隐藏维度 │ │ │ │ 【PaliGemma (Gemma 2B)】 │ │ pali_width = 2048 # 隐藏维度 │ │ pali_depth = 18 # Transformer 层数 │ │ pali_heads = 8 # 注意力头数 │ │ pali_head_dim = 256 # 每头维度 │ │ pali_mlp_dim = 16384 # FFN 维度 │ │ │ │ 【Action Expert (Gemma 300M)】 │ │ expert_width = 1024 # 隐藏维度 │ │ expert_depth = 18 # Transformer 层数 │ │ expert_heads = 8 # 注意力头数 │ │ expert_head_dim = 256 # 每头维度 │ │ expert_mlp_dim = 4096 # FFN 维度 │ │ │ └─────────────────────────────────────────────────────────────────────────────────┘2. 训练过程 - 矩阵维度流转STEP 1: 输入数据输入 batch: ├── images: │ ├── base_0_rgb: [B, H, W, C] = [32, 224, 224, 3] float32, 值域[-1,1] │ ├── left_wrist_0_rgb: [B, H, W, C] = [32, 224, 224, 3] │ └── right_wrist_0_rgb: [B, H, W, C] = [32, 224, 224, 3] ├── image_masks: │ ├── base_0_rgb: [B] = [32] bool │ ├── left_wrist_0_rgb: [B] = [32] │ └── right_wrist_0_rgb: [B] = [32] ├── state: [B, state_dim] = [32, 8] float32 ├── tokenized_prompt: [B, L] = [32, 200] int32 ├── tokenized_prompt_mask: [B, L] = [32, 200] bool └── actions (真实动作): [B, action_horizon, action_dim] = [32, 15, 32] float32STEP 2: 采样噪声和时间noise = random.normal(shape=actions.shape) = [B, action_horizon, action_dim] = [32, 15, 32] float32 time = random.beta(a=1.5, b=1, shape=[B]) = [32] float32, 值域(0,1) time_expanded = time[..., None, None] = [32, 1, 1] 用于广播STEP 3: 计算插值点 x_t 和目标向量场 u_tx_t = time_expanded * noise + (1 - time_expanded) * actions

openpi π₀ 训练与推理矩阵维度详解

相关文章：

openpi π₀ 训练与推理矩阵维度详解

OpenCode工具

手把手拆解：一个连接Windows与Linux的AI视频生成Gradio Web应用

Z-Image-Turbo-辉夜巫女服务监控与维护：基础运维命令与日志分析

OpCore Simplify：自动化配置黑苹果系统部署的创新方法——从配置困境到高效部署的转变

DeepSeek-R1-Distill-Qwen-7B实战：Ollama轻松部署，体验媲美OpenAI o1的推理能力

5分钟搞定AI生成PPT：DeepSeek+Markdown+Kimi全流程保姆级教程

告别塑料感！Nunchaku FLUX.1 CustomV3新手入门：轻松生成带真实毛孔和发丝的人像

DeOldify快速上手指南：10分钟完成服务启动→上传→上色→保存全流程

MongoDB连接失败？5分钟搞定‘serverSelectionTimeoutlS‘报错（附详细排查步骤）

FlowState Lab 时空波动仪快速部署教程：3步搭建Python开发环境

Qwen1.5-1.8B GPTQ创意应用：结合ComfyUI构建可视化AI工作流

ChatGPT国内镜像搭建指南：从零开始实现稳定访问

BGE-Reranker-v2-m3灾备方案：主备切换机制部署步骤详解

Cosmos-Reason1-7B部署教程：WSL2环境下Ubuntu 22.04 GPU驱动配置指南

Step3-VL-10B-Base进阶：利用LaTeX编写包含模型公式的技术文档

Lingyuxiu MXJ LoRA多场景应用：游戏原画师人设草图→高清人像转化

量子程序员紧急预警：VSCode 2026插件已默认启用量子噪声建模沙箱（含Rigetti Aspen-M2/Quantinuum H2实测参数），你的本地模拟还准确吗？

AI绘画神器黑丝空姐-造相Z-Turbo：一键部署，简单操作出大片

Balena Etcher：从新手到专家的全流程镜像烧录解决方案

深入解析hostapd.conf：WiFi AP性能优化关键参数指南

GEE实战：利用MODIS数据高效计算与批量导出区域月度kNDVI

Win10系统IE11卸载后无法重装？3种实测有效的恢复方法（附详细步骤）

AI 终于有了“记忆操作系统“——MemOS 7100+ Star，让你的 OpenClaw 从此不再失忆

巴菲特-芒格的智慧城市安全投资：隐私保护与公共安全的平衡

华为云配置docker记录

DeOldify作品案例深度解析：如何为不同风格建筑照片智能上色

Qwen3-ASR-0.6B参数详解：模型结构简析+推理时显存占用与延迟实测数据

深入解析SerDes系统中的时钟数据恢复电路（CDR）——基于Cadence的PLL/Bang-Bang/PS-PI架构实现与仿真

立创开源：基于ESP32与POE供电的模块化有线智能家居解决方案全解析