当前位置：首页 > news >正文

O2O : Finetuning Offline World Models in the Real World

news 2026/2/9 22:36:25

CoRL 2023 Oral
paper
code

Intro

算法基于TD-MPC，利用离线数据训练世界模型，然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。

Method

在这里插入图片描述

TD-MPC

TD-MPC由五部分构成:

状态特征提取 $h_\theta(s)$
隐动力学模型 $z'`=d_\theta(z,a)$
奖励模型 $\hat{r}=R_\theta(z,a)$
planning policy $\hat{a}=\pi_\theta(z)$
终止状态下的 $\hat{q}=Q_\theta(z,a)$

通过联合训练进行优化，损失函数为：
$\mathcal{L}(\theta)=\mathbb{E}_{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})_{0:h}\sim\mathcal{B}}\left\lfloor\sum_{t=0}^{h}\left(\underbrace{\|\mathbf{z}_{t}^{\prime}-\mathrm{sg}(h_{\phi}(\mathbf{s}_{t}^{\prime}))\|_{2}^{2}}_{\text{Latent dynamics}}+\underbrace{\|\hat{r}_{t}-r_{t}\|_{2}^{2}}_{\text{Reward}}+\underbrace{\|\hat{q}_{t}-q_{t}\|_{2}^{2}}_{\text{Value}}-\underbrace{Q_{\theta}(\mathbf{z}_{t},\hat{\mathbf{a}}_{t})}_{\text{Action}}\right)\right\rfloor(1)$
在Offline 设定下，分布偏移将导致Q估计以及隐模型以及价值函数的错误估计。启发于IQL，通过只对in-sample的动作尽心TD-backups来估计，缓解过估计问题。因此对模型价值函数利用离线数据进行训练时，此时Q函数采用IQL中的期望回归方法优化
$\mathcal{L}_{V}(\theta)=|\tau-1_{\{Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t})<0\}}|(Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t}))^{2},$
同时对planning policy采用AWR的更新，即 $\exp(\beta(Q_\phi(\mathbf{z}_t,\mathbf{a}_t)-V_\theta(\hat{\mathbf{z}_t})))\log\pi_\theta(\mathbf{a}_t|\mathbf{z}_t)$

Uncertainty Estimation as Test-Time Behavior Regularizatio

离线训练的模型依旧存在OOD数据过估计，需要在线微调。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。planning一定程度缓解基于约束的离线算法导致的在现阶段探索能力不足。进而导致算法样本效率低的问题。

首先构建集成Q函数模型，计算基于标准差的不确信度，作为惩罚项对奖励进行调整，实现保守的在线planning。
$\hat{\mathcal{R}}=\gamma^{h}\left(Q_{\theta}(\mathbf{z}_{h},\mathbf{a}_{h})-\lambda u_{h}\right)+\sum_{t=0}^{h-1}\gamma^{t}\left(R_{\theta}(\mathbf{z}_{t},\mathbf{a}_{t})-\lambda u_{t}\right),\quad u_{t}=\mathrm{std}\left(\{Q_{\theta}^{(i)}(\mathbf{z}_{t},\mathbf{a}_{t})\}_{i=1}^{N}\right)$

除此外，还维护两个buffer分别存储离线数据于在线数据，通过balance sampling数据训练模型、策略以及价值函数。

结果

在这里插入图片描述

O2O : Finetuning Offline World Models in the Real World

Intro

Method

TD-MPC

Uncertainty Estimation as Test-Time Behavior Regularizatio

结果

相关文章：

O2O : Finetuning Offline World Models in the Real World

嵌入式学习（Day:31 网络编程2：TCP）

正则表达式 0.1v

免费的仓库出入库管理软件有哪些？

python 办公自动化-生成ppt文本和图

「动态规划」买卖股票的最佳时机

Java 并发编程面试二

成功解决“ModuleNotFoundError: No Module Named ‘utils’”错误的全面指南

Nvidia Jetson/Orin +FPGA+AI大算力边缘计算盒子:公路智能巡检解决方案

【Maxcompute】geohash转经纬度，经纬度转geohash，计算geohash九宫格

【R语言基础】如何更新R版本

Python知识点10---函数

有哪些挣钱软件一天能赚几十元？盘点十个能长期做下去的挣钱软件

CentOS7安装MySQL教程

师彼长技以助己（3）逻辑思维

LeetCode：反转链表I

oracle linux7安装oracle11g0204

STM32--ADC

【TB作品】msp430f149单片机，读取ds18b20温度，显示到数码管，串口发送温度到电脑

vue组合式和选项式

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

【人工智能】神经网络的优化器optimizer（二）：Adagrad自适应学习率优化器

SciencePlots——绘制论文中的图片

如何在看板中有效管理突发紧急任务

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

MySQL 8.0 OCP 英文题库解析（十三）

AspectJ 在 Android 中的完整使用指南

dify打造数据可视化图表

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

【MATLAB代码】基于最大相关熵准则（MCC）的三维鲁棒卡尔曼滤波算法（MCC-KF），附源代码|订阅专栏后可直接查看