当前位置：首页 > news >正文

[论文阅读]Constrained Decision Transformer for Offline Safe Reinforcement Learning

news 2026/2/10 12:48:26

Constrained Decision Transformer for Offline Safe Reinforcement Learning

Proceedings of the 40th International Conference on Machine Learning (ICML), July 23-29, 2023

https://arxiv.org/abs/2302.07351

泛读只需要了解其核心思想即可。

安全强化学习(Safe Reinforcement Learning,Safe RL)通过与环境进行交互来训练满足约束条件的策略。我们旨在解决一个更具挑战性的问题: 从离线数据集中学习安全策略。我们从一个新的多目标优化的角度去研究离线安全强化学习这个问题,并提出了 ε-reducible(翻译为差值可约性)的概念来表征问题的难度。安全性和任务性能之间的内在权衡启发我们提出了约束决策 Transformer(Constrained Decision Transformer,CDT)方法,该方法可以在部署期间动态调整这些权衡。大量实验表明了该方法在学习自适应、安全、鲁棒性和高奖励的策略方面所具有的优势。在相同的超参数条件下,CDT 在所有任务中均大幅超越了其变体和强大的离线安全强化学习基线,同时保持了对不同的约束阈值的零样本(zero-shot)自适应能力,使得我们的方法更适合于有约束的现实世界强化学习。

贡献：

我们从一个新的多目标优化(MOO)的视角研究了多于单个预定义约束阈值的离线安全强化学习问题。这些见解揭示了现有的离线安全强化学习训练模式的局限性,并激发我们通过利用 Transformer 的回报条件序列建模能力来提出 CDT 这个方法。
我们在 CDT 中提出了三项关键技术,这些技术对于学习自适应和安全的策略来说是至关重要的。据我们所知,CDT 是第一个成功的离线安全强化学习方法,能够实现在训练后对不同安全要求的零样本自适应,而且无需解决约束优化问题。
大量实验表明,CDT 在安全性和任务性能方面均远远优于基线方法及其变体。CDT 能够在不重新训练策略的情况下适应不同的代价阈值,而所有以前的方法都做不到这一点。

安全强化学习的目标是找到一个策略，使其在最大化奖励回报的同时，将由于违反约束而产生的代价回报控制在阈值 K 之内（安全+奖励机制的强化学习）

离线安全强化学习：从预先收集的静态数据集中以离线的方式去学习满足安全约束且能够最大化奖励的策略，本质上来说就是将安全约束条件集成到离线强化学习中。现有的离线安全强化学习方法通常要求在训练前设置一个固定的约束阈值，使得训练后的智能体必须重新进行训练才能适应其他约束条件

动机与目标

[论文阅读]Constrained Decision Transformer for Offline Safe Reinforcement Learning

Constrained Decision Transformer for Offline Safe Reinforcement Learning Proceedings of the 40th International Conference on Machine Learning (ICML), July 23-29, 2023 https://arxiv.org/abs/2302.07351 泛读只需要了解其核心思想即可。安全强化学习(Safe Rei…...

编程日记 2024/10/28 21:25:05

工具_Nginx

文章目录 location语法介绍跨域配置https配置http重定向到https配置反向代理配置负载均衡配置upstream配置负载均衡算法（1）rr轮询（默认）（2）wrr加权轮询（weight）（3&#x…...

编程日记 2024/10/28 21:23:02

web开发Model1

WEB开发模式–Model 1 Model1是指基于JSPJavaBean的开发模式，JSP负责web的相关部分，包括数据的展示，请求逻辑的控制等，JavaBean负责业务的逻辑部分，包括数据的存取，业务的实现。这是我写的一个小项目&…...

编程日记 2024/10/28 21:21:00

ImportError: cannot import name ‘Sequential‘ from ‘keras.models‘

报错信息 ImportError: cannot import name Sequential from keras.models错误代码示例 import tensorflow as tf from keras.models import Sequential # 报错行model Sequential()错误分析这个错误通常发生在 TensorFlow 和 Keras 的版本不兼容时。TensorFlow 2.x 版本…...

编程日记 2024/10/28 21:19:59

python实战（二）——房屋价格回归建模

一、任务背景本章将使用一个经典的Kaggle数据集——House Prices - Advanced Regression Techniques进行回归建模的讲解。这是一个房价数据集，与我们熟知的波士顿房价数据集类似，但是特征数量要更多，数据也要更为复杂一些。下面，…...

编程日记 2024/10/28 21:18:58

UHF机械高频头的知识和待学习的疑问

电路图如上所示： 实物开盖清晰图如下： 待学习和弄懂的知识： 这是一个四腔的短路线谐振。分别是输入调谐，放大调谐，变频调谐和本振第一个原理图输入为75欧（应该是面向有同轴线的天线了）如下图…...

编程日记 2024/10/28 21:17:57

深入理解 SQL 中的 WITH AS 语法

在日常数据库操作中，SQL 语句的复杂性往往会影响到查询的可读性和维护性。为了解决这个问题，Oracle 提供了 WITH AS 语法，这一功能可以极大地简化复杂查询，提升代码的清晰度。本文将详细介绍 WITH AS 的基本用法、优势以及一些实际…...

编程日记 2024/10/28 21:14:54

同三维T80005JEHA-4K60 4K60超高清HDMI/AV解码器

1路HDMI1路CVBS1路3.5音频输出，HDMI支持4K60，支持1路4K60解码，1路高清转码产品简介： T80005JEHA-4K60是一款4K60超高清解码器，支持1路HDMI/CVBS解码输出，HDMI支持4K60，适用于各种音视频解决方…...

编程日记 2024/10/28 21:13:53

深信服秋季新品重磅发布：安全GPT4.0数据安全大模型与分布式存储EDS新版本520，助力数字化更简单、更安全

10月23日，深信服举办2024秋季新品发布会。发布会上，深信服正式推出了最新的创新成果：实现动静态数据分类分级和数据风险自动研判分析的安全GPT4.0、具备卓越可靠性和AI勒索防护能力的分布式存储EDS新版本520。通过这些新品和能力，…...

编程日记 2024/10/28 21:12:52

Flutter图片控件（七）

1、加载图片 import package:flutter/material.dart;void main() {runApp(const MaterialApp(home: MyHomePage(),)); }class MyHomePage extends StatelessWidget {const MyHomePage({super.key});overrideWidget build(BuildContext context) {return Scaffold(appBar: AppB…...

编程日记 2024/10/28 21:09:49

JavaEE初阶---文件IO总结

文章目录 1.文件初识2.java针对于文件的操作2.1文件系统的操作---file类2.2文件内容的操作---流对象的分类2.4字符流的操作》文本文件2.4.1异常的说明2.4.2第一种文件内容的读取方式2.4.3第二种读取方式2.4.4close的方法的介绍2.4.5close的使用优化操作2.4.6内容的写入 2.3字节…...

编程日记 2024/10/28 21:08:48

10.28Python_pandas_csv

三、读取CSV文件 CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）； CSV 是一…...

编程日记 2024/10/28 21:06:45

数据处理与可视化：pandas 和 matplotlib 初体验（9/10）

数据处理与可视化：pandas 和 matplotlib 初体验（9/10） 介绍在如今的数据驱动时代，掌握数据处理与可视化是每个开发者和数据科学家不可或缺的技能。Python 拥有强大的数据处理库 pandas 和数据可视化库 matplotlib，它…...

编程日记 2024/10/28 21:05:41

鸿蒙学习总结

鸿蒙（HarmonyOS），做为国产自主研发设计的第一个操作系统，从开放测试以来一直备受关注。其纯血鸿蒙版（HarmonyOS NEXT）也于进日发布。过去的一段时间里，我站在一个移动开发者的角度对HarmonyOS进…...

编程日记 2024/10/28 21:02:36

如何修改文件创建时间？六个超简单修改方法介绍

怎么修改文件创建时间？在信息安全与隐私保护的领域里，每一个细节都可能成为泄露敏感信息的突破口。文件的创建时间，这个看似微不足道的数据点，实则可能蕴含着重要的时间线索，对于不希望被外界窥探其内容或来源的个人及…...

编程日记 2024/10/28 21:00:35

【MySQL 保姆级教学】内置函数（9）

内置函数 1. 日期函数1.1 日期函数的种类1.2 示例1.3 日期的转换 2. 字符串函数2.1 种类2.2 示例 3. 数学函数3.1 种类3.2 向上取整和向下取整3.3 示例 4. 其他函数4.1 查询当前用户/数据库4.2 ifnull(val1,val2)4.3 md5()函数4.4 password()函数 1. 日期函数 1.1 日期函数的种…...

编程日记 2024/10/28 20:59:33

华为大咖说丨如何通过反馈机制来不断优化大模型应用？

本文分享自时习知作者：袁泉（华为AI数据工程专家）全文约3015字，阅读约需8分钟大模型应用正式投入使用后，存在一个较为普遍的情况：在利用“大模型提升业务运营效率”的过程中，业务部门和IT团队…...

编程日记 2024/10/28 20:58:31

上海亚商投顾：沪指缩量震荡风电、传媒股集体走强

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪市场全天缩量震荡，三大指数集体收涨，北证50则跌超7%，超80只北交所个股跌逾…...

编程日记 2024/10/28 20:57:27

三磺酸-Cy3.5-羧酸在水相环境中表现良好，能够提高成像的清晰度和准确性

一、基本信息中文名称：三磺酸-Cy3.5-羧酸，水溶性Cy3.5 羧基英文名称：trisulfo-Cy3.5-carboxylic acid，trisulfo-Cy3.5-COOH，trisulfo-Cyanine3.5-COOH 分子式：C41H44N2NaO11S3- 分子量：85…...

编程日记 2024/10/28 20:55:19

国标GB28181视频平台EasyGBS国标GB28181软件实现无需插件的视频监控对讲和网页直播

在当今社会，视频监控已经成为公共安全、企业管理、智能城市建设等领域不可或缺的一部分。然而，由于不同厂家和平台之间的兼容性问题，视频监控系统的联网和整合面临巨大挑战。为了解决这个问题，国家制定了《公共安全视频监控联网系…...

编程日记 2024/10/28 20:53:16

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2026/1/30 22:07:56

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明：server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

编程新知 2026/1/23 4:15:03

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2026/2/4 12:43:08

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2026/1/9 14:53:35

服务器硬防的应用场景都有哪些？

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式，避免服务器受到各种恶意攻击和网络威胁，那么，服务器硬防通常都会应用在哪些场景当中呢？ 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

编程新知 2025/11/9 19:17:07

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2026/2/5 3:29:13

HarmonyOS运动开发：如何用mpchart绘制运动配速图表

##鸿蒙核心技术##运动开发##Sensor Service Kit（传感器服务）# 前言在运动类应用中，运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据，如配速、距离、卡路里消耗等，用户可以更清晰…...

编程新知 2026/2/2 7:49:59

[ACTF2020 新生赛]Include 1(php://filter伪协议)

题目做法启动靶机，点进去点进去查看URL，有 ?fileflag.php说明存在文件包含，原理是php://filter 协议当它与包含函数结合时，php://filter流会被当作php文件执行。用php://filter加编码，能让PHP把文件内容…...

编程新知 2026/1/30 2:28:32

【 java 虚拟机知识第一篇】

目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍内存模型主要分…...

编程新知 2026/1/31 8:12:12

相关文章：