当前位置：首页 > news >正文

基于扩散模型的，开源世界模型DIAMOND

news 2026/5/13 18:59:41

日内瓦大学、微软研究院和爱丁堡大学的研究人员联合开源了，基于扩散模型的世界模型—DIAMOND。

研究人员之所以选择扩散模型作为基础，是因为可以更好地捕捉视觉细节，同时具有建模复杂多模态分布的能力，以便在不同的环境下进行训练和细致的行为观察。

DIAMOND主要用于智能体训练、世界建模、多模态分布建模等多种强化学习应用。为了评估其性能，研究人员在Atari 100k上进行了综合测试。

结果显示，DIAMOND不仅在视觉复杂度高的环境中能够生成连贯且高质量的轨迹，还取得了平均为1.46的测试分数，在训练智能体方面非常强。

论文地址：https://arxiv.org/abs/2405.12399

Github地址：https://github.com/eloialonso/diamond

最近几年，强化学习在游戏、机器人控制和自动驾驶等领域得到了应用，但其样本、训练效率低的问题仍是扩大应用范围的关键难点。

为了克服这一困难 “世界模型”作为一种辅助工具应运而生，使智能体能够在模拟环境中学习规划、决策等拟人化思维。

但现有世界模型多依赖于序列化的离散潜变量，来模拟环境动态，这可能导致视觉细节的损失，而这些细节对于强化学习至关重要。所以，DIAMOND使用了一种基于扩散模型的创新架构，可以捕捉更丰富的视觉信息。

扩散模型

扩散模型是DIAMOND的核心模块，主要通过逆向学习噪声过程来生成高质量的视觉数据。这种模型与传统的基于离散潜在变量的方法有显著不同，因为它能够生成更加丰富和细致的视觉信息。

扩散模型不仅能生成数据，还构成了世界模型的基础，负责模拟环境的动态变化。这意味着，给定过去的观察和动作，DIAMOND能够预测未来的观察、奖励和终止状态。

DIAMOND通过扩散模型可以生成连续的潜在变量序列，这些序列捕捉了环境状态的细微变化。对于强化学习智能体来说至关重要，因为它们需要准确地理解环境的动态，才能制定有效的策略。

奖励模型

在强化学习中，智能体的行为是由环境提供的奖励信号来引导的，可预测智能体在执行特定动作后所获得的奖励。奖励模型使得智能体能够评估其行为，并据此调整其决策能力。

在DIAMOND中，奖励模型可以采用多种不同的形式，如神经网络或其他机器学习模型。这些模型通过学习大量的交互数据，能够捕捉到观察和动作与奖励之间的复杂映射关系。

终止模型

终止模型的作用是可以帮助智能体，识别何时一个任务已经完成或需要重新开始。例如，在自动驾驶的场景中，智能体需要知道何时到达了目的地。

终止模型的工作原理基于对智能体历史行为和观察的分析。它通过学习智能体与环境交互的数据来预测，何时结束当前执行的各种事件。

终止模型通常采用机器学习算法来实现，如决策树、逻辑回归或神经网络等。这些算法能够从历史数据中学习事件结束的模式，并据此进行预测。

例如，在一个游戏场景中，智能体需要再失去所有生命时来预测结束。而终止模型便能够识别导致游戏结束的行为和状态，并预测未来可能出现的类似情况。

本文素材来源DIAMOND论文，如有侵权请联系删除

END

基于扩散模型的，开源世界模型DIAMOND

日内瓦大学、微软研究院和爱丁堡大学的研究人员联合开源了，基于扩散模型的世界模型—DIAMOND。研究人员之所以选择扩散模型作为基础，是因为可以更好地捕捉视觉细节，同时具有建模复杂多模态分布的能力，以便在不同的环境下进行训练…...

编程日记 2024/5/30 9:00:11

【MySQL精通之路】InnoDB存储引擎

欢迎大家关注Innodb存储引擎专栏： http://t.csdnimg.cn/gEsSn 以下是innodb存储引擎相关所有的的知识点。 1.InnoDB简介 2.InnoDB与ACID模型 3.InnoDB多版本 4.InnoDB体系结构下图显示了构成InnoDB存储引擎体系结构的内存和磁盘结构。有关每个结构的信息&…...

编程日记 2024/5/30 8:59:10

【创作活动】探索 GPT-4o：下一代语言模型的技术革命

😄 19年之后由于某些原因断更了三年，23年重新扬帆起航，推出更多优质博文，希望大家多多支持～ 🌷 古之立大事者，不惟有超世之才，亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…...

编程日记 2024/5/30 8:56:06

【热门话题】Debian常用命令指南

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈｜ 炫酷HTML | JavaScript基础 💫个人格言: "如无必要，勿增实体" 文章目录 Debian常用命令指南引言1. 文件与目录操作lscdmkdirrmcpmv 2. 包管理aptdpkg 3.…...

编程日记 2024/5/30 8:53:04

人大金仓 KingBase查询死锁，释放死锁

人大金仓(kingbase)查询数据库死锁及释放 kingbase锁表排查以及释放锁总结下 -- 查询，可自己添加where条件 SELECT * FROM sys_stat_activity WHERE state ! idle AND wait_event_typeLock-- 结束进程 SELECT sys_terminate_backend(pid);...

编程日记 2024/5/30 8:51:01

C++高手进阶：Windows 模块加载的艺术与策略

前文我们讲到了怎么不依赖第三库，搭建自己的测试框架没有看的读者可以通过这个链接自行阅读： 👉👉👉 自力更生：0依赖三方库，手把手教你打造专属C测试框架作为项目开发来说，我们通常…...

编程日记 2024/5/30 8:49:59

基于STM32单片机老人体温心率血氧跌倒定位短信报警

一.硬件及设计功能以STM32F103C8T6为中央处理器，GPS模块用采集数据，将数据发送给单片机后，单片机根据定位计算公式得出当前位置的经纬度信息和时间信息。经过LCD显示器处理后得出和时间信息SIM800模块发送短信到设定的手机号上，将…...

编程日记 2024/5/30 8:48:58

【测评】雨云香港三区云服务器，2核2G 5兆，仅需38元/月

写在前面雨云香港三区云服务器，高性能的 AMD EPYC 处理器企业级 NVME SSD 高性能云服务器。2核2G 10兆 400G防御，仅需38元/月，年付7折仅 319.2元/年。官网：https://www.rainyun.com 本次测评服务器配置如下： C…...

编程日记 2024/5/30 8:47:57

如何应对Android面试官 -＞玩转 Fragment

前言本章主要讲解下 Framgent 的核心原理； 基础用法线上基础用法，其他的可以自行百度 FragmentManager manager getSupportFragmentManager(); FragmentTransaction transaction manager.beginTransaction(); transaction.add(R.id.contentlayout,…...

编程日记 2024/5/30 8:45:55

sdbusplus：通过文件描述符传递数据

有的时候需要传递大量的数据，如果将数据通过dbus传递，会消耗大量的带宽。可以通过传递一个文件描述符替代传递数据：以下的service通过文件描述符接收数据： //fd_service.cpp #include <sdbusplus/asio/connection.hpp> #include <sdbusplus/asio/object_server…...

编程日记 2024/5/30 8:44:54

Linux 之前安装了python3 apt install python3.8-venv cd /root python3 -m venv HyperLPR3 REM cd HyperLPR3 source HyperLPR3/bin/activate 参考 https://www.jb51.net/article/222885.htm python -m pip install hyperlpr3 里面有fastapi，opencv等错误&#x…...

编程日记 2024/5/30 8:42:52

面试的内容

1.C的三大特性：封装，继承，多态 2.C11的特性 3.NULL与Nullptr的区别: nullptr是一个特殊的空指针常量，不能被隐式转换为其他类型。 NULL 在一些情况下可能会发生隐式类型转换 4.智能指针 5.stl/Qt stl stl容器包含哪些&…...

编程日记 2024/5/30 8:40:47

剪映网页版

https://www.capcut.cn/web 免费，免安装，跨平台，视频云合成，简直太好用了！...

编程日记 2024/5/30 8:39:46

pgsql

创建分区表： PostgreSQL分区表_pg分区表-CSDN博客创建list分区的函数 create or replace function create_list_fq(tb_name char, row_name char) returns int AS $$ declares char; beginraise notice CREATE TABLE if not exists %_% PARTITION OF % FOR VALU…...

编程日记 2024/5/30 8:38:44

Kotlin学习笔记泛型

在 Kotlin 中，T 通常用作类型参数的占位符，它在实例化或传递参数时会被替换成具体的类型。 Kotlin 支持泛型，这意味着您可以编写可以与多种数据类型一起工作的代码，而不必为每种数据类型编写单独的代码。 ### 泛型类和函数在 …...

编程日记 2024/5/30 8:34:37

开发者必看：Linux终端的10大装逼神器，让你的命令行炫酷起来！

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:「stormsha的主页」…...

编程日记 2024/5/30 8:33:36

20 VUE学习：插件

介绍插件 (Plugins) 是一种能为 Vue 添加全局功能的工具代码。下面是如何安装一个插件的示例： import { createApp } from vueconst app createApp({})app.use(myPlugin, {/* 可选的选项 */ })一个插件可以是一个拥有 install() 方法的对象，也可以直接…...

编程日记 2024/5/30 8:32:35

python之any用法

写法对比代码一： any(i for i in [0,1]) 代码2： any([i for i in [0,1]]) 优劣结论：代码一写法更好解释： 在 Python 中，any() 函数可以接受一个可迭代对象作为参数，并返回 True 如果可迭代对象…...

编程日记 2024/5/30 8:30:33

【前端学习——react坑】useState使用

问题使用useState 时，例如 const [selectedId, setSelectedId] useState([false,true,false]);这样直接利用，无法引发使用selectedId状态的组件的变化，但是selectedId是修改了的 let tempselectedId;temp[toggledId]selectedId[toggledId…...

编程日记 2024/5/30 8:29:32

【前端每日基础】day28——async/await

async/await 是ES2017（ES8）引入的用于处理异步操作的语法糖，基于Promise实现。它使得异步代码看起来像同步代码，从而提高了代码的可读性和可维护性。以下是对 async/await 的详细讲解。基本语法 async 函数在一个函数前加上 as…...

编程日记 2024/5/30 8:25:28

终极AI图像分层工具LayerDivider：3分钟完成复杂插画自动分层

终极AI图像分层工具LayerDivider：3分钟完成复杂插画自动分层【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 在数字设计创作中，您…...

编程新知 2026/5/13 18:29:48

软件工程自动化浪潮下，工程师如何从代码生产者转型为系统架构师？

1. 软件工程的自动化浪潮：从手工艺到基础设施的必然之路最近和几个在头部大厂干了十几年的老同事聊天，话题总绕不开一个词：焦虑。不是对业务增长的焦虑，而是对自身角色价值的焦虑。一个在阿里做P8的朋友说，他团队里新来…...

编程新知 2026/5/13 17:27:49

基于MCP与多准则决策的数据中心智能选址系统设计与实践

1. 项目概述：数据中心选址智能决策的现代解法最近在做一个挺有意思的项目，客户是一家大型互联网公司，他们计划在海外新建一个大型数据中心，但面对全球几十个潜在选址，从土地成本、电力供应、网络延迟到政策风险&#x…...

编程新知 2026/5/13 16:29:40

Flutter + 开源鸿蒙跨端实战｜基于空间地理信息的城市全域智慧泊车调度与多维运维管理平台 Day1 项目架构基座与工程化环境搭建

Flutter 开源鸿蒙跨端实战｜基于空间地理信息的城市全域智慧泊车调度与多维运维管理平台 Day1 项目架构基座与工程化环境搭建欢迎入驻开源鸿蒙全栈技术实战社区：https://openharmonycrossplatform.csdn.net  <…...

编程新知 2026/5/13 16:05:40