当前位置: 首页 > news >正文

无监督神经组合优化的扩散模型框架


文章目录

  • Abstract
  • 1. Introduction
  • 2. Problem Description
    • 2.1 无监督神经组合优化
  • 3. Neural Probabilistic Optimization Objective for Approximate Likelihood Models
    • 3.1 具有联合变分上界的训练扩散模型

Abstract

  • 从离散集合的不可处理分布中进行采样,而不依赖相应的训练数据,是多个领域的核心问题,包括组合优化。
  • 目前,流行的基于深度学习的方法主要依赖于能够提供精确样本概率的生成模型。本文提出了一种方法,打破了这种限制,并为使用诸如扩散模型等高度表达力的潜变量模型开辟了可能性。
  • 我们的方法从概念上基于一种上界反向Kullback-Leibler散度的损失函数,从而避免了对精确样本概率的需求。

1. Introduction

从已知但不可处理的高维目标分布(如Boltzmann分布)中进行采样,在许多科学领域具有重要意义,例如分子构型预测(Noé和Wu, 2018)、物理学中的晶格模型(Wu等,2019)以及蒙特卡洛积分(Müller等,2019)。最近,Hibat-Allah等人(2021)和Sanokowski等人(2023)的研究表明,组合优化(CO)可以简洁地表示为一种分布学习问题,其中生成的样本对应于组合优化问题的解。在所有这些领域中,分布相关的能量函数是已知的,但获取无偏样本则是一个巨大的挑战。像CO或物理学中的晶格模型等问题的特点是离散目标分布。在这些应用中,目标分布的近似主要基于范畴分布的乘积或自回归模型。尽管乘积分布在计算上是方便的,但它们缺乏表达力,因为它们无法表示统计上的相互依赖关系。自回归模型依赖于顺序生成样本的各个组成部分。对于这些领域中经常遇到的高维分布,这种生成过程变得极其昂贵。此外,样本的组成部分之间通常没有自然的顺序。因此,自回归方法在这些问题中显得不太自然。直观上,自回归模型的问题在于一旦做出次优决策,就没有机会进行修正。从计算复杂性角度看,也可以证明自回归模型的表达力不如基于能量的模型或潜变量模型(Lin等,2021)。

利用潜变量的近似概率模型(如变分自编码器(VAE)(Kingma和Welling,2014)和扩散模型(Sohl-Dickstein等,2015;Ho等,2020;Song等,2021))通过数据样本进行训练,并基于证据下界(ELBO)的损失函数。这些模型的优点是它们在离散设置中更具表达力且更为适用。然而,对于这些模型,通常无法计算精确的样本概率。这一问题阻碍了它们在无需数据的目标分布近似问题中的应用,因为这些问题通常依赖于精确的样本概率。最近的研究提出了在无需数据的情况下应用扩散模型的方法,但这些研究仅限于连续设置(Berner等,2022;Richter等,2023;Vargas等,2023;2024)。据我们所知,离散设置尚未得到探索。

在本文中,我们在第3节中提出了一种方法,允许潜变量模型(如扩散模型)应用于离散分布的无需数据的近似问题。我们在该领域的典型问题上展示了我们的方法,展示了其在组合优化中的应用,并取得了最先进的性能。为了实现这一点,我们提出的无监督组合优化扩散方法(DiffUCO)使用了反向Kullback-Leibler散度的上界作为损失函数。我们展示了,随着训练中使用的扩散步骤的增加,模型的性能稳定提升。此外,我们发现,在推断过程中,使用比训练时更多的扩散步骤可以进一步提高解的质量(见第6.2节)。在第4.1节中,我们提出了一种更高效的常用采样策略“条件期望”(Conditional Expectation)的版本。我们展示了这一方法与扩散模型结合后,可以高效地生成高质量的组合优化问题解。该框架提供了一种高效且通用的方法,使得潜变量模型(如扩散模型)能够应用于无需数据的离散分布近似这一普遍挑战中。

2. Problem Description

根据Lucas(2014)的研究,我们将组合优化(CO)问题表示为相应的能量函数 H : { 0 , 1 } N → R H:\{0,1\}^N \rightarrow \R H:{0,1}NR。该函数为给定解 X ∈ { 0 , 1 } N X∈\{0,1\}^N X{0,1}N分配一个标量值,称为能量。X的维度表示为N,称为问题规模。与 H 相关的Boltzmann分布定义为:

其中参数T称为温度,β=1/T称为逆温度。

NPO的常见方法是最小化相对于模型参数 θ 的反向Kullback-Leibler散度(KL散度):

将该目标乘以T可得变分自由能 F θ ( X , T ) F_\theta(X,T) Fθ(X,T)的一个与之成比例的表达式:


要最小化这一目标,必须对生成模型的样本概率 q θ ( X ) q_\theta(X) qθ(X)进行精确评估。这可以通过REINFORCE(Williams, 1992)梯度估计器来实现:

为了最小化这一目标,必须能够选择一个能够有效评估样本概率 q θ ( X ) q_\theta(X) qθ(X)的生成模型。因此,使用潜在变量模型(如VAE或扩散模型)来优化这一目标是不可能的,因为这些模型无法对 q θ ( X ) q_ θ (X) qθ(X) 进行精确评估。

在第3节中,我们提出了一种基于反向KL散度上界的目标函数来缓解这一问题。原则上,也可以使用其他散度来近似目标分布。例如,反向和正向KL散度是Rényi散度的特例(van Erven和Harremoes,2014),它们都需要精确评估 q θ ( X ) q_\theta(X) qθ(X)。通过引入散度上界,我们避免了对 q θ ( X ) q_\theta(X) qθ(X)的评估。选择何种散度取决于具体应用,因为Rényi散度要么偏向覆盖概率质量,要么偏向模式选择(Minka等人,2005)。本文我们重点讨论反向KL散度,但我们的框架同样适用于其他Rényi散度。

2.1 无监督神经组合优化

在组合优化(CO)中,任务是找到一个解 X ∈ { 0 , 1 } N X∈\{0,1\}^N X{0,1}N,使得目标函数 O : { 0 , 1 } N → R O:\{0,1\}^N \rightarrow\R O:{0,

相关文章:

无监督神经组合优化的扩散模型框架

文章目录 Abstract1. Introduction2. Problem Description2.1 无监督神经组合优化3. Neural Probabilistic Optimization Objective for Approximate Likelihood Models3.1 具有联合变分上界的训练扩散模型Abstract 从离散集合的不可处理分布中进行采样,而不依赖相应的训练数据…...

Web前端开发

首先打开,VS code新建文件夹,命名为index.HTML,然后先对内容进行输入,也就是在波蒂里面进行输入,将社会主义核心价值观的基本内容输入好,然后在页面呈现的效果是这样的 因为有一个alert警告框标签&#xff…...

transformer模型进行英译汉,汉译英

上面是在测试集上的表现 下面是在训练集上的表现 上面是在训练集上的评估效果 这是在测试集上的评估效果,模型是transformer模型,模型应该没问题,以上的是一个源序列没加结束符和加了结束符的情况。 transformer源序列做遮挡填充的自注意力,这就让编码器的输出中每个token的语…...

python 异步读取文件,速度变快了吗

“python 异步读取文件,速度变快了吗” 当我问出这个问题,大部分人第一反应应该是python新人,不懂异步 首先说一下我对异步的理解: asyncio 是 gevent greenlet 的组合gevent 底层使用了libev、selectors 模块,这两…...

【Python】Anaconda插件:Sublime Text中的Python开发利器

上班的时候没人问我苦不苦,下班的时候总有人问为什么走这么早。 Anaconda 是一个专为Sublime Text打造的开源Python开发插件,旨在为开发者提供类似于IDE的丰富功能,提升Python编码效率。该插件提供了代码补全、语法检查、代码片段提示等多项…...

Python酷库之旅-第三方库Pandas(123)

目录 一、用法精讲 546、pandas.DataFrame.ffill方法 546-1、语法 546-2、参数 546-3、功能 546-4、返回值 546-5、说明 546-6、用法 546-6-1、数据准备 546-6-2、代码示例 546-6-3、结果输出 547、pandas.DataFrame.fillna方法 547-1、语法 547-2、参数 547-3、…...

IEEE投稿 IEEE Geoscience and Remote Sensing Letters

IEEE 应用地球观测与遥感专题杂志 journal of Selected Topics in Applied Earth Observations and Remote Sensing IEEE 文章提交流程 撰写文章并准备好图形后,您可以提交文章以供审核。请按照以下步骤完成 IEEE 文章提交流程。 选择目标期刊 如果文章超出期刊范围…...

【华为杯】2024华为杯数模研赛D题 解题思路

题目 大数据驱动的地理综合问题 问题1: 19902020年间中国范围内降水量和土地利用/土地覆被类型的时空演化特征描述? 解题思路 详细分析:此问题要求对降水量(连续变化变量)和土地利用/覆被(离散变化变量)进行时空演…...

Ubuntu20.04 搜索不到任何蓝牙设备

电脑信息 联想扬天YangTianT4900k 问题描述 打开蓝牙之后,一直转圈,搜索不到任何蓝牙设备 排查 dmesg | grep -i blue 有如下错误: Bluetooth: hci0: RTL: unknown IC info, lmp subver 8852, hci rev 000b, hci ver 000b lsusb 芯片型号如…...

【2024】MySQL账户管理

当前MySQL版本为: mysql> select version(); ----------- | version() | ----------- | 8.4.2 | ----------- 1 row in set (0.01 sec)目录 创建普通用户为用户授权查看用户权限修改用户权限修改用户密码删除用户 创建普通用户 使用CREATE USER语句创建用户…...

轻量级流密码算法Trivium

轻量级流密码算法Trivium 0x0 Trivium算法简介 Trivium算法是由C.D Canniere和B.Preneel共同设计的一套对称加密算法,Trivium密码算法采用了分组密码和非线性反馈移位寄存器的设计思路。该密码算法总共288比特的内部状态,其中有…...

MapReduce基本原理

目录 整体执行流程​ Map端执行流程 Reduce端执行流程 Shuffle执行流程 整体执行流程 八部曲 读取数据--> 定义map --> 分区 --> 排序 --> 规约 --> 分组 --> 定义reduce --> 输出数据 首先将文件进行切片(block)处理&#xff…...

数据结构之栈(python)

栈(顺序栈与链栈) 1.栈存储结构1.1栈的基本介绍1.2进栈和出栈1.3栈的具体实现1.4栈的应用例一例二例三 2.顺序栈及基本操作(包含入栈和出栈)2.1顺序栈的基础介绍2.2顺序栈元素入栈2.3顺序栈元素出栈2.4顺序栈的表示和实现 3.链栈及…...

浅谈人工智能之基于HTTP方式调用本地QWen OPenAI接口(Java版)

浅谈人工智能之基于HTTP方式调用本地QWen OPenAI接口(Java版) 概述 Qwen是阿里云推出的一款超大规模语言模型,其强大的自然语言处理能力使其成为开发智能应用的热门选择。本文将指导你如何使用Java通过HTTP方式调用Qwen的OpenAI接口&#x…...

【python设计模式7】行为型模式2

目录 策略模式 模板方法模式 策略模式 定义一个个算法,把它们封装起来,并且使它们可以相互替换。本模式使得算法可独立于使用它的客户而变化。角色有:抽象策略、具体策略和上下文。 from abc import abstractmethod, ABCMeta from datetim…...

基于PHP的CRM管理系统源码/客户关系管理CRM系统源码/php源码/附安装教程

源码简介: 这是一款基于PHP开发的CRM管理系统源码,全称客户关系管理CRM系统源码,它是由php源码开发的,还附带了一整套详细的安装教程哦! 功能亮点: 1、公海管理神器:不仅能搞定公海类型&…...

【乐企】基础版接口代码实现

本文主要是基础版接口声明的实现,具体接口声明见基础版接口声明。具体请求工具类见接口请求工具类 代码如下: 1、服务编码枚举 /*** User: yanjun.hou* Date: 2024/8/30 14:45* Description:乐企服务编码枚举...

题目--力扣----各位相加

给定一个非负整数 num,反复将各个位上的数字相加,直到结果为一位数。返回这个结果。 示例 1: 输入: num 38 输出: 2 解释: 各位相加的过程为: 38 --> 3 8 --> 11 11 --> 1 1 --> 2 由于 2 是一位数,所以返回 2。…...

git 如何基于某个分支rebase?

文章目录 0. 概要1. 切换到你想要 rebase 的分支2. 执行 rebase 命令3. 解决冲突(如果有)4. 强制推送分支(如果已经推送过该分支) 0. 概要 之前介绍过如下git文章 git merge的三种操作merge, squash merge, 和rebase merge 如何使…...

倒序循环(一)

题目描述 输入一个正整数n,输出从 n~ 1 递减的序列。 输入格式 一行一个整数 n 输出格式 n 行,每行一个符合题目要求的整数 样例数据 样例输入#1 5样例输出#1 5 4 3 2 1样例输入#2 6样例输出#2 6 5 4 3 2 1数据范围 对于100%的数据&#xff…...

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

rnn判断string中第一次出现a的下标

# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写 实现一个RNN网络完成多分类任务 判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...

论文笔记——相干体技术在裂缝预测中的应用研究

目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...

网站指纹识别

网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲

文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...

莫兰迪高级灰总结计划简约商务通用PPT模版

莫兰迪高级灰总结计划简约商务通用PPT模版,莫兰迪调色板清新简约工作汇报PPT模版,莫兰迪时尚风极简设计PPT模版,大学生毕业论文答辩PPT模版,莫兰迪配色总结计划简约商务通用PPT模版,莫兰迪商务汇报PPT模版,…...

【C++进阶篇】智能指针

C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...

Linux nano命令的基本使用

参考资料 GNU nanoを使いこなすnano基础 目录 一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件 三. 文件查看3.1 打开文件时,显示行号3.2 翻页查看 四. 文件编辑4.1 Ctrl K 复制 和 Ctrl U 粘贴4.2 Alt/Esc U 撤回 五. 文件保存与退出5.1 Ctrl …...