当前位置：首页 > news >正文

【机器学习】基于Gumbel-Sinkhorn网络的“潜在排列问题”求解

news 2026/2/10 4:37:01

1. 引言

1.1.“潜在排列”问题

本文将深入探索一种特殊的神经网络方法，该方法在处理离散对象时展现出卓越的能力，尤其是针对潜在排列问题的解决方案。在现代机器学习和深度学习的领域中，处理离散数据一直是一个挑战，因为传统的神经网络架构通常是为连续数据设计的。然而，在诸如序列分析、图像识别和自然语言处理等应用中，我们经常会遇到需要处理离散对象的情况。

潜在排列问题是一个典型的例子，它涉及到对一组无序的元素进行重新排列，以找到一种符合某种标准或目标的顺序。这种排列过程在许多实际应用中都是至关重要的，比如排序算法、图像重建和推荐系统等。然而，由于排列空间的大小随着对象数量的增加而急剧增加，直接搜索所有可能的排列通常是不切实际的。

为了解决这个问题，我们提出了一种新型的神经网络架构，它结合了深度学习的强大表示能力和优化技术的精确性。这种网络能够学习从输入数据中提取有用特征，并基于这些特征预测出最优的排列。通过引入一种特殊的网络层，我们能够将排列的搜索过程嵌入到神经网络的训练过程中，从而实现对潜在排列的高效学习和预测。

具体来说，我们的方法利用了一种基于Gumbel-Sinkhorn分布的随机松弛技术，该技术能够将原始的排列问题转化为一个可微分的优化问题。通过这种方式，我们可以使用梯度下降等优化算法来训练神经网络，并直接优化排列的质量。此外，我们还设计了一种新颖的损失函数，用于评估预测排列与实际目标排列之间的差异，从而指导神经网络的训练过程。

在实验中，我们验证了所提出方法的有效性和优越性。通过与其他传统方法和现有神经网络架构的比较，我们发现我们的方法在处理潜在排列问题时具有更高的准确性和效率。此外，我们还探讨了不同参数设置和网络结构对性能的影响，为实际应用提供了有价值的指导。

我们的目标是，在缺乏直接监督的情况下，找到潜在变量的正确排列 $P$ 。为了实现这一目标，我们将利用Gumbel-Sinkhorn 操作符，该操作符能够将排列 $P$ 的寻找问题转化为一个线性优化问题。
备注：有关Gumbel-Sinkhorn的论述，请参考[Mena, G., 等人, (2018)]的论文。

1.2.潜在排列问题的数学表达

通常，我们认为神经网络的优势在于它们能够灵活地学习输入和输出之间任意复杂的映射关系。然而，在实际应用中，我们往往可以通过引入特定的归纳偏好来缩小可学习函数的范围，这些偏好基于我们对问题设置的先验知识，是真实且相关的。

一个体现模型设计中归纳偏好重要性的例子是我们对离散对象的操作。例如，想象一下我们有一个数字列表 $\mathbf{n}$ ，我们希望对其进行排序：通过在神经网络中引入排序的归纳偏好，我们可以更有效地设计模型来学习和执行这一任务。这种设计方法允许模型利用排序操作的组合性质，从而提高学习效率和性能。

$\mathbf{n}^T = \begin{bmatrix}5\\ 1\\ 3\\4\end{bmatrix}$

我们可以通过左乘一个排列矩阵 $P$ 来获得数字的重新排序；

$\begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{bmatrix}$

将这样的排列矩阵应用到我们的输入中，我们得到：

$\begin{align} P \mathbf{n}^T &= \begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{bmatrix} \begin{bmatrix}5\\ 1\\ 3\\4\end{bmatrix} \\= \begin{bmatrix} 1\\ 3\\4\\5\end{bmatrix} \end{align}$
一种直观的初步思路可能是让我们的神经网络直接学习排列矩阵 $P$ 。但是，如果我们没有真实的排列矩阵作为监督数据呢？在这种情况下，我们可能会转而优化网络以输出排列后的输入 $P\mathbf{n}^T$ 。

然而，我们必须注意到排列矩阵 $P$ 具有特定的属性。它是一个双随机矩阵的实例，这意味着其行和列的和都等于1。更具体地说，排列矩阵的每一行和每一列都是独热向量，这反映了输入 $\mathbf{n}^T$ 中的每个元素在输出 $P\mathbf{n}^T$ 中必须恰好出现一次，且只出现在一个位置上。

那么，我们如何训练网络以学习到这样的双随机矩阵呢？这正是Gumbel-Sinkhorn操作符所要解决的问题！

值得注意的是：排列矩阵是正交矩阵的一个特例。对于这样的矩阵，其逆矩阵就是其转置矩阵。因此，我们有 $P^T P = \mathbf{I}$ 。在后续的处理中，我们可能会用到这个性质。

1.3.Gumbel-Softmax分布**

在介绍Sinkhorn算子之前，我们先回顾一下Gumbel-Softmax分布。Gumbel-Softmax分布是一个可微分的近似，用于从离散分布中采样，这与在变分自编码器（VAE）中使用的重新参数化技巧在处理连续分布时的作用类似。

在VAE中，我们能够通过重新参数化技巧从连续分布中可微分地采样，但直接将这种方法应用于离散分布则不那么直接。

如果我们想要从一个具有类别概率 $\mathbf{\alpha}=[\alpha_1, \alpha_2, \alpha_3]$ 的类别分布中采样，可以使用Gumbel-Max技巧。这个技巧涉及到计算 $\log \alpha + \mathbf{G}$ 的 ${\rm argmax}$

【机器学习】基于Gumbel-Sinkhorn网络的“潜在排列问题”求解

1. 引言

1.1.“潜在排列”问题

1.2.潜在排列问题的数学表达

1.3.Gumbel-Softmax分布**

相关文章：

【机器学习】基于Gumbel-Sinkhorn网络的“潜在排列问题”求解

create-react-app创建的项目中设置webpack配置

【ai】tx2 nx ：安装torch、torchvision for yolov5

【报错】在终端中输入repo命令后系统未能识别这个命令

【机器学习】K-Means算法详解：从原理到实践

解决qiankun项目与子应用样式混乱问题

黑产当前，如何识别异常图片？

数据模型(models)

【CS.AL】算法核心之贪心算法 —— 力扣(LeetCode)743. 网络延迟时间 - Dijkstra算法题解

25、架构-微服务的驱动力

JeecgFlow事件网关概念及案例

使用鸿蒙HarmonyOs NEXT 开发快速开发简单的购物车页面

iOS 中 attribute((constructor)) 修饰的函数

原生js实现图片预览控件，支持丝滑拖拽，滚轮放缩，放缩聚焦

C语言入门课程学习笔记9：指针

借助 Cloudflare D1 和 Drizzle 在 Astro 上实现全栈

SUSE linux 15的网络管理

海康威视-下载的录像视频浏览器播放问题

养殖自动化管理系统：开启智慧养殖新篇章

SmartEDA革新来袭：融合Multisim与Proteus精髓，引领电子设计新纪元！

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

golang循环变量捕获问题

CMake基础：构建流程详解

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

GC1808高性能24位立体声音频ADC芯片解析

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

R 语言科研绘图第 55 期 --- 网络图-聚类

MySQL的pymysql操作

Python 高级应用10：在python 大型项目中 FastAPI 和 Django 的相互配合