当前位置：首页 > news >正文

论文速览【序列模型 seq2seq】—— 【Ptr-Net】Pointer Networks

news 2025/8/25 13:56:11

标题：Pointer Networks
文章链接：Pointer Networks
参考代码（非官方）：keon/pointer-networks
发表：NIPS 2015
领域：序列模型（RNN seq2seq）改进 / 深度学习解决组合优化问题
【本文为速览笔记，仅记录核心思想，具体细节请看原文】

摘要：我们引入了一种新的神经网络结构，用于学习一个输出序列的条件概率，其中输出序列的元素是对应于输入序列位置的离散标记。这类问题不能通过Seq2Seq模型和神经图灵机等现有方法轻松解决，因为（这些问题中）输出每一步的目标类别数量取决于输入的长度，而输入的长度是可变的。排序可变长度序列、各种组合优化问题等属于这类问题。我们的模型使用了最近提出的神经注意力机制，来解决可变长度输出字典的问题。与先前的注意力机制不同的是，我们的模型不是在每个解码器步骤中将编码器的隐藏单元与上下文向量混合，而是使用注意力作为指针来选择输入序列的成员作为输出。我们将这种结构称为指针网络（Ptr-Net）。我们在平面凸包（planar convex hulls）、计算德劳内三角剖分（computing Delaunay triangulations）和旅行商问题（TSP）三个有挑战性的几何问题上验证了指针网络有能力以 Data-driven 的形式学到近似解。指针网络不仅改进了具有输入注意力的序列到序列模型，还能够推广到可变长度输出字典。我们展示了训练的模型在超过其训练最大长度的情况下也能泛化

文章目录

0. 本文考虑的问题
1. 传统方法及其问题
- 1.1 Sequence-to-Sequence Model
- 1.2 Content Based Input Attention
- 1.3 问题
2. 本文方法
3. 实验
4. 总结

0. 本文考虑的问题

本文主要考虑那些 “输出序列是离散的，并对应于输入序列中位置” 的 Seq2Seq 问题。实验的问题包括
1. 平面凸包问题planar convex hulls：给定平面上若干个点的坐标，输出一组点的索引，使得这些点围成的多边形可以覆盖所有点
2. 计算德劳内三角剖分computing Delaunay triangulations：给定平面上若干个点的坐标，以点索引形式输出德劳内三角剖分结果（这是一种以最近的三点形成三角形，且各线段皆不相交的三角网剖分方式）
除了以上两个例子外，很多组合优化问题也具有这种形式，作者测试了 Tsp 问题。作者开源了以上三类问题的数据集
注意这类问题的特点是：输出序列的每个元素都是输入序列包含的位置索引，输入序列长度 = 输出索引范围

1. 传统方法及其问题

1.1 Sequence-to-Sequence Model

本文是对 Seq2Seq 模型的一个改进，Seq2Seq 模型用于把一个序列转换成另外一个序列，且不要求输入序列和输出序列等长，典型应用有机器翻译等

如上图所示，Seq2Seq 模型通常使用 RNN 及其变种（LSTM/GRU）以 encoder-decoder 结构构建。RNN 类模型内部有一个隐状态代表目前积累的信息，每读入一个序列样本就将其更新，隐变量值可以较好地捕获前驱序列特征。通常使用两个独立的 RNN 模型，一个作为 encoder 提取输入序列的特征，另一个作为 decoder 以 Autoregress 形式解码得到输出序列
考虑第 0 节的问题，形式化地讲，给定训练样例 $(\mathcal{P}, \mathcal{C^P})$ ，Seq2Seq 模型使用参数模型计算条件概率
$\begin{aligned} p(\mathcal{C}^{\mathcal{P}}|\mathcal{P};\theta) &= p (C_2|C_1,\mathcal{P};\theta)·p (C_3|C_2,C_1,\mathcal{P};\theta) ···p (C_{m(\mathcal{P})}|C_{m(\mathcal{P})-1},C_{m(\mathcal{P})-2},...,C_0,\mathcal{P};\theta) \\ &=\prod_{i=1}^{m(\mathcal{P})}p (C_{i}|C_{1},\ldots,C_{i-1},\mathcal{P};\theta) \end{aligned}$ 其中 $\mathcal{P}=\{P_{1},\ldots,P_{n}\}$ 是包含 $n$ 个向量的输入序列（上图中的 $v$ ）， $\mathcal{C}^{\mathcal{P}}=\{C_{1},\ldots,C_{m(\mathcal{P})}\}$ 是由 $m(\mathcal{P})$ 个索引组成的序列，每个索引取值范围为 $[1, n]$ 。直观地看这个条件概率就是模型解码出目标序列的概率。注意目标序列的长度 $m(\mathcal{P})$ 通常取决于 $\mathcal{P}$ 。学习目标是最大化训练集中所有样本的上述概率之和，即
$\theta^{*}=\operatorname*{arg\,max}_{\theta}\sum_{\mathcal{P},\mathcal{C}^{ \mathcal{P}}}\log p(\mathcal{C}^{\mathcal{P}}|\mathcal{P};\theta),$ 训练之后评估阶段，给定输入序列 $\mathcal{P}$ ，使用学习到的参数 $\theta^{*}$ 选择具有最高概率的序列
$\hat{\mathcal{C}}^{\mathcal{P}}=\operatorname*{arg\,max}_{\mathcal{C}^{\mathcal{P}}}p(\mathcal{C}^{\mathcal{P}}|\mathcal{P};\theta^{*})$ 由于输出序列空间大小为 $n^{m(\mathcal{P})}$ ，找到真正的最大概率输出序列的计算量太大，工程上通常使用贪心或者 beam search 方法进行解码

1.2 Content Based Input Attention

RNN 类模型只能利用隐状态间接地获取之前序列的信息，由于隐藏状态维度一定远远小于之前的变长序列所有样本的连接维度，这种做法无可避免地会损失一些信息。一种补偿方式是引入额外的 Attention 模块，它对整个输入序列的所有 hidden state $e_1,...,e_n$ 构造 key 向量，之后在任意第 $i$ 个解码位置，用其 hidden state $d_i$ 构造 query 并和整个输入序列计算 attention，根据 attention 结果汇聚（加权平均）整个输入序列的 hidden state，最后用得到的结果和 $d_i$ 做 concatenate 来增强解码时信息输入，缓解信息损耗问题。下图是一个示意
形式化地，设 encoder 和 decoder 的隐藏状态为 $(e_{1},\ldots,e_{n})$ 和 $(d_{1},\ldots,d_{m(\mathcal{P})})$ ，如下计算每个输出时刻 $i$ 的附加信息
$\begin{aligned} u_{j}^{i} & =v^{T} \tanh \left(W_{1} e_{j}+W_{2} d_{i}\right) & j \in(1, \ldots, n) \\ a_{j}^{i} & =\operatorname{softmax}\left(u_{j}^{i}\right) & j \in(1, \ldots, n) \\ d_{i}^{\prime} & =\sum_{j=1}^{n} a_{j}^{i} e_{j} & \end{aligned}$ 注意这里使用了比较早期的加性注意力，向量 $v$ 和矩阵 $W_1,W_2$ 是三组要学习的参数。最后用增强后的 $d_i, d_i']$ 作为隐状态进行解码。这种方式相对 1.1 节的朴素 Seq2Seq 方法有显著性能提高

1.3 问题

以上两个方法虽然也能部分解决第 0 节的问题，但它们都有一个显著缺陷，即处理问题的尺度无法随着输入泛化：对于每个不同的输入长度 $n$ 都要单独训练一个模型。这个问题的本质在于模型无法动态地从输入序列中构造词表，训练时都是事先根据问题规模设置好词表大小的

2. 本文方法

作者解决 1.3 节问题的思路很直接，他注意随着输入序列长度的变化，attention 范围可以自适应地变化，所以解码过程中只要想办法自回归地让 attention 像指针一样指出输入序列中的目标位置即可。这其实是对 1.2 节 decoder 的一种简化，我们不再需要根据 attention 汇聚特征再做分类任务，而是直接用经过 softmax 的 attention 向量做分类，这样输出空间可以根据输入序列长度自动调整。示意图如下

图(a) 是 1.1 节的朴素 Seq2Seq 模型，图(b) 是作者提出的指针网络模型
形式化地，如下用 attention 机制改写 1.1 节中对 $p(C_{i}|C_{1},\ldots,C_{i-1},\mathcal{P})$ 建模的方式
$\begin{aligned} u_{j}^{i} & =v^{T} \tanh \left(W_{1} e_{j}+W_{2} d_{i}\right) \quad j \in(1, \ldots, n) \\ p\left(C_{i} \mid C_{1}, \ldots, C_{i-1}, \mathcal{P}\right) & =\operatorname{softmax}\left(u^{i}\right) \end{aligned}$ 这里 $u_j^i$ 是长度为 $n$ 的注意力得分向量， $\operatorname{softmax}$ 操作将其转换为输入序列上的分布，直接把这个 attention 分布看作在尺寸为 $n$ 的词表上做分类时的 softmax 分布，使用交叉熵损失进行优化即可

3. 实验

这里仅介绍 TSP 上的结果，另外两个问题详见论文

TSP 问题是说给定一个城市列表，希望找到一个最短的路线，要求把每个城市访问一次并能返回到起点。作者假设两个城市之间的距离是对称的，即 A->B 的距离 = B-> A 的距离。
1. 数据生成：任意训练样本 $(\mathcal{P}, \mathcal{C^P})$ 中， $\mathcal{P}=\{P_{1},\ldots,P_{n}\}$ 是在 [0,1]×[0,1] 区间中随机采样的 $n$ 个笛卡尔坐标， $\mathcal{C^P} = \{C_1,...,C_n\}$ 是一个从 1 到 n 的排列，代表最优路线。为了一致性，在训练数据集中，数据集总是从第一个城市开始。为了生成精确的数据，城市数量不一样，所构建的数据集输出结果方式也不一样，具体地说：在城市数量 $n\leq 20$ 的情况下，采用 Held-Karp 算法；对于 $n > 20$ 的情况，作者考虑了 A1 A2 A3 三种启发式搜索算法，其中 A3 算法保证在离最优长度1.5倍的范围内找到一个解
2. 模型设置：所有模型都使用了具有 256 或 512 个隐藏单元的单层 LSTM；使用随机梯度下降（SGD）训练；学习率为1.0；batch_size为128；随机均匀权重初始化从 -0.08 到 0.08；L2正则化梯度裁剪为 2.0
实验结果如下
1. 由于 TSP 问题是有约束的（不能重复访问城市，也不能忽略城市），作者在解码时的波束搜索（beam Search）过程中过滤有效的结果。这种过滤过程在 $n > 20$ 时是必须的。当 $n = 30$ 时（超过训练时城市数量），失败率到达 30%；当 $n = 40$ 时失败率上升到 98%
2. 表中 OPTIMAL 列是真实最优结果，缺少 $n = 50$ 的结果是因为计算复杂度太高了
3. 表中第一组行显示了在 $n$ 相同时使用最优数据训练的结果。注意到使用最差的算法 (A1) 数据来训练 Ptr-Net 时，模型优于其试图模仿的A1算法（6.42 < 6.46）
4. 表中第二组行显示了在5~20个城市的最佳数据上训练的 Ptr-Nets 如何能够推广到更多的城市。结果对于n=25来说几乎是完美的，对于n=30来说是好的，但在40或更长的时间里似乎会崩溃（尽管如此，结果还是比随机策略要好得多）

4. 总结

Pointer Networks 天生具备从输入序列中提取元素的能力，因此它非常适合用来实现 “复制” 这个功能。NLP 领域很多研究者也确实把它用于复制源文本中的一些词汇。比如摘要任务，由于所需的词汇较多，非常适合使用复制的方法来复制一些词，目前Pointer Networks 已经称为了文本摘要方法中的利器。
此外，在组合优化领域，Ptr-Nets 也得到了广泛的应用，并已成为组合优化问题的端到端方法的入门模型，后来基于此模型，研究者也进行了很多改进，比如与强化学习结合，将 Attention 换成 Transformer 中采用的Self- Attention等。总之，Ptr-Nets为组合优化的端到端解决办法起了一个好头，并促使广大研究者进行更加深入的研究

论文速览【序列模型 seq2seq】—— 【Ptr-Net】Pointer Networks

标题：Pointer Networks文章链接：Pointer Networks参考代码（非官方）：keon/pointer-networks发表：NIPS 2015领域：序列模型（RNN seq2seq）改进 / 深度学习解决组合优化问题【…...

编程日记 2023/9/26 1:31:27

Denoising diffusion implicit models 阅读笔记

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本，需要迭代多次，速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了加速采样过程，减少迭代的次数，并且要求DDIM可以复用DDPM训练的网…...

编程日记 2023/9/26 1:29:25

【Java 基础篇】Executors工厂类详解

在多线程编程中，线程池是一项重要的工具，它可以有效地管理和控制线程的生命周期，提高程序的性能和可维护性。Java提供了java.util.concurrent包来支持线程池的创建和管理，而Executors工厂类是其中的一部分，它提供了一些…...

编程日记 2023/9/26 1:27:23

1.引入Jar包 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency> 2.MongoDbHelper操作 /*** MongoDB Operation class* author Mr.Li* date 2022-12-05*…...

编程日记 2023/9/26 1:26:22

PyTorch 模型性能分析和优化 — 第 1 部分

一、说明这篇文章的重点将是GPU上的PyTorch培训。更具体地说，我们将专注于 PyTorch 的内置性能分析器 PyTorch Profiler，以及查看其结果的方法之一，即 PyTorch Profiler TensorBoard 插件。二、深度框架训练深度学习模型，尤其是…...

编程日记 2023/9/26 1:25:21

Unity3D 简易音频管理器

依赖于Addressable 依赖于单例模板：传送门 using System.Collections.Generic; using System.Security.Cryptography; using System; using UnityEngine; using UnityEngine.AddressableAssets;namespace EasyAVG {public class AudioManager : MonoSingleton<…...

编程日记 2023/9/26 1:24:20

【李沐深度学习笔记】线性回归

课程地址和说明线性回归p1 本系列文章是我学习李沐老师深度学习系列课程的学习笔记，可能会对李沐老师上课没讲到的进行补充。线性回归如何在美国买房（经典买房预测问题） 一个简化的模型线性模型其中， x → [ x 1 , x 2 ,…...

编程日记 2023/9/26 1:22:18

微信收款码费率0.38太坑了

作为一个有多年运营经验的商家，我本人在申请收款功能时曾经走过了不少弯路。我找遍了市面上的知名的支付公司，但了解到的收款手续费率通常都在0.6左右，最低也只能降到0.38。这个过程吃过不少苦头。毕竟，收款功能是我们商家的命脉&…...

编程日记 2023/9/26 1:19:16

【学习笔记】CF1103D Professional layer

首先分析不出啥性质，所以肯定是暴力优化😅 常见的暴力优化手段有均摊，剪枝，数据范围分治（points），答案值域分析之类的。比较经典的题目是 CF1870E Another MEX Problem，可以用剪枝…...

编程日记 2023/9/26 1:16:13

vue之Pinia

定义 Store | Pinia 开发文档 1.什么是Pinaia Pinia 是 Vue 的专属状态管理库，它允许你跨组件或页面共享状态。 2.理解Pinaia核心概念定义Store 在深入研究核心概念之前，我们得知道 Store 是用 defineStore() 定义的，它的第一个参数要求是一…...

编程日记 2023/9/26 1:14:11

antd-vue 级联选择器默认值不生效解决方案

一、业务场景： 最近在使用Vue框架和antd-vue组件库的时候，发现在做编辑回显时** 级联选择器** 组件的默认值不生效。为了大家后面遇到和我一样的问题，给大家分享一下二、bug信息： 三、问题原因： 确定不了唯一的值&a…...

编程日记 2023/9/26 1:12:09

分享53个Python源码源代码总有一个是你想要的

分享53个Python源码源代码总有一个是你想要的链接：https://pan.baidu.com/s/1ew3w2_DXlSBrK7Mybx3Ttg?pwd8888 提取码：8888 项目名称 100-Python ControlXiaomiDevices DRF-ADMIN 后台管理系统 FishC-Python3小甲鱼 Flask框架的api项目脚手架 …...

编程日记 2023/9/26 1:10:08

【每日一题】658. 找到 K 个最接近的元素

658. 找到 K 个最接近的元素 - 力扣（LeetCode） 给定一个排序好的数组 arr ，两个整数 k 和 x ，从数组中找到最靠近 x（两数之差最小）的 k 个数。返回的结果必须要是按升序排好的。整数 a 比整数 b 更接近 …...

编程日记 2023/9/26 1:09:07

并发任务队列（字节青训测试题）

需求描述封装一个并发任务队列类，用于对一些异步任务按指定的并发数量进行并发执行。 /*** 延迟函数* param {number} time - 延迟时间* return {Promise} delayFn - 延迟函数(异步封装)*/ function timeout(time) {return new Promise((resolve) > {setTimeo…...

编程日记 2023/9/26 1:07:05

Ubuntu 安装Nacos

1、官网下载最新版nacos https://github.com/alibaba/nacos/releases 本人环境JDK8，Maven3.6.3，启动Nacos2.2.1启动失败，故切换到2.1.0启动成功 2、放到服务器目录下，我的在/home/xxx/apps下 3、解压 $ tar -zxvf nacos-serve…...

编程日记 2023/9/26 1:06:04

CSS 小球随着椭圆移动

html代码： <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><…...

编程日记 2023/9/26 1:05:03

【李沐深度学习笔记】线性代数

课程地址和说明线性代数p1 本系列文章是我学习李沐老师深度学习系列课程的学习笔记，可能会对李沐老师上课没讲到的进行补充。线性代数标量标量（scalar），亦称“无向量”。有些物理量，只具有数值大小&#xff0c…...

编程日记 2023/9/26 1:03:02

vuejs - - - - - 递归组件的实现

递归组件的实现 1. 需求描述：2. 效果图：3. 代码3.1 封装组件代码3.2 父组件使用 1. 需求描述： 点击添加行，增加一级目录结构当类型为object or array时，点击右侧➕，增加子集点击右侧🚮&#x…...

编程日记 2023/9/26 1:00:58

精准对接促合作：飞讯受邀参加市工信局举办的企业供需对接会

2023年9月21日，由惠州市工业和信息化局主办的惠州市工业软件企业与制造业企业供需对接会成功举办，对接会旨在促进本地工业软件企业与制造业企业的紧密合作，推动数字化转型的深入发展。此次会议在市工业和信息化局16楼会议室举行，会…...

编程日记 2023/9/26 0:56:55

数学建模之遗传算法

文章目录前言遗传算法算法思想生物的表示初始种群的生成下一代种群的产生适应度函数轮盘赌交配变异混合产生新种群停止迭代的条件遗传算法在01背包中的应用01背包问题介绍01背包的其它解法01背包的遗传算法解法生物的表示初始种群的生成下一代种群的产生适应度函数轮盘赌交配…...

编程日记 2023/9/26 0:55:54

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2025/8/15 13:45:35

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2025/8/22 0:05:47

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架，相比 MapReduce 具有以下核心优势： 内存计算：数据可常驻内存，迭代计算性能提升 10-100 倍（文档段落：3-79…...

编程新知 2025/8/21 20:43:48

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/8/15 18:53:03

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：有对最普通的场景进行各个日志注释讲解，但相机场景太多，日志差异也巨大。后面将展示各种场景下的日志。通过notepad++打开场景下的日志，通过下列分类关键字搜索，即可清晰的分析不同场景的相机运行流程差异…...

编程新知 2025/7/25 23:24:13

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

骨骼动画基础骨骼动画是 3D 计算机图形中常用的技术，它通过以下两个主要组件实现角色动画。骨骼系统 (Skeleton)：由层级结构的骨头组成，类似于人体骨骼蒙皮 (Mesh Skinning)：将模型网格顶点绑定到骨骼上，使骨骼移动…...

编程新知 2025/8/5 9:30:07

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/8/22 3:24:23

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2025/8/24 18:20:32

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境系统：Ubuntu 24.04 LTS (WSL2)架构：x86_64 (GNU/Linux)Rust 版本：rustc 1.87.0 (2025-05-09)Cargo 版本：cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

编程新知 2025/8/22 5:22:53

C++.OpenGL （20/64）混合（Blending）

混合（Blending）透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

编程新知 2025/7/6 20:05:42