当前位置：首页 > news >正文

论文阅读——X-Decoder

news 2026/2/10 6:10:50

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义）但尊重自然差异（例如空间掩码与序列语言）来无缝连接任务，从而全面显著改进不同的分割和VL工作。

输入：两个查询，(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation，(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出：两种类型，像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片：经过image encoder 得到特征，文本T经过text encoder 编码为，长度为n，非语义查询或者潜在查询，输入X-Decoder输出：

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中，图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决，而且使生成预训练也难以解决。相反，通过完全解耦图像和文本编码器，并将输出全部用作查询，X-Decoder可以从图像内监督和图像间监督中学习，这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation：

Referring Segmentation：，与一般分割类似，只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval：，

Image Captioning and VQA：，这两个任务有两个不同：Captioning遵循因果掩mask策略，而VQA则不遵循。其次，使用Os中的所有输出作为字幕，但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而，在这项工作中，我们提倡通过功能而不是接口来实现统一，即我们最大限度地共享不同任务的共同部分，同时保持单个任务的其余部分不变。

2.3 Unified Architecture

，不同level的特征

在每一层：先和视觉特征做交叉注意力，然后潜在查询和文本查询做自注意力：

其中，对第一个公式，所有查询和视觉特征做交叉注意力，对于潜在查询，使用masked cross-attention mechanism，对文本查询使用全部注意力。

对第二个公式，（i）我们使用最后一个潜在查询来提取全局图像表示，剩余的用于一般分割；（ii）对于图像Caption，每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力；（iii）对于参考分割，潜在查询与所有文本查询做注意力。

对，m个潜在查询输出mask，对于语义输出，为潜在查询和文本查询预测输出，

2.4 End-to-End Pre-training

两种类型的损失函数：Semantic Loss，Mask Loss

1）Semantic Loss：

三个任务对应三个损失函数：

对image-text retrieval，计算语言图片相对损失。最后一个有效的token feature 代表文本，记作，用潜在特征的表示全局图片的特征表示图片，记作，对minibatch B获得B对特征对：，然后计算点乘得到，然后计算双向交叉熵：

y是class labels。

对于mask classification，包括“background”在内C个类别编码为C个文本查询，提取每个查询最后一个有效特征作为概念表示，然后取对应前（m-1）个潜在查询的decoder输出，计算这些输出和概念表示的点乘，得到，最后计算交叉熵损失：。

对于image captioning，提取所有词汇向量，大小为V，X-Decoder最后n个语义输出，计算点乘得到，和GT的写一个token的id 计算交叉熵。

2）Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT，使用BCE和DICE计算损失。

3 实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L as the vision encoder

相关文章：

论文阅读——X-Decoder

Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义&#…...

编程日记 2023/12/26 8:13:54

【Kubernetes】控制器Statefulset

Statefulset控制器一、概念二、Statefulset资源清单文件编写技巧2.1、查看定义Statefulset资源需要的字段2.2、查看statefulset.spec字段如何定义2.3、查看statefulset的spec.template字段如何定义三、Statefulset使用案例：部署web站点3.1、编写一个Statefulset资…...

编程日记 2023/12/26 8:12:53

智能优化算法应用：基于鱼鹰算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于鱼鹰算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于鱼鹰算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.鱼鹰算法4.实验参数设定5.算法结果6.参考文献7.MA…...

编程日记 2023/12/26 8:11:52

探索 Vue3 (五) 骨架屏

骨架屏是页面的一个空白版本，通常会在页面完全渲染之前，通过一些灰色的区块大致勾勒出轮廓，待数据加载完成后，再替换成真实的内容。目前主流 UI库都有骨架屏，如 Element-UI、Antd 可以看到使用起来非常简单&#x…...

编程日记 2023/12/26 8:10:52

java取出list中的某几个属性组成一个新的集合的几种方式

我用了三种方式,1:forEach循环;2:for循环;3:stream方法 package org.springblade.test;import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.stream.Collectors;public class Test {org.junit.jupiter.api…...

编程日记 2023/12/26 8:09:50

开源自托管导航页配置服务Dashy本地搭建结合内网穿透远程访问

开源自托管导航页配置服务Dashy本地搭建结合内网穿透远程访问简介1. 安装Dashy2. 安装cpolar3.配置公网访问地址4. 固定域名访问简介 Dashy 是一个开源的自托管的导航页配置服务，具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。你可以将自己常用的一…...

编程日记 2023/12/26 8:04:45

Cloudstack多个管理服务器节点

https://docs.cloudstack.apache.org/en/4.18.0.0/adminguide/reliability.html 参考翻译： 代理上支持多个管理服务器在具有多个管理服务器的Cloudstack环境中，可以根据算法配置代理，将其连接到哪个管理服务器。这对于内部负载均衡器或高可…...

编程日记 2023/12/26 8:02:44

31. Ajax

简介 AJAX 是 Asynchronous JavaScript And XML 的简称。直译为，异步的JS和XML。AJAX的实际意义是，不发生页面跳转、异步载入内容并改写页面内容的技术。AJAX也可以简单的理解为通过JS向服务器发送请求。 AJAX这门技术很早就被发明，但是直到…...

编程日记 2023/12/26 8:00:42

ArrayList源码学习笔记（3）

时隔两年，重新读ArrayList源码，轻松了很多，以问题的方式记录一下收获装饰器模式注释中提到ArrayList本身不是线程安全的，注释如下： * <p><strong>Note that this implementation is not synchronized.&…...

编程日记 2023/12/26 7:57:39

flutter怎么对ReorderableListView中的用于排序的控制手柄进行显示或隐藏

我在使用ReorderableListView创建可排序列表的时候，需要在编辑的时候才显示右侧的控制排序的手柄。研究了半天，配合搜索引擎，才找到正确的方案。答案很简单，就是在它的属性当中有一个叫做：buildDefaultDragHandles的…...

编程日记 2023/12/26 7:55:38

python 1200例——【9】斐波那契数列

文章目录定义求解方法1. 递归方法2. 循环方法3. 动态规划方法4. 矩阵方法总结：定义斐波那契数列（Fibonacci sequence）是一个在自然世界中经常出现的数学序列。它是由0和1开始，然后的每个数字都是前两个数字的和。因此，斐波那契数列的前几个数字是：0, 1, 1, 2, 3, 5, 8…...

编程日记 2023/12/26 7:54:37

JavaScript读写T5557卡源码

本示例使用发卡器： https://item.taobao.com/item.htm?spma1z10.5-c-s.w4002-21818769070.13.48ce6f89XlQ9Vf&id675212889085 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-t…...

编程日记 2023/12/26 7:52:35

【数据结构】LRU缓存的简单模拟实现（leetcode力扣146LRU缓存）

文章目录一、定义二、LRU模拟实现二、代码实现一、定义 LRU是Least Recently Used的缩写，意思是最近最少使用，它是一种Cache替换算法。 Cache的容量有限，因此当Cache的容量用完后，而又有新的内容需要添加进来时， 就…...

编程日记 2023/12/26 7:48:32

基于电商场景的高并发RocketMQ实战-Commitlog基于内存的高并发写入优化、基于JVM offheap的内存读写分离机制

🌈🌈🌈🌈🌈🌈🌈🌈 【11来了】文章导读地址：点击查看文章导读！ 🍁🍁🍁🍁🍁🍁&#x1f3…...

编程日记 2023/12/26 7:47:31

工具系列：TensorFlow决策森林_(3)使用dtreeviz可视化

文章目录介绍设置安装 TF-DF 和 dtreeviz导入库可视化分类树加载、清洗和准备数据分割训练/测试集并训练模型训练一个随机森林分类器显示决策树检查叶节点统计信息决策树如何对实例进行分类特征空间划分可视化回归树加载、清洗和准备数据分割训练/测试集并训练模型训练一个随…...

编程日记 2023/12/26 7:46:30

【算法学习】斐波那契数列模型-动态规划

前言我在算法学习过程中，针对斐波那契数列模型的动态规划的例题进行了一个整理，并且根据标准且可靠一点的动态规划解题思路进行求解类似的动归问题，来达到学习和今后复习的必要。所谓的斐波那契数列模型，即当前状态的值等于前两…...

编程日记 2023/12/26 7:40:25

ES的安装和RestClient的操作

目录初识elasticsearch 什么是elasticsearch elasticsearch的发展 Lucene的优缺点 elasticsearch的优势倒排索引 es与mysql的概念对比文档索引概念对比架构安装es 安装kibana 安装ik分词器分词器安装ik分词器 ik分词器的拓展和停用词典操作索引库…...

编程日记 2023/12/26 7:38:24

访问者模式（Visitor）

访问者模式（Visitor Pattern）是一种将算法与对象结构分离的行为型设计模式。这种模式主要用于对一个由许多不同类型的对象构成的复杂对象结构（如组合结构）进行操作，而不需要对这些对象的类进行修改。访问者模式涉及以下几个角色：访问者（Visitor）：为每一个具体元素类…...

编程日记 2023/12/26 7:32:18

ATTCK红队评估一

一、环境搭建主机 ip地址 win7外网服务器（两张网卡） 外网：192.168.92.135 内网：192.168.52.143 server2003域成员主机内网：192.168.52.141 server2008域空主机内网：192.168.52.138 kali攻击机 …...

编程日记 2023/12/26 7:31:17

W5500-EVB-Pico评估版介绍

文章目录 1 概述2 板载资源2.1 硬件规格2.2 硬件规格2.3 工作条件 3 参考资料3.2 原理图3.3 尺寸图 (单位 : mm)3.4 参考例程 4 硬件协议栈优势 1 概述 W5500-EVB-Pico是基于树莓派RP2040和完全硬连线TCP/IP控制器W5500的微控制器开发板-基本上与树莓派Pico板相同，但…...

编程日记 2023/12/26 7:30:15

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/11/30 15:33:36

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2026/2/8 4:53:03

【kafka】Golang实现分布式Masscan任务调度系统

要求： 输出两个程序，一个命令行程序（命令行参数用flag）和一个服务端程序。命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽，然后将消息推送到kafka里面。服务端程序： 从kafka消费者接收…...

编程新知 2026/2/8 20:41:58

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2026/2/8 20:41:49

vscode（仍待补充）

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用侧边栏 vscode还能连接ssh？ debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

编程新知 2026/1/24 13:04:10

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

编程新知 2025/12/14 11:45:25

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/11/10 10:45:11

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

在自然语言处理（NLP）领域，我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感，还是实现语言的翻译，都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心，而循环神经网络（RNN）曾被视为…...

编程新知 2026/2/1 7:05:28

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别直接训练提示词嵌入向量的核心区别您提到的代码： prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

编程新知 2025/7/4 0:50:01

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量，这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

编程新知 2026/1/26 19:12:01