当前位置：首页 > news >正文

GiT: Towards Generalist Vision Transformer through Universal Language Interface

news 2026/2/10 18:57:27

GiT: Towards Generalist Vision Transformer through Universal Language Interface

相关链接：arxiv github
关键字：Generalist Vision Transformer (GiT)、Universal Language Interface、Multi-task Learning、Zero-shot Transfer、Transformer

摘要

本文提出了一个简单而有效的框架，称为GiT，仅使用普通的ViT即可应用于各种视觉任务。受大型语言模型（LLMs）中广泛使用的多层Transformer架构（例如GPT）的普适性启发，我们寻求将其扩展应用作为强大的视觉基础模型（VFM）。然而，与语言建模不同，视觉任务通常需要特定的模块，如检测中的边界框头和分割中的像素解码器，这极大地阻碍了强大的多层Transformer在视觉领域中的应用。为了解决这个问题，我们设计了一个通用语言接口，使得成功的自回归解码能够熟练地统一各种视觉任务，从图像级别理解（例如标题生成）到稀疏感知（例如检测），再到密集预测（例如分割）。基于上述设计，整个模型仅由一种ViT组成，无需任何特定的添加，提供了显著的架构简化。GiT是一个多任务视觉模型，跨五个代表性基准联合训练而无需任务特定的微调。有趣的是，我们的GiT在通用表现方面树立了新的基准，并促进了任务之间的相互提升，与孤立训练相比有了显著的改善。这反映了LLMs中观察到的类似影响。通过进一步丰富27个数据集的训练，GiT在多种任务上实现了强大的零样本结果。由于它的设计简单，这种范式有望缩小视觉和语言之间的架构差距。代码和模型将在 https://github.com/Haiyang-W/GiT 上提供。

核心方法

GiT 的核心方法包括：

通用语言接口：设计了能够将图像和语言统一表示为标准词汇的token序列，简化了对于各种视觉任务的处理。
多任务模板和并行解码：提出了一种框架将图像划分为多个子区域，并通过并行解码来同时处理这些子任务，提高了处理效率。
模型架构：采用多层Transformer架构，并且在不依赖于视觉特定组件的情况下处理各种视觉任务，与大型语言模型架构一致。

实验说明

Object Detection (目标检测)

Model	Specific Modules	Num	#Params	AP	AP50	AP75
Faster R-CNN-FPN	ResNet,RPN	5	42M	40.3	-	-
GiT-Bsingle-task	None	1	131M	45.1	62.7	49.1
GiT-Bmulti-task	None	1	131M	46.7	64.2	50.7
GiT-Hmulti-task	None	1	756M	52.9	71.0	57.8

GiT 在目标检测任务中表现出色，即使在没有特定任务模块的情况下，其多任务训练的模型（GiT-Hmulti-task）也能达到最优表现。

Instance Segmentation (实例分割)

Model	Specific Modules	Num	#Params	AP	AP50	AP75
Mask R-CNN	ResNet,RPN	6	46M	41.0	61.7	44.9
GiT-Bsingle-task	None	1	131M	31.4	54.8	31.2
GiT-Bmulti-task	None	1	131M	31.9	56.4	31.4
GiT-Hmulti-task	None	1	756M	35.8	62.6	35.6

即使在实例分割任务中，GiT 的多任务训练模型仍然展示了突出的改善和潜力。

Semantic Segmentation (语义分割)

Model	Specific Modules	Num	#Params	mIoU(SS)
DeepLabV3+	ResNet,Decoder	3	63M	80.9
GiT-Bsingle-task	None	1	131M	47.7
GiT-Bmulti-task	None	1	131M	47.8
GiT-Hmulti-task	None	1	756M	52.4

语义分割任务中，GiT 模型也能够在没有专门模块的情况下取得与专家系统相媲美的成绩。

Captioning (图像标题生成)

Model	Specific Modules	Num	#Params	BLEU-4	CIDEr
VL-T5	Faster R-CNN	3	440M	-	116.5
GiT-Bsingle-task	None	1	131M	33.7	107.9
GiT-Bmulti-task	None	1	131M	35.4	112.6
GiT-Hmulti-task	None	1	756M	36.2	118.2

图像标题生成任务显示，GiT 在多任务的训练下，取得了一致的优良表现。

结论

本论文介绍了一个基于简单的多层Transformer的通用视觉建模范式，该模型能够集成各种视觉中心任务，尤其是经常被忽视的对象级和像素级任务。类似于语言模型，所有视觉任务都通过通用语言接口结构化为自回归框架。GiT模型展现了与LLM类似的多任务能力，实现了多个基准上最好和相互增强的全面性能。也展现了强大的泛化能力，在27个公开可用数据集上的训练中实现了令人信服的零样本和少样本性能。

GiT在多个视觉任务中表现出色，不仅构建了一种新的通用视觉Transformer和语言接口的范式，而且还展示了跨任务增强和强大的零样本学习能力，为未来的研究提供了新的视角。

GiT: Towards Generalist Vision Transformer through Universal Language Interface

GiT: Towards Generalist Vision Transformer through Universal Language Interface 相关链接：arxiv github 关键字：Generalist Vision Transformer (GiT)、Universal Language Interface、Multi-task Learning、Zero-shot Transfer、Transformer 摘要 …...

编程日记 2024/3/17 6:30:59

纽约时报起诉OpenAI和微软将决定未来LLM的发展

《纽约时报》诉OpenAI和微软案对未来LLM发展的重大影响案件背景《纽约时报》(NYT)近期对OpenAI和微软提起诉讼，指控OpenAI未经授权使用其受版权保护的内容来训练其AI模型，包括ChatGPT。NYT声称，OpenAI使用了数百万篇其文章，这…...

编程日记 2024/3/17 6:28:58

IntelliJ IDEA 面试题及答案整理，最新面试题

IntelliJ IDEA中的插件系统如何工作？ IntelliJ IDEA的插件系统工作原理如下： 1、插件架构： IntelliJ IDEA通过插件架构扩展其功能，插件可以添加新的功能或修改现有功能。 2、安装和管理： 通过IDEA内置的插件市场下载…...

编程日记 2024/3/17 6:27:57

T1.数据库MySQL

二.SQL分类 2.1 DDL 2.1.1数据库操作 1). 查询所有数据库 show databases ; 2). 查询当前数据库 select database(); 3)创建数据库 create database [if not exists] 数据库名 [default charset 字符集] [collate 排序规则] ; 4）删除数据库 drop database …...

编程日记 2024/3/17 6:25:56

idea中database的一些用法

1、查看表结构方法1，右键，选这个方法2 双击表后，看到数据，点DDL 方法3 写SQL时，把鼠标放在表名上，可以快速查看表结构 2、表生成对应的实体类表中右键，选择这2个，选择生成的路…...

编程日记 2024/3/17 6:23:54

外卖点餐系统 |基于springboot框架+ Mysql+Java+JSP技术+Tomcat的外卖点餐系统设计与实现(可运行源码+设计文档)

推荐阅读100套最新项目最新ssmjava项目文档视频演示可运行源码分享最新jspjava项目文档视频演示可运行源码分享最新Spring Boot项目文档视频演示可运行源码分享目录前台功能效果图骑手功能模块商家功能模块管理员功能登录前台功能效果图用户功能模块系统功能设…...

编程日记 2024/3/17 6:22:53

挑战杯机器视觉的试卷批改系统 - opencv python 视觉识别

文章目录 0 简介1 项目背景2 项目目的3 系统设计3.1 目标对象3.2 系统架构3.3 软件设计方案 4 图像预处理4.1 灰度二值化4.2 形态学处理4.3 算式提取4.4 倾斜校正4.5 字符分割 5 字符识别5.1 支持向量机原理5.2 基于SVM的字符识别5.3 SVM算法实现 6 算法测试7 系统实现8 最后 0…...

编程日记 2024/3/17 6:21:52

Node.js 自带的 http 模块来实现一个简单的本地服务器

1.创建一个 server.js 文件： const http require(http); const fs require(fs); const path require(path);const server http.createServer((req, res) > {// 获取请求的文件路径const filePath path.join(__dirname, dist, req.url);// 读取文件内容并返…...

编程日记 2024/3/17 6:19:51

c++ 设计模式模版方法

最初版本 #pragma onceclass Library { public:void Step1(){}void Step3(){}void Step5(){} };class Appliacation { public:void Step2(){}void Step4(){} };int main() {Library lib;Appliacation app;lib.Step1();app.Step2();lib.Step3();app.Step4();lib.Step5(); }最终…...

编程日记 2024/3/17 6:18:50

踏上机器学习的征程：探索基础概念与学习模式

摘要：机器学习是当今科技领域最具前沿和应用价值的技术之一，它正在改变我们对数据的理解和利用方式。本文将引导读者深入了解机器学习的基本概念，包括监督学习、无监督学习和半监督学习等，并通过生动的例子解释这些概念，帮助读者迈出学习机器学习的第一步。导言：随着…...

编程日记 2024/3/17 6:17:49

基于YOLO的自动驾驶目标检测研究综述

摘要：自动驾驶是人工智能发展领域的一个重要方向，拥有良好的发展前景，而实时准确的目标检测与识别是保证自动驾驶汽车安全稳定运行的基础与关键。回顾自动驾驶和目标检测技术的发展历程，综述了YOLO算法在车辆、行人、交通标志、灯光、车道线等目标检测上的应用，同时对比分…...

编程日记 2024/3/17 6:15:47

深度学习-解读GoogleNet深度学习网络

深度学习-解读GoogleNet深度学习网络深度学习中，经典网络引领一波又一波的技术革命，从LetNet到当前最火的GPT所用的Transformer，它们把AI技术不断推向高潮。2012年AlexNet大放异彩，它把深度学习技术引领第一个高峰，打…...

编程日记 2024/3/17 6:12:45

【LeetCode: 2684. 矩阵中移动的最大次数 + dfs】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…...

编程日记 2024/3/17 6:11:44

第五节：使用SMB开发WebSocket通信

一、概述本节主要讲解在SMB中如何进行websocket快速开发，实现客户端连接、关闭、消息通讯等功能。示例下载：https://download.csdn.net/download/lllllllllluoyi/88949743 二、创建WebSocket服务器 1、在csdnProject工程中新建一个消息流。添加W…...

编程日记 2024/3/17 6:10:43

Nginx和Ribbon实现负载均衡的区别

Nginx和Ribbon的区别 1. Nginx服务器端负载均衡： 1、Nginx是客户端所有请求统一交给nginx，由nginx进行实现负载均衡请求转发，属于服务器端负载均衡。即请求有nginx服务器端进行转发。 3、Nginx是服务端的负载均衡，Ribbon是客户端…...

编程日记 2024/3/17 6:09:42

流畅的Python(十九)-动态属性和特性

一、核心要义在Python中,数据的属性和处理数据的方法,统称属性。方法，只是可调用的属性。除了这两者之外,我们还可以创建特性(property),在不改变类接口的前提下,使用存取方法(即读值方法和设值方法)修改数据属性。二、代码示例 0、相关知识点 #!/usr/bin/env…...

编程日记 2024/3/17 6:07:40

确保云原生部署中的网络安全

数字环境正在以惊人的速度发展，组织正在迅速采用云原生部署和现代化使用微服务和容器构建的应用程序（通常运行在 Kubernetes 等平台上），以推动增长。无论我们谈论可扩展性、效率还是灵活性，对于努力提供无与伦比的用…...

编程日记 2024/3/17 6:06:39

【分布式websocket 】前端vuex管理客户端消息crud！使用localStorage来存储【第19期】

前言聊天系统客户端是要存储消息的，因为所有所有的历史消息都从服务器拉的话一方面服务器压力大，另一方面也耗费用户流量。所以客户端存储消息是势在必行的。如何存储呢上一篇文章也写了，大概就是浏览器的话是localStorage或者IndexedDB。然…...

编程日记 2024/3/17 6:05:38

venv uvicorn python 虚拟服务器外网无法访问

python -m venv .venv source ./.venv/bin/activate pip install -r requirements.txt ./run.sh source ./.venv/bin/activate uvicorn main:app --reload 虚拟web服务器外网访问控制台启动命令用以下代码启动 uvicorn main:app --host 0.0.0.0 --port 8501 --reload 启动到后…...

编程日记 2024/3/17 6:04:37

一款博客网站源码

一款博客网站源码源码软件库为大家内置了主题清爽又强大真正的永久可用的一条源码，该版本为整合版本，内置了Joe主题，搭建后直接启用即可~ 安装环境要求： PHP 7.2 以上 MySQL, PostgreSQL, SQLite 任意一种数据库支持&#xff…...

编程日记 2024/3/17 6:03:36

【WiFi帧结构】

文章目录帧结构MAC头部管理帧帧结构 Wi-Fi的帧分为三部分组成：MAC头部frame bodyFCS，其中MAC是固定格式的，frame body是可变长度。 MAC头部有frame control，duration，address1，address2，addre…...

编程新知 2026/2/7 17:33:19

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了： 这一篇我们开始讲： 目录一、场景操作步骤二、日志基础关键字分级如下三、场景日志如下： 一、场景操作步骤操作步…...

编程新知 2026/1/30 10:10:55

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2026/1/22 21:24:01

STM32+rt-thread判断是否联网

一、根据NETDEV_FLAG_INTERNET_UP位判断 static bool is_conncected(void) {struct netdev *dev RT_NULL;dev netdev_get_first_by_flags(NETDEV_FLAG_INTERNET_UP);if (dev RT_NULL){printf("wait netdev internet up...");return false;}else{printf("loc…...

编程新知 2025/9/23 20:06:08

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

升级Dledger高可用集群一、主从架构的不足与Dledger的定位主从架构缺陷数据备份依赖Slave节点，但无自动故障转移能力，Master宕机后需人工切换，期间消息可能无法读取。Slave仅存储数据，无法主动升级为Master响应请求&#xff…...

编程新知 2025/9/2 3:37:40

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

编程新知 2025/10/3 17:30:30

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2026/1/20 17:18:59

GiT: Towards Generalist Vision Transformer through Universal Language Interface

摘要

核心方法

实验说明

Object Detection (目标检测)

Instance Segmentation (实例分割)

Semantic Segmentation (语义分割)

Captioning (图像标题生成)

结论

相关文章：