论文阅读——RSGPT
RSGPT: A Remote Sensing Vision Language Model and Benchmark
贡献:构建了一个高质量的遥感图像描述数据集(RSICap)和一个名为RSIEval的基准评估数据集,并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型(RSGPT)。通过仅微调Q-Former网络和InstructBLIP的线性层,模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。
引言:
VLM是指集成计算机视觉和自然语言处理技术以实现对视觉和文本数据的整体理解的一类人工智能模型。通过同时分析视觉和语义模式,VLM 具有辨别视觉元素和语言信息之间复杂关系的能力,并提供更全面、更接近人类的视觉内容理解能力。
VLM 在遥感领域发展的一个具有挑战性的问题是缺乏大规模对齐的图像文本数据集。现有的RSI数据集大多专注于视觉识别任务,不提供语言注释。只有少数尝试构建图像文本RSI数据集,但数据规模和质量远未达到预期。
构建了一个高质量的遥感图像描述数据集(RSICap),以促进遥感领域大型 VLM 的开发。与之前采用模型生成的说明文字或简短描述的遥感数据集不同,RSICap 包含 2,585 个人工注释的说明文字,具有丰富且高质量的信息。该数据集提供每张图像的详细描述,包括场景描述(例如住宅区、机场或农田)以及物体信息(例如颜色、形状、数量、绝对位置等)。为了方便遥感领域VLM的评估,我们还提供了一个名为RSIEval的基准评估数据集。该数据集由人工注释的标题和视觉问答对组成,允许在遥感背景下对 VLM 进行全面评估。RSIEval由100个人工注释的标题和936个视觉问答对组成,包含丰富的信息和开放式的问题和答案。我们的目标是建立一个标准基准,涵盖各种遥感图像理解任务,包括图像字幕,视觉问题回答,视觉接地等。
在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型(RSGPT)。通过仅微调Q-Former网络和InstructBLIP的线性层,模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。
数据集介绍:
UCM-Captions 和Sydney-Captions:是最早的遥感图像字幕数据集,分别基于UCM数据集和Sydney数据集构建。
UCM-Captions:包含2100个图像和10500个字幕
Sydney-Captions:包含613个图像和3065个字幕
RSICD:包括10921张图像和54605个字幕,其中只有24333个不同的字幕
NWPUCaptions:包含31500张图片和157500个字幕。
这些数据集中的每幅图像都用五个简短的字幕进行了注释,但它们之间的差异相对较小,细节程度仅限于对主要场景的粗略描述。
RS5M:包含500万个对齐的图像文本对,平均标题长度为40个词汇。RS5M数据集是通过从公开可用的数据集(包括LAION400M和CC3 中仔细过滤RS相关图像,并利用BLIP2模型自动生成图像标题来创建的。
DOTA:来自不同卫星和航空传感器的图像,如GF-2,JL-1和Google Earth卫星图像,以及不同分辨率的航空图像。DOTA包括彩色和全色图像; DOTA数据集包含不同的场景。本文使用的DOTA-v1.5覆盖了16个对象类别; DOTA提供了类别和边界框标签,方便了感兴趣对象的统计计数。DOTA中图像的原始尺寸从800×800到4,000 × 4,000不等。
RSICaps:本文提出的数据集,是基于DOTA目标检测数据集构建RSICap。标题细节方面超过了RS5M数据集,平均长度为60个词汇。构建过程:将训练集中的图像分成大小为512×512的块,然后随机选择总共2,585块。五位遥感专家对图像作了注释。说明注记过程遵循以下原则:(1)描述图像属性,包括卫星/航空图像、彩色/全色图像和高/低分辨率;(2)描述对象属性,包括对象数量、颜色、形状、大小和空间位置(包括图像中的绝对位置和对象之间的相对位置);(3)一般而言,注释过程涉及首先描述图像的整体场景,然后描述特定对象。根据这些原则,我们生成了2,585个高质量的RS图像-文本对。
RSIEval:将DOTA-v1.5验证集中的图像分成大小为512×512的块,然后从这些块中选择100幅图像进行进一步的人工标注。5名遥感专家参加了注释。RSIEval由100个高质量的图像-标题对(每个图像一个标题)和936个不同的图像-问题-答案三元组(每个图像平均9个问题)组成。
方法:
Image Encoder:EVA-G; LLM:vicuna7b, vicuna13b
线性层:把Q-Former输出映射到LLM输入特征空间
训练:将InstructBLIP的预训练权重集成到RSGPT中,用RSICap数据集微调RSGPT中的Q-Former和线性层。
实验:
从细节描述、位置描述和幻觉描述三个维度对生成的遥感图像字幕质量进行四级评分。
RSICap数据集的分辨率多样性,场景多样性和合理推测的可视化。(a)RSICap涵盖不同分辨率的航空图像、全色卫星图像和彩色卫星图像。(b)RSICap覆盖机场、港口、网球场、居民区等多种场景。(c)注释器可以在标题生成期间添加合理推测的描述。
BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval图像字幕测试集上的定性比较。详细描述、位置描述和幻觉描述的分数在括号中用粗体字表示。预测字幕中的幻觉描述以蓝色突出显示。
BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval RSVQA测试集上的定性比较。问题类型在括号内以粗体显示。评分结果用对勾和叉号表示。
相关文章:

论文阅读——RSGPT
RSGPT: A Remote Sensing Vision Language Model and Benchmark 贡献:构建了一个高质量的遥感图像描述数据集(RSICap)和一个名为RSIEval的基准评估数据集,并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练…...

长连接技术
个人学习记录,欢迎指正 1.轮询 1.1 轮询的形式 短连接轮询 前端每隔一段时间向服务端发起一次Http请求来获取数据。 const shortPolling () > { const intervalHandler setInterval(() > {fetch(/xxx/yyy).then(response > response.json()).then(respo…...

供电系统分类详解
一、供电系统分类 电力供电系统一般有5种供电模式,常用的有:IT系统,TT系统,TN系统,其中TN系统又可以分为TN-C,TN-S,TN-C-S。 1、TN-C系统(三相四线制) 优点: 该系统中…...

基于centos7的k8s最新版v1.29.2安装教程
k8s概述 Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。 Kubernetes 这个名字源于希腊语&…...

【赠书第20期】AI绘画与修图实战:Photoshop+Firefly从入门到精通
文章目录 前言 1 入门篇:初识Photoshop与Firefly 2 进阶篇:掌握Photoshop与Firefly的核心技巧 3 实战篇:运用Photoshop与Firefly进行创作 4 精通篇:提升创作水平,拓展应用领域 5 结语 6 推荐图书 7 粉丝福利 前…...
如何在并行超算云上玩转PWmat③:使用Q-Flow提交计算的案例演示
3月的每周二下午14:00我们将会在并行直播间为大家持续带来线上讲座。前面两期我们分享了”PWmat特色功能和应用“以及“如何在并行超算云平台使用PWmat计算软件”主题讲座,回看视频和PPT已上传至B站”龙讯旷腾“账号内。 本周张持讲师将继续带着大家手把手上机教学…...
html5cssjs代码 017样式示例
html5&css&js代码 017样式示例 一、代码二、解释 这段HTML代码定义了一个网页的基本结构,包括头部、主体和尾部。在头部中,设置了网页标题、字符编码和样式。主体部分包含一个标题和一个表格,表格内分为两个单元格,左侧为…...
Vue.js动画
Vue.js动画 Vue.js动画是指在Vue组件中通过添加/移除CSS类或应用CSS过渡/动画效果来实现的视觉效果。这些动画可以帮助改善用户体验,使界面更加生动和吸引人。 Vue.js提供了两种类型的动画:过渡和动画。 过渡:过渡是在元素插入、更新或删除…...

信号与系统学习笔记——信号的分类
目录 一、确定与随机 二、连续与离散 三、周期与非周期 判断是否为周期函数 离散信号的周期 结论 四、能量与功率 定义 结论 五、因果与反因果 六、阶跃函数 定义 性质 七、冲激函数 定义 重要关系 作用 一、确定与随机 确定信号:可以确定时间函数…...

PyTorch深度学习实战(39)——小样本学习
PyTorch深度学习实战(39)——小样本学习 0. 前言1. 小样本学习简介2. 孪生网络2.1 模型分析2.2 数据集分析2.3 构建孪生网络 3. 原型网络3. 关系网络小结系列链接 0. 前言 小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分…...

论文阅读——Vision Transformer with Deformable Attention
Vision Transformer with Deformable Attention 多头自注意力公式化为: 第l层transformer模块公式化为: 在Transformer模型中简单地实现DCN是一个non-trivial的问题。在DCN中,特征图上的每个元素都单独学习其偏移,其中HWC特征图上…...

AJAX概念和axios使用、URL、请求方法和数据提交、HTTP协议、接口、form-serialize插件
AJAX概念和axios使用 AJAX概念 AJAX就是使用XMLHttpRequest对象与服务器通信,它可以使用JSON、XML、HTML和text文本等格式发送和接收数据,AJAX最吸引人的就是它的异步特性,也就是说它可以在不重新刷新页面的情况下与服务器通信,…...
【R语言基础操作】
🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一|统计学|干货分享 擅长Python、Matlab、R等主流编程软件 累计十余项国家级比赛奖项,参与研究经费10w、40w级横向 文…...

sqlite 常见命令 表结构
在 SQLite 中,将表结构保存为 SQL 具有一定的便捷性和重要性,原因如下 便捷性: 备份和恢复:将表结构保存为 SQL 可以方便地进行备份。如果需要还原或迁移数据库,只需执行保存的 SQL 脚本,就可以重新创建表…...
基于深度学习的车辆检测技术
基于深度学习的车辆检测技术是现代智能交通系统的重要组成部分,它利用计算机视觉和机器学习算法,特别是深度学习模型,来识别和定位图像或视频中的车辆。这项技术广泛应用于自动驾驶、交通监控、违章抓拍等多个领域。 深度学习车辆检测技术的…...
MyBatis 之三:配置文件详解和 Mapper 接口方式
配置文件 MyBatis 的配置文件是 XML 格式的,它定义了 MyBatis 运行时的核心行为和设置。默认的配置文件名称为 mybatis-config.xml,该文件用于配置数据库连接、事务管理器、数据源、类型别名、映射器(mapper 文件)以及其他全局属性…...

【PyTorch】基础学习:一文详细介绍 torch.load() 的用法和应用
【PyTorch】基础学习:一文详细介绍 torch.load() 的用法和应用 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程ὄ…...
事务、并发、锁机制的实现
配置全局事务 DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: mydb,USER:root,PASSWORD:pass,HOST:127.0.0.1,PORT:3306,ATOMIC_REQUESTS: True, # 全局开启事务,绑定的是http请求响应整个过程# (non_atomic_requests可局部实现不让事务控制)} } …...

PC-DARTS: PARTIAL CHANNEL CONNECTIONS FOR MEMORY-EFFICIENT ARCHITECTURE SEARCH
PC-DARTS:用于内存高效架构搜索的部分通道连接 论文链接:https://arxiv.org/abs/1907.05737 项目链接:https://github.com/yuhuixu1993/PC-DARTS ABSTRACT 可微分体系结构搜索(DARTS)在寻找有效的网络体系结构方面提供了一种快速的解决方案…...

git的下载与安装
下载 首先,打开您的浏览器,并输入Git的官方网站地址 点击图标进行下载 下载页面会列出不同操作系统和平台的Git安装包。根据您的操作系统(Windows、macOS、Linux等)和位数(32位或64位),选择适…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...
Java 8 Stream API 入门到实践详解
一、告别 for 循环! 传统痛点: Java 8 之前,集合操作离不开冗长的 for 循环和匿名类。例如,过滤列表中的偶数: List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八
现象1 打开VMware失败 Ubuntu升级之后打开VMware上报需要安装vmmon和vmnet,点击确认后如下提示 最终上报fail 解决方法 内核升级导致,需要在新内核下重新下载编译安装 查看版本 $ vmware -v VMware Workstation 17.5.1 build-23298084$ lsb_release…...
Objective-C常用命名规范总结
【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...
Linux云原生安全:零信任架构与机密计算
Linux云原生安全:零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言:云原生安全的范式革命 随着云原生技术的普及,安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测,到2025年,零信任架构将成为超…...

C# 类和继承(抽象类)
抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...
HTML前端开发:JavaScript 常用事件详解
作为前端开发的核心,JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例: 1. onclick - 点击事件 当元素被单击时触发(左键点击) button.onclick function() {alert("按钮被点击了!&…...

springboot整合VUE之在线教育管理系统简介
可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生,小白用户,想学习知识的 有点基础,想要通过项…...
Java毕业设计:WML信息查询与后端信息发布系统开发
JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发,实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构,服务器端使用Java Servlet处理请求,数据库采用MySQL存储信息࿰…...
JS手写代码篇----使用Promise封装AJAX请求
15、使用Promise封装AJAX请求 promise就有reject和resolve了,就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...