当前位置: 首页 > news >正文

论文解读(14)-GeoCLIP

加油,加油!

原文:
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
(2309.16020 (arxiv.org))

  • 这一篇的重点在于范围放宽到全球了

摘要

首先指出了目前全球性的图像定位缺点,地球的地理分布具有多样性的特征,所以很难进行泛化。然后之前的方法是将地球进行切割,分成多个区域,然后按照分类问题进行考虑。

但是GeoCLIP则是引入了GPS坐标,增强了定位的连续性。所以这是一个Image-to-GPS的算法。

GeoCLIP’s location encoder models the Earth as a continuous function by employing positional encoding through random Fourier features and constructing a hierarchical representation that captures information at varying resolutions to yield a semantically rich highdimensional feature suitable to use even beyond geo-localization.

(这一段,有一点不是很懂随机傅里叶特征的作用,看文章后面有没有详细解释)
(GeoCLIP 的位置编码器通过随机傅里叶特征采用位置编码,并构建层次表示,以不同分辨率捕获信息,以产生语义丰富的高维特征,即使在地理定位之外也适合使用,从而将地球建模为连续函数。)

1. Intro

在这里插入图片描述

  • 重点在于建立起了相似性

contribution:

  • 第一个解决全球化的Image-to-GPS问题
  • 第二点有点疑惑(我们的位置编码器将位置编码与随机傅里叶特征相结合,可有效编码 GPS 坐标并减轻 MLP 中的光谱偏差。此外,我们使用指数西格玛赋值策略来促进学习不同分辨率下的分层特征)之后看详细介绍

Our location encoder incorporates positional encoding with random Fourier features to efficiently encode GPS coordinates and mitigate spectral bias in MLPs. In addition, we use an exponential sigma assignment strategy to facilitate learning hierarchical features at different resolutions

  • 多功能性,可用于地理以外的出任务
  • 支持文本查询
  • 少样本效果也很好

2. Related Works

  • Global Image Prediction
  • Learning from GPS Data
  • Contrastive Learning

3. Proposed Approach

设置目标:

  • 精确找到图像对应的地理坐标(经纬度)
    在这里插入图片描述

然后和CLIP一样,有两个Encoder,分别是Location Encoder(L)和 Image Encoder(V)

3.1.1 Image Encoder
  • 因为CLIP中自带这一块,所以选择沿用
    在这里插入图片描述
3.1.2 Location Encoder

采用了多种方法:

  • 用地球投影表示GPS坐标(GPS coordinates using equal earth projection)
  • 随机傅里叶变换进行位置编码(using positional encoding through random Fourier features)

Equal Earth Projection(EEP)
在这里插入图片描述

  • 因为地球是存在角度,并非平面,因此我觉得是这篇文章需要转化的原因

After applying the EEP, we scale the resulting longitude in the range −1 to 1, and the latitude values are scaled proportionally.

  • 最后,经度会缩放至-1到1的区间内,同样纬度也会按比例缩放

Random Fourier Features (RFF):
因为需要捕获边缘变化部分,也就是高频成分,所以先进行了傅里叶变换,在频率域中就可以很好的分别出高频部分。
(道理可能如此,但是有些看不懂)

We limit the frequencies using a fixed matrix R, whose entries are sampled from a Gaussian distribution with the standard deviation (σ). The matrix R is set at the beginning of training and remains unchanged throughout the training process. The RFF operation γ(·) encodes GPS coordinate G′ i as γ(G′ i ) = [cos(2πRG′ i ),sin(2πRG′ i )]T, where the entries of a mth row and n th column of matrix R are rm,n ∼ N (0, σ).

Hierarchical Representation:
上面说到频率范围由sigma参数控制,因此可以对其进行分层操作:
在这里插入图片描述

3.2 Model Training

在训练过程中用到了数据增强,(方法与SimCLR增强的方式相同)

  • 基于的原理就是再入噪声

loss:
在这里插入图片描述

  • 这里明显可以看出是一个类似CLIP的对比损失

4. 实验

在这里插入图片描述

  • 可以理解为准确率
  • 数值是代表落在制定区域内的概率(或者说准确判定街道或者国家的概率)

在这里插入图片描述

  • 这里讲了小样本的学习效果,因为是CLIP所以效果自然不会很差

总体上,这篇论文的主题就是这样了。

相关文章:

论文解读(14)-GeoCLIP

加油,加油! 原文: GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (2309.16020 (arxiv.org)) 这一篇的重点在于范围放宽到全球了 摘要 首先指出了目前…...

MySQL基础练习题16-电影评分

题目 准备数据 分析数据 总结 题目 查找评论电影数量最多的用户名。如果出现平局,返回字典序较小的用户名。 查找在 February 2020 平均评分最高 的电影名称。如果出现平局,返回字典序较小的电影名称。 准备数据 ## 创建库 create database db; u…...

CRMEB-众邦科技 使用笔记

1.启动项目报错 Unable to load authentication plugin ‘caching_sha2_password’. 参考&#xff1a;http://t.csdnimg.cn/5EqaE 解决办法&#xff1a;升级mysql驱动 <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</ar…...

npm与webpack的学习笔记

npm 定义&#xff1a;npm是Node.js标准的软件包管理器。它起初是作为下载和管理Node.js包依赖的方式&#xff0c;但其现在也已成为前端JavaScript中使用的工具。 包 包&#xff1a;将模块、代码、其他资料聚合成一个文件夹 包的分类&#xff1a; 项目包&#xff1a;主要用…...

Vue 生命周期选项:2.x 与 3.x 的全面解析及案例分享二

目录 Vue3.X生命周期 介绍 流程图 案例 ​​​​​​​this.$nextTick Vue 生命周期选项:2.x 与 3.x 的全面解析及案例分享一-CSDN博客 Vue3.X生命周期 介绍 beforeCreate:在实例初始化之后,数据观测 (data observer) 和 event/watcher 事件配置之前被调用。此时无法访…...

Linux centos7 安装sftp

这里写自定义目录标题 指定 SSH 默认端口 (通常是22)添加自定义端口确保 SFTP 子系统配置存在匹配自定义端口的配置 在 CentOS 7 上安装 SFTP 并使用自定义端口 22345 启动&#xff0c;同时不影响现有的 SSH 登录&#xff0c;可以按照以下步骤进行配置&#xff1a; 步骤 1: 安…...

Java未来还是霸主吗?Java 在当今企业中的未来到底是什么?

Java 及其生态系统对于许多现代企业的成功至关重要。它是一种多功能语言&#xff0c;对许多用例提供强大支持&#xff0c;并具有强大的新功能来应对棘手的情况。但您可能会问自己&#xff1a;Java 的未来是什么&#xff1f; 尽管自 1999 年以来 Java 一直是软件开发领域的关键角…...

【C++】类和对象——Lesson2

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C &#x1f680;本系列文章为个人学习笔记…...

常用传感器讲解十五--触摸传感器(KY-036)

常用传感器讲解十五–触摸传感器&#xff08;KY-036&#xff09; 具体讲解 这个比较简单&#xff0c;就是触摸后给个信号 电路连接 在Arduino上将VCC引脚连接到5V。 将GND连接到Arduino的GND。 将OUT连接到Arduino上的D2 代码实现 void setup() {pinMode(2, INPUT);Seri…...

web后端--Spring事务管理

事务也要日志配置 !!!!debug前面记得加空格 logging:level:org.springframework.jdbc.support.JdbcTransactionManager: debugrollbackFor 默认情况下&#xff0c;只有出现RunTimeException才会回滚事务&#xff0c;rollbackfor属性用于控制出现何种异常类型&#xff0c;回滚…...

【Docker系列】Docker 中-d 和-it 的区别

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

PHP回收废品平台系统小程序源码

&#x1f30d;绿色行动&#xff0c;从“回收废品平台系统”开始&#xff01;&#x1f69a; &#x1f6aa;【家门口的环保站&#xff0c;废品不再无处安放】 你是否曾为家里的旧报纸、空瓶子、废旧电器等废品头疼不已&#xff0c;不知该如何处理&#xff1f;现在&#xff0c;“…...

IIS解析漏洞~ IIS7.漏洞分析

IIS解析漏洞 文件解析漏洞是由于中间件错误的将特殊格式的文件解析成可执行网页文件(脚本)&#xff0c;配合文件上传漏洞进行GetShell的漏洞&#xff01; 1.2&#xff1a;IIS7.X 在IIS7.0和IIS7.5版本下也存在解析漏洞&#xff0c;在默认Fast-CGI开启状况下&#xff0c;在一个文…...

基于python+django的病人人信息管理系统及安全策略分析设计与实现

博主介绍&#xff1a; 大家好&#xff0c;本人精通Java、Python、C#、C、C编程语言&#xff0c;同时也熟练掌握微信小程序、Php和Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验&#xff0c;能够为学生提供各类…...

前端必知必会-html表单的input属性

文章目录 HTML 输入属性value 属性readonly 属性disabled 属性size 属性maxlength 属性min 和 max 属性multiple 属性pattern 属性placeholder 属性required 属性step 属性autofocus 属性height 和 width 属性list 属性autocomplete 属性总结 HTML 输入属性 本章介绍 HTML <…...

设计模式:详细拆解策略模式

策略模式 既然是详解&#xff0c;就不以案例开头了&#xff0c;直奔主题&#xff0c;先来看看什么是策略模式。 模式定义 定义一系列的算法&#xff0c;把它们一个个封装起来&#xff0c;并且使它们可相互替换。本模式 使得算法可独立于使用它的客户而变化。 结构 Strategy&a…...

Python正则表达式面试题分析总结

Python正则表达式面试题主要围绕Python内置的re模块展开&#xff0c;考察的是应聘者对于正则表达式的理解、使用以及在实际问题中的应用能力。以下是对这些面试题的详细分析总结&#xff1a; 正则表达式基础&#xff1a; re模块简介&#xff1a;Python中的re模块提供了正则表达…...

LeetCode题练习与总结:超过经理收入的员工--181

一、题目描述 SQL Schema > Pandas Schema > 表&#xff1a;Employee ---------------------- | Column Name | Type | ---------------------- | id | int | | name | varchar | | salary | int | | managerId | int | ----…...

LInux:循环语句

LInux&#xff1a;循环语句 if-else语句 if 语句语法格式 if [ $a -gt $b ]; then echo "a>b" fiif [ $a -gt $b ]; then echo "a>b"echo "a!b"echo "true" fiif-else语句 if-else 语句语法格式 if [ $a -gt $b ]; then echo &q…...

NumPy和Pandas中的布尔索引

布尔索引&#xff08;Boolean Indexing&#xff09;是数据分析中一种强大且常用的技术&#xff0c;用于通过布尔值数组&#xff08;即包含 True 和 False 的数组&#xff09;来选择数据子集。布尔索引可以用于 NumPy 数组、Pandas 数据框等数据结构。 布尔索引是一种非常有用的…...

如何在FF14中实现三倍效率的钓鱼体验?智能计时助手完全解析

如何在FF14中实现三倍效率的钓鱼体验&#xff1f;智能计时助手完全解析 【免费下载链接】Fishers-Intuition 渔人的直感&#xff0c;最终幻想14钓鱼计时器 项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 在《最终幻想14》的广阔世界中&#xff0c;钓鱼…...

不使用void HAL_TIM_Encoder_MspInit(TIM_HandleTypeDef* tim_encoderHandle)增强代码的层级结构注意事项

这是正常用cube Max生成的代码&#xff0c;这里以设置编码器为例。 GPIO初始化函数放在HAL_TIM_Encoder_MspInit这个回调函数中。代码正常运行/* TIM3 init function */ void MX_TIM3_Init(void) {TIM_Encoder_InitTypeDef sConfig {0};TIM_MasterConfigTypeDef sMasterConfig…...

Chrome for Testing:如何用3个核心策略解决Web自动化测试的版本管理困境

Chrome for Testing&#xff1a;如何用3个核心策略解决Web自动化测试的版本管理困境 【免费下载链接】chrome-for-testing 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-for-testing 在Web自动化测试领域&#xff0c;版本兼容性问题每年导致企业损失数千小时的…...

CentOS 7服务器上,从零搞定NVIDIA驱动和CUDA 11.1的保姆级避坑指南

CentOS 7服务器NVIDIA驱动与CUDA 11.1实战避坑手册 接手一台老旧GPU服务器时&#xff0c;最令人头疼的莫过于搭建深度学习环境。那些看似简单的安装步骤背后&#xff0c;往往隐藏着无数个让新手崩溃的"坑"。本文将带你穿越雷区&#xff0c;用最稳妥的方式在CentOS 7上…...

Vivado功耗分析保姆级教程:从综合后DCP到布局布线后的精确估算

Vivado功耗分析深度实战&#xff1a;从DCP文件到精准优化策略 在FPGA设计流程中&#xff0c;功耗分析往往被工程师视为"最后一公里"的验证环节&#xff0c;但实际上它应该贯穿整个设计周期。Xilinx Vivado提供的功耗分析工具链&#xff0c;能够帮助我们从早期综合阶段…...

MonoGame内存使用监控:自定义性能计数器实现终极指南

MonoGame内存使用监控&#xff1a;自定义性能计数器实现终极指南 【免费下载链接】MonoGame One framework for creating powerful cross-platform games. 项目地址: https://gitcode.com/gh_mirrors/mo/MonoGame MonoGame作为一款强大的跨平台游戏开发框架&#xff0c;…...

如何快速定制ydata-profiling报告模板:CSS样式修改完全指南

如何快速定制ydata-profiling报告模板&#xff1a;CSS样式修改完全指南 【免费下载链接】fg-data-profiling 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames. 项目地址: https://gitcode.com/gh_mirrors/yd/fg-da…...

Adobe GenP 3.0终极指南:3步解锁全系列Adobe CC软件

Adobe GenP 3.0终极指南&#xff1a;3步解锁全系列Adobe CC软件 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 还在为Adobe Creative Cloud高昂的订阅费用而烦恼吗…...

< 12 > Linux进程:进程虚拟地址空间机制 —— 内存管理的美学

1. 程序地址空间回顾C语言阶段学习过程序地址空间&#xff0c;长这样代码段&#xff0c;数据段&#xff1a;这些是常量区&#xff0c;栈区&#xff0c;堆区&#xff0c;还有一些系统需要的空间这些是内存吗&#xff1f; ——不是内存。这些都是虚拟地址空间&#xff0c;OS给我们…...

AI技能库设计:构建大语言模型的可执行能力框架

1. 项目概述&#xff1a;一个AI技能库的诞生与价值最近在GitHub上看到一个挺有意思的项目&#xff0c;叫haliphax-ai/skills。光看名字&#xff0c;你可能会觉得这又是一个关于“技能”的泛泛而谈的仓库。但点进去之后&#xff0c;我发现它的定位非常精准&#xff1a;这是一个专…...