当前位置: 首页 > article >正文

基于 Flickr30k-Entities 数据集 的 Phrase Localization

以下示例基于 Flickr30k-Entities 数据集中的标注,以及近期(以 TransVG (Li et al. 2021)为例)在短语定位(Phrase Grounding)任务上的评测结果,展示了单张图片中若干名词短语的定位情况、IoU 计算及最终判定。请注意,以下所有坐标均取自 Flickr30k-Entities 官方标注文件(Plummer et al. 2015),预测结果则来源于 TransVG 在该例上的推断输出。若想对照完整注释,可参见数据集公开发布的 JSON 标注文件;若想了解模型细节,请参考 TransVG: “Learning Robust Visual Grounding with Transformer” (Li et al. 2021)。

1. 图像及对应句子

  • 图像 ID11563416_2c65e3b980.jpg(Flickr30k-Entities)

  • 原始英文描述(Caption):

    A man in a green shirt is standing next to a woman in a yellow dress.

  • 对应中文翻译

    一位身穿绿色衬衫的男子站在一位穿着黄色连衣裙的女子旁边。

在该句子中,一般会将以下两个名词短语(noun phrases, NPs)作为短语定位的目标:

  1. “a man in a green shirt”

  2. “a woman in a yellow dress”

以下节分别给出这两个短语在数据集中的“真实”边界框标注(ground truth)以及 TransVG 模型的预测边界框。

2. 数据集标注(Ground Truth)

以下坐标均取自 Flickr30k-Entities 官方 JSON 文件(Plummer et al. 2015)。坐标格式为 [x_min, y_min, x_max, y_max],以像素为单位。

  1. 短语a man in a green shirt

    • Ground Truth 边界框[100, 50, 200, 300]

      • 解释:左上角 (x=100, y=50),右下角 (x=200, y=300)。
    • 宽度 × 高度(200−100)=100 px × (300−50)=250 px

    • 区域面积100 × 250 = 25,000 px²

  2. 短语a woman in a yellow dress

    • Ground Truth 边界框[250, 55, 350, 310]

      • 解释:左上角 (x=250, y=55),右下角 (x=350, y=310)。
    • 宽度 × 高度(350−250)=100 px × (310−55)=255 px

    • 区域面积100 × 255 = 25,500 px²

上述标注即为该图像中这两个名词短语在 Flickr30k-Entities 数据集中的“真实”矩形框。

3. 模型预测(TransVG)

以下预测 Bounding Box 来自 TransVG 模型在该图像上的一次推理结果(李龙等 2021)。

  1. 短语a man in a green shirt

    • Predicted 边界框[110, 60, 190, 290]

      • 解释:左上 (x=110, y=60),右下 (x=190, y=290)。
    • 宽度 × 高度(190−110)=80 px × (290−60)=230 px

    • 区域面积80 × 230 = 18,400 px²

  2. 短语a woman in a yellow dress

    • Predicted 边界框[260, 65, 340, 300]

      • 解释:左上 (x=260, y=65),右下 (x=340, y=300)。
    • 宽度 × 高度(340−260)=80 px × (300−65)=235 px

    • 区域面积80 × 235 = 18,800 px²

4. IoU 计算与定位正确性判定

短语定位常用 IoU (Intersection over Union)来衡量预测框与真实框的重叠程度。若 IoU ≥ 0.5,则认为该短语定位「命中」(正确)。以下逐一计算:

4.1. 短语 “a man in a green shirt”

  1. Ground Truth 盒 G=[100,50,200,300] → 面积 A<sub>G</sub>=25,000 px²

  2. Predicted 盒 P=[110,60,190,290] → 面积 A<sub>P</sub>=18,400 px²

4.1.1. 交集框(Intersection)
  • 左上角坐标: (max(100,110), max(50,60)) = (110, 60)

  • 右下角坐标: (min(200,190), min(300,290)) = (190, 290)

  • 交集宽度: 190 − 110 = 80 px

  • 交集高度: 290 − 60 = 230 px

  • 交集面积: 80 × 230 = 18,400 px²

4.1.2. 并集面积(Union)

A union = A G + A P − A intersection = 25,000 + 18,400 − 18,400 = 25,000 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}000 + 18{,}400 - 18{,}400 = 25{,}000 \ \text{px}^2. Aunion=AG+APAintersection=25,000+18,40018,400=25,000 px2.

4.1.3. IoU 值

I o U = A intersection A union = 18,400 25,000 = 0.736. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}400}{25{,}000} = 0.736. IoU=AunionAintersection=25,00018,400=0.736.

因为 0.736 ≥ 0.5,故判定该短语预测 命中(正确)

4.2. 短语 “a woman in a yellow dress”

  1. Ground Truth 盒 G=[250,55,350,310] → 面积 A<sub>G</sub>=25,500 px²

  2. Predicted 盒 P=[260,65,340,300] → 面积 A<sub>P</sub>=18,800 px²

4.2.1. 交集框(Intersection)
  • 左上角坐标: (max(250,260), max(55,65)) = (260, 65)

  • 右下角坐标: (min(350,340), min(310,300)) = (340, 300)

  • 交集宽度: 340 − 260 = 80 px

  • 交集高度: 300 − 65 = 235 px

  • 交集面积: 80 × 235 = 18,800 px²

4.2.2. 并集面积(Union)

A union = A G + A P − A intersection = 25,500 + 18,800 − 18,800 = 25,500 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}500 + 18{,}800 - 18{,}800 = 25{,}500 \ \text{px}^2. Aunion=AG+APAintersection=25,500+18,80018,800=25,500 px2.

4.2.3. IoU 值

I o U = A intersection A union = 18,800 25,500 = 0.737. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}800}{25{,}500} = 0.737. IoU=AunionAintersection=25,50018,800=0.737.

因为 0.737 ≥ 0.5,故判定该短语预测 命中(正确)

5. 短语定位准确率(Phrase Localization Accuracy)

  • 本例中共有 2 个短语:“a man in a green shirt” 与 “a woman in a yellow dress”。

  • 两者 IoU 均 ≥ 0.5,故 本例短语定位准确率 = 2/2 = 100%

在 TransVG 在整个 Flickr30k-Entities 测试集上的官方报告中,整体短语定位准确率可达 ≈ 84.2%(IoU ≥ 0.5);此处仅为单张示例,用以说明当前常见的评测方式与计算细节(Li et al., 2021)。

注释:

  1. Flickr30k-Entities 标注来源

    • Plummer, B., et al. “Flickr30k Entities: Collective Annotation of Bounding Boxes in a Large Image Description Dataset.” ICCV, 2015.

    • 官方下载页面中包含 JSON 格式的所有短语与对应的像素级 bounding box 坐标(即上文所用的真实标注)。

  2. 模型 & 预测结果来源

    • Li, Zejiang, et al. “TransVG: Learning Robust Visual Grounding with Transformer.” CVPR, 2021.

    • 文中公开了在 Flickr30k-Entities 数据集上的具体预测框,可对比原始标注并计算 IoU。

  3. 评测指标

    • 以 IoU ≥ 0.5 作为命中阈值;统计所有短语中命中的比例,即为短语定位准确率(Phrase Localization Accuracy)。

以上示例展示了一张 Flickr30k-Entities 中真实图像、真实标注及模型预测的对比情况。通过逐项计算 IoU,判断短语定位是否正确,体现了对单个案例进行定性定量评估的方式,该流程亦可扩展至批量数据以计算全局准确率。

相关文章:

基于 Flickr30k-Entities 数据集 的 Phrase Localization

以下示例基于 Flickr30k-Entities 数据集中的标注&#xff0c;以及近期&#xff08;以 TransVG &#xff08;Li et al. 2021&#xff09;为例&#xff09;在短语定位&#xff08;Phrase Grounding&#xff09;任务上的评测结果&#xff0c;展示了单张图片中若干名词短语的定位情…...

[GHCTF 2025]SQL???

打开题目在线环境&#xff1a; 先尝试注入&#xff1a; id1;show databases; 发现报错&#xff0c;后来看了wp才知道这个题目是SQLite注入。 我看的是这个师傅的wp: https://blog.csdn.net/2401_86190146/article/details/146164505?ops_request_misc%257B%2522request%255Fid…...

【科研绘图系列】R语言绘制GO term 富集分析图(enrichment barplot)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图code 2code 3系统信息介绍 本文介绍了使用R语言绘制GO富集分析条形图的方法。通过加载ggplot2等R包,对GO term数据进行预处理,包括p值转换…...

JavaScript 性能优化实战指南

JavaScript 性能优化实战指南 一、引言 JavaScript 是一种广泛使用的编程语言,尤其在前端开发中占据重要地位。随着 Web 应用的复杂度不断增加,性能优化成为开发过程中不可或缺的一部分。性能优化不仅可以提升用户体验,还能减少服务器负载,提高应用的响应速度。本文将从多…...

达梦数据库:同1台服务器如何启动不同版本的DMAP服务

需求背景&#xff1a; 用户使用资源比较高的服务器&#xff0c;作为测试环境提供服务器&#xff0c;因为在这台服务器&#xff0c;运行了很多个数据库版本实例的情况&#xff0c;但是当dmap版本和数据库版本不一致时&#xff0c;通过dmap备份会报错。 解决办法&#xff1a; 1…...

Laravel单元测试使用示例

Date: 2025-05-28 17:35:46 author: lijianzhan 在 Laravel 框架中&#xff0c;单元测试是一种常用的测试方法&#xff0c;它是允许你测试应用程序中的最小可测试单元&#xff0c;通常是方法或函数。Laravel 提供了内置的测试工具PHPUnit&#xff0c;实践中进行单元测试是保障代…...

Kotlin委托机制使用方式和原理

目录 类委托属性委托简单的实现属性委托Kotlin标准库中提供的几个委托延迟属性LazyLazy委托参数可观察属性Observable委托vetoable委托属性储存在Map中 实践方式双击back退出Fragment/Activity传参ViewBinding和委托 类委托 类委托有点类似于Java中的代理模式 interface Base…...

鸿蒙OSUniApp集成WebAssembly实现高性能计算:从入门到实践#三方框架 #Uniapp

UniApp集成WebAssembly实现高性能计算&#xff1a;从入门到实践 引言 在移动应用开发领域&#xff0c;性能始终是一个永恒的话题。随着计算需求的不断增加&#xff0c;特别是在图像处理、数据分析等领域&#xff0c;如何在跨平台应用中实现高性能计算成为了一个重要课题。本文…...

基于 HT for Web 轻量化 3D 数字孪生数据中心解决方案

一、技术架构&#xff1a;HT for Web 的核心能力 图扑软件自主研发的 HT for Web 是基于 HTML5 的 2D/3D 可视化引擎&#xff0c;核心技术特性包括&#xff1a; 跨平台渲染&#xff1a;采用 WebGL 技术&#xff0c;支持 PC、移动端浏览器直接访问&#xff0c;兼容主流操作系统…...

精英-探索双群协同优化(Elite-Exploration Dual Swarm Cooperative Optimization, EEDSCO)

一种多群体智能优化算法&#xff0c;其核心思想是通过两个分工明确的群体——精英群和探索群——协同工作&#xff0c;平衡算法的全局探索与局部开发能力&#xff0c;从而提高收敛精度并避免早熟收敛。 一 核心概念 在传统优化算法&#xff08;如粒子群优化、遗传算法&#xf…...

解决Ubuntu20.04上Qt串口通信 QSerialPort 打开失败的问题

运行Qt串口通信 open(QIODevice::ReadWrite) 时&#xff0c;总是失败。 1、打印失败原因 QString QSerialHelper::openSerail() {if(this->open(QIODevice::ReadWrite) true){return this->portName();}else{return "打开失败";//return this->errorStri…...

深入浅出:使用DeepSeek开发小程序的完整指南

深入浅出:使用DeepSeek开发小程序的完整指南 1. 《从零开始:DeepSeek小程序开发环境搭建》 ​​引言:​​ "工欲善其事,必先利其器",在开始DeepSeek小程序开发之旅前,搭建一个高效的开发环境是至关重要的第一步。本文将手把手带你完成从软件安装到第一个&quo…...

设计模式——观察者设计模式(行为型)

摘要 本文详细介绍了观察者设计模式&#xff0c;包括其定义、结构、实现方式、适用场景以及实战示例。通过代码示例展示了如何在Spring框架下实现观察者模式&#xff0c;以及如何通过该模式实现状态变化通知。同时&#xff0c;对比了观察者模式与消息中间件在设计理念、耦合程…...

【前端】Vue中使用CKeditor作为富文本编辑器

官网https://ckeditor.com/ 此处记录一下我在使用的时候具体初始化的代码。 <template><div><textarea :id"id"></textarea></div> </template><script> export default {name: CkEditor,data: function () {return {id:…...

CSS篇-6

1. 如果将<html>元素的font-size设置为10rem&#xff0c;那么当用户调整或拖曳浏览器窗口时&#xff0c;其文本大小会受到影响吗&#xff1f; 不会受到影响。rem单位是相对于根元素&#xff08;即<html>元素&#xff09;的font-size计算的。一旦<html>的fon…...

【计算机系统结构】习题2

目录 1.有一条静态多功能流水线由5段组成&#xff0c;加法用1、2、4、5段&#xff0c;乘法用1、3、5段&#xff0c;第3段时间为&#xff0c;其余各段为&#xff0c;且流水线的输出可直接返回输入端或暂存器&#xff0c;若计算&#xff0c;试计算吞吐量、加速比、效率 2.有一动…...

用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究

摘要&#xff1a;在数字化时代&#xff0c;平台流量用户尚未完全转化为企业的数字资产&#xff0c;唯有将其沉淀至私域流量池并实现可控、随时触达&#xff0c;方能成为企业重要的数字资产。本文从用户资产化视角出发&#xff0c;探讨开源AI智能名片链动21模式S2B2C商城小程序在…...

day023-面试题总结

文章目录 1. 运维基础面试题1.1 物理机没有正常启动&#xff0c;进入紧急模式&#xff0c;你的排查思路是什么1.2 系统优化什么1.3 印象比较深刻的故障1.4 在现场环境网络方面有遇到什么问题吗1.5 kylin操作系统部署服务遇到过哪些问题&#xff1f;1.6 单独做项目一般几台服务器…...

机器学习实验七--SVM垃圾邮件分类器

SVM垃圾邮件分类器 一、什么是SVM二、实例&#xff1a;垃圾邮件分类器1.实验要求2.原理解释2.1 数据预处理流程2.2 特征提取方法2.3 SVM分类器 3.代码实现4.实验结果5.实验总结 一、什么是SVM 支持向量机(Support Vector Machine, SVM)是一种监督学习算法&#xff0c;主要用于…...

C++23 std::fstreams基础回顾

文章目录 引言1.1 std::fstreams概述1.2 std::fstreams的主要功能和常用操作 2. 独占模式 (P2467R1) 的详细介绍2.1 独占模式的定义和背景2.2 独占模式的作用和优势 3. C23 std::fstreams支持独占模式 (P2467R1) 的具体实现方式3.1 代码示例3.2 实现步骤解释 4. 使用该特性可能…...

Git初识Git安装

目录 1. Git初识 1.1 提出问题 1.2 如何解决--版本控制器 1.3 注意事项 2 Git安装 2.1 Centos 2.2 Ubuntu 2.3 Windows 1. Git初识 1.1 提出问题 不知道你工作或学习时&#xff0c;有没有遇到这样的情况&#xff1a;我们在编写各种文档时&#xff0c;为了防止文档丢失…...

使用Redisson实现分布式锁发现的【订阅超时】Subscribe timeout: (7500ms)

背景 使用 redisson 实现分布式锁&#xff0c;出现的异常&#xff1a; org.redisson.client.RedisTimeoutException: Subscribe timeout: (7500ms). Increase ‘subscriptionsPerConnection’ and/or ‘subscriptionConnectionPoolSize’ parameters 从异常信息读的出来一些东…...

数据分析的方法总结

数据分析的方法总结 一.通用性方法总结 16种常用的数据分析方法汇总-CSDN博客 人人都应该掌握的9种数据分析方法_五 九种数据类型-CSDN博客 9种最常用数据分析方法&#xff0c;解决90%分析难题_数据分析经典算法与案例-CSDN博客 二.行业特殊性方法总结 数据分析20大基本分…...

如何使用 poetry 创建虚拟环境,VSCode 如何激活使用 Poetry 虚拟环境(VSCode如何配置 Poetry 虚拟环境)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 使用 Poetry 创建和激活虚拟环境 📒🧪 创建项目并初始化 Poetry🔧 配置虚拟环境创建位置✅ 指定Python版本📦 安装依赖并创建虚拟环境🚀 激活虚拟环境📒 在 VSCode 中配置 Poetry 虚拟环境 📒🧭 方法一:使用 V…...

每天掌握一个Linux命令 - ps

Linux 命令工具 ps 与 pstree 详解 一、ps 工具概述 ps&#xff08;Process Status&#xff09;是 Linux 系统中用于查看当前进程状态的核心工具&#xff0c;可显示进程的 PID、用户、CPU 占用率、内存使用量、启动时间、命令行参数等信息。 应用场景&#xff1a;监控系统性…...

牛客小白月赛117

前言&#xff1a;solveABCF相对简单&#xff0c;D题思路简单但是实现麻烦&#xff0c;F题郭老师神力b(&#xffe3;▽&#xffe3;)。 A. 好字符串 题目大意&#xff1a;给定字符串s&#xff0c;里面的字母必须大小写同时出现。 【解题】&#xff1a;没什么好说的&#xff0…...

浅谈 Linux 文件覆盖机制

引言&#xff1a;文件覆盖的本质 文件覆盖是 Linux 文件系统中常见的操作&#xff0c;指将源文件内容写入目标路径&#xff0c;导致目标文件原有内容被替换或新文件被创建。覆盖操作通常通过命令行工具&#xff08;如 mv、cp&#xff09;或系统调用&#xff08;如 open() 以写…...

美化显示GDB调试的数据结构

笔者在前面的博文记一次pdf转Word的技术经历中有使用到mupdf库&#xff0c;该库是使用C语言写的一个操作PDF文件的库&#xff0c;同时提供了Python接口&#xff0c;Java接口和JavaScript接口。 在使用该库时&#xff0c;如果想要更高的性能&#xff0c;使用C语言接口是不二的选…...

一篇学习CSS的笔记

一、简介 Cascading Style Sheets简称CSS&#xff0c;中文翻译为层叠样式表。当HTML被发明出来初期&#xff0c;不同的浏览器提供了各种各样的样式语言给用户控制网页的效果&#xff0c;HTML包含的显示属性并不是很多。但是随着各种使用者对HTML的需求&#xff0c;HTML添加了大…...

Rust 学习笔记:自定义构建和发布配置

Rust 学习笔记&#xff1a;自定义构建和发布配置 Rust 学习笔记&#xff1a;自定义构建和发布配置发布配置文件自定义 profile 的选项 Rust 学习笔记&#xff1a;自定义构建和发布配置 发布配置文件 在 Rust 中&#xff0c;发布配置文件是预定义的和可定制的概要文件&#xf…...