当前位置：首页 > news >正文

一些 VLP 下游任务的相关探索

news 2026/5/13 23:50:07

一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的：

数据集格式

训练流程

evaluation流程

实际使用推测猜想

二、Visual Question Answering （VQA ，视觉问答）

任务目的

数据集格式

训练流程

demo以及评估流程

三、Visual Entailm (VE, 视觉蕴含)

任务目的

数据集格式

训练流程

评估及demo流程

四、Visual Grounding （VG, 视觉定位）

任务目的

数据集格式

训练流程

demo流程

五、Natural Language for Visual Reasoning(NLVR2, 自然语言视觉推理)

任务目的

数据集格式

训练过程

一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的：

检索与给定文本最匹配的图像，或者给定图像最匹配的文本。

跨模态图像-文本检索（ITR）是根据用户给定的一种模态中的表达，从另一模态中检索出相关样本，通常包括两个子任务：图像-文本（i2t）和文本-图像（t2i）检索。

数据集格式

以 filter8k数据集为例。官网🤠

其 caption target 的格式为

1000268201_693b08cb0e.jpg,A child in a pink dress is climbing up a set of stairs in an entry way .
1000268201_693b08cb0e.jpg,A girl going into a wooden building .
1000268201_693b08cb0e.jpg,A little girl climbing into a wooden playhouse .
1000268201_693b08cb0e.jpg,A little girl climbing the stairs to her playhouse .
1000268201_693b08cb0e.jpg,A little girl in a pink dress going into a wooden cabin .
1001773457_577c3a7d70.jpg,A black dog and a spotted dog are fighting
1001773457_577c3a7d70.jpg,A black dog and a tri-colored dog playing with each other on the road .
1001773457_577c3a7d70.jpg,A black dog and a white dog with brown spots are staring at each other in the street .
1001773457_577c3a7d70.jpg,Two dogs of different breeds looking at each other on the road .
1001773457_577c3a7d70.jpg,Two dogs on pavement moving toward each other .

可以看到，每张图片配有五个不同的标题。图片和标题实况举例

image：

caption：

A child in a pink dress is climbing up a set of stairs in an entry way . # 一个穿着粉红色连衣裙的孩子正在爬入口处的一组楼梯。
A girl going into a wooden building .  # 一个女孩走进一栋木屋。
A little girl climbing into a wooden playhouse .  # 一个小女孩爬进了一个木制的剧场。
A little girl climbing the stairs to her playhouse .  # 一个小女孩爬楼梯去她的游戏屋。
A little girl in a pink dress going into a wooden cabin .  # 一个穿着粉红色连衣裙的小女孩走进一间木屋。

在训练时，image会经过数据增强，caption对一些噪声符号进行去除，然后每条注释格式会进行配对，（image，caption， idx）。其中idx是图像的索引。（idx用来索引图像，作为文本检索图像时模型的预测目标）

注意：这里虽然是单个图像与单个文本配对儿，实际上每个图像对应五条文本，只不过不是一次性的训练，即一图像与五条文本配对，而是分开的一对一作为样本对儿。

训练流程

1、 caption text 进行量化，text token送入 text encoder， image 送入 image encoder。

2、计算ITC损失。过程中利用idx构造真实图像文本匹配的one hot target。可以参考这里 🐼 ，

3、文本表征与图像表征送入多模态Encoder，进行融合前向处理。

计算 ITM损失。可以参考这里 👿

evaluation流程

1、text token 送入text Encoder， image 送入 image Encoder

2、计算相似性矩阵。例如
sims_matrix = image_embeds @ text_embeds.t()
主要目的是拿出image space 和 text space中最对齐的特征送入多模态Encoder中去。计算分数。

这个过程重复两次，一次是 i2t ,一次是t2i

最终返回的是匹配分数矩阵。

3、进行评估。

评估细节用工具 API实现的，因此这里不做详述。

实际使用推测猜想

本次没有做实际使用demo的相关代码阅读。不过根据evaluate，在实际使用的时候，不管是图像-文本，还是文本-图像，最终的检索结果只能包含于使用的训练数据集中。因为它是根据索引去选择预测的结果，而不是生成式的去生成结果。

因此，实际使用中，是需要有这样的一个包含图像-文本对儿的数据库去检索的，你输入的单一模态的数据可以不来源数据集，但是它会去数据集中匹配最佳的结果。而不是说像GPT那样你描述一个场景，它去给你生成。当然，GPT等可能也融合了这种检索任务，你描述的场景如果存在，就去检索，不存在则去生成。我感觉那种网上的搜索任务，比如根据问题描述去找解决办法，可以靠这种检索去实现。有的根据描述问题让GPT去编写代码，很大可能都是靠检索去完成的（利用一个很大的代码库，比如github上的，leetcode上的）。实际靠语言模型去回归预测代码的编写感觉不太靠谱。（只限于目前自己的联想，因为学习也是循序渐进的，视野也是逐渐走向开阔的，不可能保证一开始的认知就是正确的，哈哈。如有错误，请求指正。）

二、Visual Question Answering （VQA ，视觉问答）

任务目的

VQA的任务是通过理解图像中的内容并结合问题的文本描述，生成合适的答案。

回答有关图像的问题。大多数研究人员将其视为一项分类任务，即从答案库中选择正确的答案。

通过给定一个图像和一段关于图像的自然语言，这个任务将提供一个精确的自然语言答案。这个任务可以映射到现实生活的场景中：比如说帮助视障人士，问题和答案都是开放性的。

数据集格式

以VQA 数据集为例，官网🤠

这个数据集的配置分成了四个部分：注释（即答案）、问题、图像、互补对其列表。

1、注释示例

{"question_type": "what is this", "multiple_choice_answer": "net", "answers": [{"answer": "net", "answer_confidence": "maybe", "answer_id": 1}, {"answer": "net", "answer_confidence": "yes", "answer_id": 2}, {"answer": "net", "answer_confidence": "yes", "answer_id": 3}, {"answer": "netting", "answer_confidence": "yes", "answer_id": 4}, {"answer": "net", "answer_confidence": "yes", "answer_id": 5}, {"answer": "net", "answer_confidence": "yes", "answer_id": 6}, {"answer": "mesh", "answer_confidence": "maybe", "answer_id": 7}, {"answer": "net", "answer_confidence": "yes", "answer_id": 8}, {"answer": "net", "answer_confidence": "yes", "answer_id": 9}, {"answer": "net", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752000}
=============
{"question_type": "what", "multiple_choice_answer": "pitcher", "answers": [{"answer": "pitcher", "answer_confidence": "yes", "answer_id": 1}, {"answer": "catcher", "answer_confidence": "no", "answer_id": 2}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 3}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 4}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 5}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 6}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 7}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 8}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 9}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752001},

举了两个例子。可以看到一问题有10个答案。这里只列举了两个，其实看那个 image id，一个图片大概可以有五个问题，那么综合起来，每个图片有 5*10=50 个问答场景。

2、问题示例

{"image_id": 458752, "question": "What is this photo taken looking through?", "question_id": 458752000}, {"image_id": 458752, "question": "What position is this man playing?", "question_id": 458752001}, {"image_id": 458752, "question": "What color is the players shirt?", "question_id": 458752002}, {"image_id": 458752, "question": "Is this man a professional baseball player?", "question_id": 458752003},

图像id，问题caption，以及问题id。

3、图像示例

{"file_name": "abstract_v002_train2015_000000011779.png", "image_id": 11779, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/11779.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000005536.png", "image_id": 5536, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/5536.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000016949.png", "image_id": 16949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/16949.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000019949.png", "image_id": 19949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/19949.png", "width": 700},

图像文件的name，图像id，图像的地址url，以及长和宽等信息

4、互补对齐列表示例

[158307014, 254204008], [158307013, 89462005], [472405000, 79224002]

两个问题的id。这个是由于存在当两个不同的图片伴相同的问题，但是有着不同的答案的场景。

具体地示例展示

训练流程

以ALBEF算法中VQA流程的为例

1、image 送入 encoder，然后与 question token（量化后的）一起送入Multimodal Encoder（这里 text encoder也一起包含其中了，区分就是Bert的前6层与后6层，以及多模态使用cross attention 层）

2、将 answer 的 token ，上面得到的question state 送入decoder，跟据Bert的流程去计算损失。

ABLEF文中所述采用 condition language-model loss

BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示（即句子embedding），从而用于下游的分类任务等。与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。

demo以及评估流程

1、将 question 的token 和 image token 送入多模态Encoder，

2、然后将answer 的 token，上面的、得到的question states 送入decoder，采用 cls token对应的序列作为预测输出

（这里暂时有个疑问）

输入包含了answer，text decoder 被用了两次，第一次是与answer id 相关，第二次是通过第一选出来的（根据其topk的索引） input ids 相关。最终将第一次与第二次的输出一起拼接起来做选择。

文中所述，说明在评估或者使用时需要使用候选的答案的。

且其是生成式的，而不是预测分类索引。

综上，VQA可以是预测answer的索引（相当于one hot 编码），即分类任务。也可以采用语言模型的自回归方式去生成answer的索引，算是回归式任务（回归的目标就是answer词库中被量化的索引，最终回归单词相当于反量化）。但无论哪种，和语言模型一样，answer都有着其事先的“词库”，所以归根结底这还是一个NLP领域的任务，图片只是作为了一种独特的语言描述参与其中。

三、Visual Entailm (VE, 视觉蕴含)

任务目的

给定一个假设，看是否能推理出前提。如果能推理出来则说明是蕴含entailment的关系，推不出来contradictory，无法判断neutral。所以可以说是一个三分类问题。

用来预测图像和文本之间的关系是隐含的、中性的还是矛盾的。

数据集格式

以SNLI-VE 数据集为例，官网👹

下面图片来源于官网

训练流程

1、数据预处理。将图片，句子（也就是hypothesis，）和注释labels（也就是标签的类别）组成一个样本对儿。

2、sentence 量化，image送入Image Encoder，然后与sentence一起送入多模态Encoder中。

3、2中的输出送入一个分类head，输出三分类的预测prediction（最终只要 cls token维度的）。

4、用prediction和labels计算损失，损失采用交叉熵。

评估及demo流程

将上述最终的prediction直接取分数最大的维度，做为其预测输出的类别。至于评估指标，为分类准确率。

综上所述，这个任务感觉是图像-文本匹配任务的进阶版。不同的是由于图像-文本匹配(ITM)只有二分类，其衡量的指标是相似度的大小，嵌合对比学习，所以其更加适配MoCo算法那样去做为预设任务来训练部分模型的表征能力。而三分类的VE是一个分类任务，其可以做为下游任务，我感觉其也可以像图像分类那样做为迁移学习的预训练任务来训练模型的骨干网络，进而训练一个整体的骨干网络的表征能力。

四、Visual Grounding （VG, 视觉定位）

任务目的

视觉定位（Visual grounding）是一种在计算机视觉和自然语言处理领域中的概念，指的是将自然语言描述与图像中的特定视觉内容相匹配的过程。听上去和目标检测非常类似，区别在于输入多了语言信息，在对物体进行定位时，要先对语言模态的输入进行理解，并且和视觉模态的信息进行融合，最后利用得到的特征表示进行定位预测。

数据集格式

以MSCOCO数据集为例，官网🧐

下面图片来源于官网

可以看到，每张图片包含了5个描述，以及object segmentation，应该还包括bounding box的信息。举例：

caption:

a surprised looking black cat by a bookcase
a black cat sitting next to a bookshelf.
a black cat in front of a wooden bookshelf.
a black cat staring into the light in front of a bookshelf.
black cat sitting in front of a bookshelf.
#
书架旁一只一脸惊讶的黑猫
一只黑猫坐在书架旁边。
木制书架前的一只黑猫。
一只黑猫盯着书架前的灯光。
黑猫坐在书架前。

训练流程

ALBEF文中所述

因此其训练流程与一中的文本检索一样。

demo流程

ALBEF中是以 grad CAM 热力图的方式体现出模型所关注图片中文本所描绘的地方。实际这个领域应该需要去根据文本的描述去定位目标对象，可以以bbox的形式或者分割的形式体现模型的预测输出结果。因此语言描述做为辅助信息，这个任务隶属于CV领域的任务占比更大。ALBEF的做法只是不同的体现，它可视化了ITR任务中，模型对句子中的成分所关注的图片区域。

五、Natural Language for Visual Reasoning(NLVR2, 自然语言视觉推理)

任务目的

要求模型判断关于图像对地语句是否正确，可将其视为一个二分类任务。视觉推理的自然语言（NLVR2 [19]）要求模型预测文本是否描述了一对图像。

数据集格式

NLVR2数据集，官网 🤓

训练过程

模型需要输入一对儿图片，因此，Image Encoder 和 Multimodal block 被用两次。

ALBEF中

其做了扩展，看作了三分类问题，也就是分类文本匹配第一图像、匹配第二个图像还是都不匹配。

感觉这个和视觉蕴含（VE）任务很想。视觉蕴含是一个图像去判断句子的匹配度，换另一个视觉，一个图像对三种类别的句子有着不同的匹配程度，属于单一图像对三个句子的可能性范畴（自己瞎起的）。而这个NLVR任务是判断描述是否匹配了一对儿图像，ALBEF做了扩展，使其有三种可能，换个角度看，一个描述语句对三种类别（两个图像外加一个空类别）的图像有着不同的匹配程度，属于单一句子对三个图像的可能性范畴。

一些 VLP 下游任务的相关探索

目录一、Image-Text Retrieval (ITR , 图像文本检索) 任务目的： 数据集格式训练流程 evaluation流程实际使用推测猜想二、Visual Question Answering （VQA ， 视觉问答） 任务目的数据集格式训练流程 demo以及评估流…...

编程日记 2024/4/14 6:10:54

【opencv】示例-pca.cpp PCA图像重建演示

// 加载必要的头文件 #include <iostream> // 用于标准输入输出流 #include <fstream> // 用于文件的输入输出 #include <sstream> // 用于字符串的输入输出流操作#include <opencv2/core.hpp> // OpenCV核心功能的头文件 #include "o…...

编程日记 2024/4/14 6:06:48

C语言中的编译和链接

系列文章目录文章目录编辑系列文章目录文章目录前言一、翻译环境和运行环境二、翻译环境 2.1 编译 2.1.1 预处理 2.1.2 编译 2.1.2.1 词法分析 : 2.1.2.2 语法分析 2.1.2.3 语义分析 2.1.3 汇编 2.2 链接三、运行环境前言在我们平常的写代码时，我们很…...

编程日记 2024/4/14 6:05:47

如何将三方库集成到hap包中——通过IDE集成cmak构建方式的C/C++三方库

简介 cmake构建方式是开源三方库的主流构建方式。DevEco Studio目前以支持cmake的构建方式。本文将通过在IDE上适配cJSON三方库为例讲来解如何在IDE上集成cmake构建方式得三方库。创建工程在开发进行三方库适配以及napi接口开发前，我们需要创建一个三方库对应的…...

编程日记 2024/4/14 6:04:46

Towards Street-Level Client-Independent IP Geolocation（2011年）（第二部分）

被引次数：306 Wang Y, Burgener D, Flores M, et al. Towards {Street-Level}{Client-Independent}{IP} Geolocation[C]//8th USENIX Symposium on Networked Systems Design and Implementation (NSDI 11). 2011. 接着Towards Street-Level Client-Independent IP Geolocati…...

编程日记 2024/4/14 6:03:45

软件测试过程和测试生命周期

众所周知，软件生命周期包括，需求阶段、设计阶段、设计构建阶段、测试周期阶段、最后测试、实施阶段、最后运维和维护验收。每个阶段都需要在软件开发的生命周期中从前一阶段交付。需求转化为设计，设计转化为开发和开发成测试，经过…...

编程日记 2024/4/14 6:01:42

python-study-day1

ps：前言可做毕设，html，web，app，小程序，bug修改，可加急作者自述作为一名前端开发工程师，这个大环境不好的情况下，我试过我前端接单子但是没有后端&#xff0c…...

编程日记 2024/4/14 5:59:39

【Apache2】彻底删除 Apache2 服务器

要彻底删除 Apache2 服务器，需要卸载 Apache2 软件包并删除其配置文件和数据文件。在 Ubuntu 上，可以按照以下步骤来完成： 停止 Apache2 服务： sudo systemctl stop apache2卸载 Apache2 软件包： sudo apt-get purge a…...

编程日记 2024/4/14 5:57:37

C#：成绩等级转换

任务描述本关任务：给出一百分制成绩，要求输出成绩等级‘A’、‘B’、‘C’、‘D’、‘E’。 90分以上为A 80-89分为B 70-79分为C 60-69分为D 60分以下为E，如果输入数据不在0~100范围内，请输出一行：“Score is error!”…...

编程日记 2024/4/14 5:56:36

每日OJ题_01背包③_力扣494. 目标和（dp+滚动数组优化）

目录力扣494. 目标和问题解析解析代码滚动数组优化代码力扣494. 目标和 494. 目标和难度中等给你一个非负整数数组 nums 和一个整数 target 。向数组中的每个整数前添加或 - ，然后串联起所有整数，可以构造一个表达式 ： …...

编程日记 2024/4/14 5:55:34

vue3+element plus图片预览点击按钮直接显示图片的预览形式

1 需求直接上需求： 我想要直接点击下面这个“预览”按钮，然后呈现出预览图片的形式 ok，需求知道了，下面让我们来看看如何实现吧 ~ 2 实现 template部分 <el-buttontype"primary"size"small"click&qu…...

编程日记 2024/4/14 5:54:32

GAMS104 现代游戏引擎 2

渲染的难点可以分为一下三部分：如何计算入射光线、如何考虑材质以及如何实现全局光照。渲染的难点之一在于阴影，或者说是光的可见性。如何做出合适的阴影效果远比想象中要难得多，在实践中往往需要通过大量的技巧才能实现符合人认知的阴影效…...

编程日记 2024/4/14 5:52:30

spring boot学习第十七篇:OAuth2概述及使用GitHub登录第三方网站

0. 导言我们在浏览器上可以访问成百上千个网站，使用每个网站的服务一般都要先注册账号，那么我们为了更好地记忆，一般都会在多个网站使用相同的账号和密码进行注册。那么问题就来了，如果在你注册的网站中有某些个网站的系统设计不…...

编程日记 2024/4/14 5:51:29

基于springboot的电影评论网站系统源码数据库

基于springboot的电影评论网站系统源码数据库随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了电影评论网站的开发全过程。通过分析电影评论网站管理的不足，创建了一个计算机管理电影评论网站的方案。文…...

编程日记 2024/4/14 5:50:28

javaScript手写专题——实现instanceof/call/apply/bind/new的过程/继承方式

目录原型链相关手写instanceof 实现一个_instance方法，判断对象obj是否是target的实例测试手写new的过程实现一个myNew方法，接收一个构造函数以及构造函数的参数，返回构造函数创建的实例对象测试myNew方法手写类的继承 ES6&…...

编程日记 2024/4/14 5:49:26

C++11 新特性：tuple 元组

std::tuple是 C11 中引入的一个非常强大的类型，它允许将多个类型不同的值，组合成单一对象。 std::tuple非常适合用于那些需要返回多个值的场景，而且它的灵活性和通用性使得其成为现代 C 编程中不可或缺的一部分。下面，我们将探讨…...

编程日记 2024/4/14 5:47:25

最齐全，最简单的免费SSL证书获取方法——实现HTTPS访问

一：阿里云优势：大平台，在站长中知名度最高，提供20张免费单域名SSL证书缺点：数量有限，并且只有单域名证书，通配符以及多域名没有免费版本。并且提供的单域名证书只有三个月的期限。二&#…...

编程日记 2024/4/14 5:46:23

c语言-＞贪吃蛇实战技巧结合EasyX简单实现页面管理（简单实现）

✅作者简介：大家好，我是橘橙黄又青，一个想要与大家共同进步的男人😉😉 🍎个人主页：再无B～U～G-CSDN博客 1. 游戏背景贪吃蛇是久负盛名的游戏，它也和俄罗斯⽅…...

编程日记 2024/4/14 5:43:20

C语言-详解内存函数

文章目录 1.memcpy使用和模拟实现1.1 memcpy函数的使用规则1.2 memcpy函数的使用1.2 模拟实现memcpy函数 2.memmove 函数的使用和模拟实现2.1 memmove 函数使用规则2.2 memmove函数的使用2.3 模拟实现memmove函数2.3.1 从后往前移2.3.2 从前往后移 2.4 算法实现2.4.1 从前往后移…...

编程日记 2024/4/14 5:41:18

【核心完整复现】基于目标级联法的微网群多主体分布式优化调度

1 主要内容之前发布了华电学报的复现程序《基于目标级联法的微网群多主体分布式优化调度》，具体链接为【防骗版】基于目标级联法的微网群多主体分布式优化调度，虽然对模型及结果进行了复现，但是部分模型细节和参数并没有完全实现&#xff0…...

编程日记 2024/4/14 5:40:17

Taotoken在数据预处理与分析脚本中调用大模型的集成案例

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken在数据预处理与分析脚本中调用大模型的集成案例应用场景类，设想一个数据科学家使用Python脚本进行数据分析时…...

编程新知 2026/5/13 23:08:33

如何彻底修复Windows更新故障：使用Reset Windows Update Tool的完整指南

如何彻底修复Windows更新故障：使用Reset Windows Update Tool的完整指南【免费下载链接】Reset-Windows-Update-Tool Troubleshooting Tool with Windows Updates (Developed in Dev-C). 项目地址: https://gitcode.com/gh_mirrors/re/Reset-Windows-Update-Tool…...

编程新知 2026/5/13 22:12:34

混合信号示波器（MSO）在嵌入式调试中的核心应用与选型指南

1. 混合信号示波器：嵌入式调试的“瑞士军刀”如果你在2015年那个春天走进波士顿的嵌入式系统大会（ESC Boston），会发现一个明显的趋势：工程师们调试板子的工具，正从传统的逻辑分析仪，悄然转向一种…...

编程新知 2026/5/13 20:45:28

Platinum-MD完整指南：跨平台NetMD音乐传输解决方案深度解析

Platinum-MD完整指南：跨平台NetMD音乐传输解决方案深度解析【免费下载链接】platinum-md Minidisc NetMD Conversion and Upload 项目地址: https://gitcode.com/gh_mirrors/pl/platinum-md Platinum-MD是一款专为NetMD MiniDisc设备设计的现代化音乐管理工…...

编程新知 2026/5/13 20:40:58

【Midjourney v8图像修复终极指南】：9大隐藏参数调优+3类高频崩坏场景实战修复（2024官方未公开文档级解析）

更多请点击： https://intelliparadigm.com 第一章：Midjourney v8图像修复功能全景概览 Midjourney v8 引入了革命性的图像修复（Image Inpainting）能力，不再依赖外部图层或第三方工具，而是通过原生提示词指…...

编程新知 2026/5/13 20:27:27

如何开始嵌入式Linux的学习呢？

如何开始嵌入式Linux的学习呢？ （又名：Imx-forge上手Roadmap） 我昨天一下班就回去看了一下仓库，的确太乱，而且mkdocs工具日益陷入停滞维护，所以我们转网站啦！ 我本来打算直接画一个…...

编程新知 2026/5/13 20:11:59

终极图片去重指南：用AntiDupl.NET轻松释放存储空间，告别重复图片困扰

终极图片去重指南：用AntiDupl.NET轻松释放存储空间，告别重复图片困扰【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾为电脑里堆积如山…...

编程新知 2026/5/13 20:07:43

IoT产品创新方法论：构建“场景 × 技术 × 数据 × 商业”的系统创新能力

目录一、问题与背景二、本文将系统讲解三、什么是IoT产品创新 3.1 核心定义 3.2 IoT创新的核心变化 3.3 创新的三种层级（阶梯论）四、 IoT产品创新结构模型（核心框架） 4.1 四维创新模型（核心体系） 4.2 创新演进路径五、五大IoT创新方法论（核心武器库）…...

编程新知 2026/5/13 19:18:24

NotebookLM API接入倒计时：GCP项目配额收紧前，必须完成的4步合规配置与审计清单

更多请点击： https://intelliparadigm.com 第一章：NotebookLM API开发接入 NotebookLM 是 Google 推出的面向研究与知识管理的 AI 笔记工具，其官方尚未开放公开 API，但通过逆向分析 Web 客户端通信及社区验证的认证流程&#xff…...

编程新知 2026/5/13 19:07:23

AI大模型赋能数据治理：小白也能掌握的5个高频场景与避坑指南（收藏备用）

数据治理是企业数字化转型难题，AI大模型带来破局点。本文阐述大模型如何解决效率低、门槛高、适配弱等痛点，提供3个高价值落地场景（非结构化数据治理、数据质量治理、数据资产化治理）及5个高频踩坑陷阱，并给出最佳实践…...

编程新知 2026/5/13 18:31:51

一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的：

数据集格式

训练流程

evaluation流程

实际使用推测猜想

二、Visual Question Answering （VQA ， 视觉问答）

任务目的

数据集格式

训练流程

demo以及评估流程

三、Visual Entailm (VE, 视觉蕴含)

任务目的

数据集格式

训练流程

评估及demo流程

四、Visual Grounding （VG, 视觉定位）

任务目的

数据集格式

训练流程

demo流程

五、Natural Language for Visual Reasoning(NLVR2, 自然语言视觉推理)

任务目的

数据集格式

训练过程

相关文章：

二、Visual Question Answering （VQA ，视觉问答）