当前位置：首页 > news >正文

【多模态检索】Coarse-to-Fine Visual Representation

news 2026/5/13 3:00:45

快手文本视频多模态检索论文

论文：Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
链接：https://arxiv.org/abs/2401.00701

摘要

近些年，基于CLIP的text-to-video检索方法广为流行，但大多从视觉文本对齐方法上演进。按照原文：design a heavy fusion block for sentence (words)-video (frames) interaction，而忽视了复杂度和检索效率。

升级点
本文采用多粒度视觉特征学习，捕获从抽象到具体的视觉内容。Multi-granularity visual feature learning, ensuring the model’s comprehensiveness in capturing visual content features spanning from abstract to detailed levels during the training phase.
设计两阶段检索框架，优点在于 balances the coarse and fine granularity of retrieval content.
- 在训练阶段，设计一个parameter-free text-gated interaction block (TIB) 模块用于细粒度视觉表征学习并嵌入一个额外的 Pearson Constraint来优化跨模态表示学习。
- 在检索阶段，使用粗粒度视觉表征快速检索topk结果，然后使用细粒度视觉表示rerank（recall-then-rerank pipeline）。
效果：nearly 50 times faster
难点：对比原始图像文本匹配任务（包含较少的视觉信息），聚合整个视频表示易导致过度抽象以及误导。在视觉文本检索任务中，一个句子通常只描述一个感兴趣的视频子区域。现有工作很多不够合理与成熟，衍生出很多CLIP的变体，大体分为两个方向。例如CLIP4Clip，仅仅是将预训练的CLIP简单进行MeanPooling就从image-text迁移到video-text领域。
- 设计a heavy fusion block来加强视觉和文本的交互以达到模态间更好地对齐的目的；
- 优化text-driven video representations，keep multi-grained features including video-level and frame-level for brute-force search。
近些年方法虽然有效果提升，但却需要巨大的计算成本（text-video similarity calculation）。

过于细粒度的计算可能会放大视频局部噪声，降低检索效率。需要在有效性和效率上做trade-off。

方法

整体架构
特征输入：a video v consists ofT sequential frames {f1, f2, …, fT |fi ∈ RH ×W ×C}；each frame is divided into N patches {f 1i , f 2i , …, f N i |f n i ∈RP×P×C} with P × P size；text t。
模型结构
- 视觉端
  - a spatial encoder (SE) with 12 transformer layers initialized by the public CLIP checkpoints
  - a temporal encoder (TE) with 4 transformer layers to model temporal relationship among sequential frames， [CLS] enocde patch to frame（0th patch feature represent frame）
  - a MeanPooling layer (MP) to aggregate all frame-level features into a text-agnostic feature vector
    注：patch 和 frame都包含位置编码
- 视觉文本交互 – Text-Gated Interaction Block
  - 简单的attention机制，π is the temperature，决定多少视觉信息被保留（A small value of π only emphasizes those most relevant visual cues, while a large value pays attention to much more visual cues.）
  - 未引入任何参数
损失函数（Inter- and Intra-Feature Supervision Loss）
- 数据形式：Each batch of B video-text pairs，in each pair, the text tb is a corresponding description of the video vb
- Contrastive Loss for Inter-Feature Supervision - infoNCE loss，batch内其他为负样本
- Pearson Constraint for Intra-Feature Supervision
- Total Loss
检索中的两阶段策略 - To balance the efficiency and effectiveness
- 使用VL1作为tok召回阶段特征
- rerank这些召回结果用VL2和VL3
- 两阶段的优点：效率提升 & 过于细粒度的特征可能会导致对局部噪声的过度关注。

实验

主实验：
在这里插入图片描述

其他数据集：
在这里插入图片描述
消融实验：
可以看到去掉帧粒度的文本交互特征指标下降明显。当去掉所有文本交互特征时，只使用视觉特征会引入很多噪声（引入喝多与文本无关的特征），mislead the matching process。

top100的下降可能是由于重新排序阶段过度关注视觉局部细节，增加 top-k 引入的噪声会对重新排序阶段造成更多的干扰
在这里插入图片描述
Re-ranking 消融

Intra-Feature Pearson Constraint消融

Visualization of Coarse-to-Fine Retrieval

【多模态检索】Coarse-to-Fine Visual Representation

快手文本视频多模态检索论文

摘要

方法

实验

相关文章：

【多模态检索】Coarse-to-Fine Visual Representation

VRRP——虚拟路由冗余协议

隧道应急广播应该如何搭建？

OpenHarmony实战开发-Worker子线程中解压文件。

中国科学院大学学位论文LaTeX模版

秘塔和Kimi AI在资料查询和学习中的使用对比

apk反编译

修改百度百科的词条的方法

更改ip地址的几种方式有哪些

Flink学习（六）-容错处理

设计模式(020)行为型之备忘录模式

Android 系统锁屏息屏休眠时Handler CountDownTimer计时器停止运行问题解决

Java中如何提取视频文件的缩略图

总结 HashTable, HashMap, ConcurrentHashMap 之间的区别

《剑指 Offer》专项突破版 - 面试题 107 : 矩阵中的距离（C++ 实现）

揭秘智慧礼品背后的故事

NVM的安装与配置

[Java EE] 多线程(一) :线程的创建与常用方法(上)

Linux安装docker（含Centos系统和Ubuntu系统）

【第十五届蓝桥杯大赛软件赛省赛】———— C/C++ 大学B组

告别网盘限速困扰：网盘直链下载助手全面解析与应用指南

量子计算采购策略与技术路线比较

告别TwinCAT：手把手教你用LinuxCNC+IGH搭建开源EtherCAT运动控制平台

AgenticROS：用自然语言操控ROS2机器人的AI Agent接口实践

基于ChatGPT与Telethon的Telegram频道智能评论机器人开发指南

GTX 1660实战AI视频生成：低显存环境下的模型瘦身与帧插值方案

AI安全控制框架：应对能力超越控制的风险与韧性防御策略

掌握Windows 11精简艺术：Tiny11Builder实战手册

别再折腾Windows了！用Mac或Linux搞定ACM LaTeX模板的字体难题（附保姆级配置流程）

5分钟掌握飞书文档高效转换：开源浏览器扩展的完整解决方案