当前位置：首页 > news >正文

前沿论文创新点集合

news 2026/2/9 0:17:27

系列文章目录

文章目录

系列文章目录
一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》
二、《MaPLe: Multi-modal Prompt Learning》
三、《Learning to Prompt for Vision-Language Models》CoOp
四、《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》
五、《COMMA: Co-articulated Multi-Modal Learning》
六、《Object-Centric Learning with Slot Attention》
七、《CARAT: CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition》
八、《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》
九、《Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce》

一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》

第一、本文提出了一种标记对齐技术LAMM，它通过梯度优化来自动搜索最优嵌入。据论文作者所知，可训练类别标记的概念是在预训练的VL模型中首次提出的。
第二、为了避免整个提示模板的语义特征偏离太远，作者在训练阶段引入了层次丢失。层次损失便于在参数、特征和logit空间之间对齐类别表示。通过这些操作，CLIP模型的泛化能力在LAMM中得以保留，使得LAMM在下游任务中更好地区分不同的类别，同时保留了原始类别描述的语义。
第三、假定LAMM仅微调下游数据集中的标签嵌入，则它不会遇到在连续学习期间传统方法中通常遇到的灾难性遗忘问题。

二、《MaPLe: Multi-modal Prompt Learning》

（1）我们建议在CLIP中采用多模态快速学习，以使其视觉语言表征更好地保持一致。据我们所知，这是第一个用于微调CLIP的多模态提示方法.
（2）为了将在文本和图像编码器中学习到的提示联系起来，我们提出了一个耦合函数，以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁，允许梯度的相互传播，以促进协同作用。
（3）我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的，以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模，从而提供更大的灵活性来对齐视觉-语言表示。

三、《Learning to Prompt for Vision-Language Models》CoOp

（1）我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究，并确定了与部署效率相关的一个关键问题，即，提示工程。
（2）为了实现针对预训练的视觉语言模型的提示工程的自动化，我们提出了一种基于连续提示学习的简单方法，并提供了两种可以处理不同识别任务的实现。
（3）我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
（4）我们在github上开放了我们的项目的源代码。

四、《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》

（1）我们设计了一个新的移动友好型CLIP模型系列，MobileCLIP。MobileCLIP的变体在图像和文本编码器中使用具有结构重新参数化的混合CNNtransformer架构，以减少大小和延迟。
（2）我们引入了多模态强化训练，这是一种新的训练策略，它结合了来自预训练图像字幕模型和强大CLIP模型集合的知识转移，以提高学习效率。
（3）我们介绍了我们的增强数据集的两个变体：DataCompDR-12 M和DataCompDR-1B。使用DataCompDR，我们展示了与DataComp相比10倍至1000倍的学习效率。
（4）MobileCLIP系列在零触发任务上获得了最先进的延迟精度折衷，包括标记新的最佳ViT-B/16 CLIP模型。

五、《COMMA: Co-articulated Multi-Modal Learning》

这篇论文提出了Co-Articulated Multi-Modal Learning (COMMA)，解决了现有视觉语言模型提示生成方法的两个主要问题：

增强视觉和语言分支的提示关联性：与之前的方法不同，COMMA在每一层生成提示时，考虑了视觉和语言分支的前一层提示，通过共同生成下一层的提示，确保两者的提示在表示上更好地对齐。
减轻知识遗忘问题：为了避免微调过程中遗忘预训练阶段学到的通用知识，COMMA通过最小化生成提示和CLIP模型手工提示嵌入之间的差异，保留关键的知识。

通过这两个创新，COMMA在多种任务中展示了卓越的性能，尤其是在从基础类到新类的泛化任务、跨数据集迁移和域泛化任务上，表现出显著的提升。

六、《Object-Centric Learning with Slot Attention》

提出Slot Attention模块：这一模块能够从输入特征中提取对象相关的表示，这些表示具备置换对称性，即每个表示（Slot）都可以绑定任意对象。
应用于无监督对象发现：该架构在无监督对象发现任务中，表现出色，匹配或超越了当时的主流方法，且具备更高的内存效率和训练速度。
应用于监督对象属性预测：在有监督的对象属性预测任务中，Slot Attention通过注意力机制自动学习并突出对象，而不依赖直接的对象分割监督。

七、《CARAT: CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition》

·提出了一种新的基于对比度特征的特征重构与融合框架。据我们所知，这项工作开拓了利用对比学习促进基于特征重构的多模态融合机制。作为该方法的一个组成部分，我们还引入了一种基于洗牌的特征聚合策略，该策略使用重构的嵌入来更好地利用多模态互补性。
·为了保持模态的特异性，CARAT通过标签式注意从不同的模态中独立地提取标签特异性表征。然后，通过一个最大类池网络来选择与每个情绪最相关的模态表示，以探索模态和标签之间的潜在依赖关系。
·我们在两个基准数据集CMU-MOSEI和M3ED上进行了实验。实验结果表明，我们提出的方法优于以往的方法，达到了最先进的性能。

八、《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》

我们提供最大的五模态电子商务数据集M5Product。通过其大规模，多样性，复杂的真实的场景和模态的数量，M5Product为评估多模态预训练模型的泛化性能提供了一个全面的环境。
我们的自我协调对比学习（Self-harmonized ContrastiveLearning，SCALE）框架学习自适应模态交互，从而实现更有效的模态融合。我们将SCALE与一组全面的基线方法进行比较，并在M5Product数据集上展示了其上级性能。
有趣的观察：1）在大规模和复杂的场景中，不同模态的互补增益增加。学习模态对齐权重允许我们的SCALE框架有效地协调互补信息，以实现更好的性能。2)对于电子商务领域的多模态预训练模型，数据集规模和多样性对于下游任务相对重要。考虑到大规模和多样化的产品，我们的SCALE框架比其他基线更好地推广到下游任务。

九、《Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce》

(1) 我们提出了ECLIP，一个有效的和简单的多模态表示学习范式在电子商务的情况下。超越常规的全局表示，它可以成功地获得实例为中心的产品表示通过解码器架构。
(2) 通过充分利用电子商务数据的自然特征和拟议的借口任务，ECLIP获得了细粒度对齐能力，以支持所需的产品实例（参见图4a），而无需依赖任何手动注释。
(3) 在大规模产品数据上进行预训练，所产生的基础模型可以无缝地推广到下游电子商务应用程序。全面的实验结果进一步证明了ECLIP的优越性：在没有任何微调的情况下，它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。