当前位置: 首页 > news >正文

EI-CLIP 深度理解 PPT

系列文章目录


文章目录

  • 系列文章目录


在这里插入图片描述
在电子商务产品的跨模态检索中,电子商务图像和电子商务语言都有许多独特的特点。如图所示,一个电子商务产品图片通常只包含一个简单的场景,有一个或两个前景物体和一个普通的背景。同时,电子商务语言通常由一组元数据(标签实体)组成,包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明,时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。
在这里插入图片描述
在电子商务中,单词标记经常会产生特殊的含义,而[10,38,72]中的预训练语言模型部分尽管有大规模的预训练语料库,但仍有偏见。例如,在预训练的CLIP模型中,实体“diesel”与概念“fuel”紧密相关,而在电子商务时尚领域中,“diesel”被标记为品牌实体。其他例子包括“canada goose(品牌)“、“golden goose(品牌)”、“top(类别)"等
在这里插入图片描述
介绍一下因果学习,和分布外的问题,根据应用场景的不同Causal learning 的最终目的是不同的,其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization(OODG)的问题。假设我们想分类骆驼和奶牛的图片, ,我们获得的图片中大概率是下图的情形。
。比如我们的训练数据中,骆驼大多数出现在沙化的土地(背景偏黄),奶牛大多数出现在长有植被的土地(背景偏绿)。这样一来,由于背景往往占据图片的主要内容,我们的模型学到的很可能是背景相关的特征,比如背景颜色,然后使用背景颜色对图片进行分类。即使我们在训练集上得到比较好的效果,但是如果测试集的分布和训练集不一样,那就出问题了。也就是说,如果新的测试集也是骆驼大多数背景偏黄,奶牛大多数背景偏绿,那么我们的模型可能还是会有比较好的表现。但如果不是这种情形,而是下图中的情形,那么模型很可能表现很糟糕

在这里插入图片描述
上图中,我们可以看到骆驼出现在了绿化草地,而奶牛出现在了沙化草地,这种情形在现实生活中还是可能存在的。如果我们新的数据中这种类型的图片较多(数据分布和之前的不同),而我们之前的模型又是根据背景色进行预测,可想而知预测结果肯定不好。更有甚者,我们可以随意的进行PS,把背景换成任意的形式,比如下图中的情形。
在这里插入图片描述介绍一下混杂因素,或者叫干扰因子。多模态微调中存在分布外问题,Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。Zhang等人通过使用结构因果模型(SCM)图建模,通过后门干预进行硬干预以消除数据集偏倚。在SCM图中,每个节点代表一个变量,有向边表示因果影响。例如,如果变量 AA 影响变量 BB,则会有一条从 AA 到 BB 的有向边。也就是说他们通过硬干预:也就是主动改变模型中某个变量的值,以观察其对其他变量的影响,来得出结论这个变量是不是真正的因,然后消除数据集偏倚,使得模型泛化能力强,数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。这可能导致模型的泛化能力差和预测偏差。

在这里插入图片描述
Zhang等人的缺点:遵循传统的BERT令牌词汇表,将每个实体视为一组(子)单词令牌。这忽略了电子商务中大量的特殊含义实体,不可避免地使不同的实体与共享的混淆(子)单词令牌(诸如“Canada Goose”和“Golden Goose”)相互干扰。假设我们有两个品牌:Canada Goose:一个知名的冬季服装品牌,以其高质量的羽绒服著称。Golden Goose:一个意大利品牌,以其独特设计的运动鞋而闻名。在BERT模型中,这两个品牌名可能被拆分成以下(子)词令牌:“Canada Goose” 可能被拆分为 “Canada” 和 “Goose”。“Golden Goose” 可能被拆分为 “Golden” 和 “Goose”。这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中,“Goose”可能被视为一个普通的词汇,而不是特定于某个品牌的标识。
共享的子词令牌:这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中,“Goose”可能被视为一个普通的词汇,而不是特定于某个品牌的标识。
当模型处理与“Canada Goose”相关的图像或文本时,它可能会错误地将某些特征与“Golden Goose”关联起来,因为它们共享“Goose”这个子词令牌。

在这里插入图片描述
Meta数据的多样性导致了 动机2:Meta数据对跨模态检索的贡献是不均匀的。具体来说,以前的方法通常将所有元数据连接在一起以形成长句。然而,这种简单的解决方案平等地对待每个Meta信息是不对的,有些元数据甚至可能对检索有害
在这里插入图片描述
在这里插入图片描述
这是文章的整体框架,相比CLIP他多了两个模块,EA-学习者,CE选择者。
在这里插入图片描述
首先我们把CLIP放到因果观中。最后分类分类就变成了第二个公式。
在这里插入图片描述
首先这个CE选择者就是根据动机2设计,首先把品牌,季节,类别等这些标签分别作为一个实体,我们选择一部分实体放入模型中进行训练。让模型自己选择哪些标签也就是说实体是有助于分类的。
在这里插入图片描述
EA学习者模块旨在明确捕获每个个体实体信息,而无需担心通用和电子商务领域之间的模糊实体语义或由于共享(子)单词标记而交织的实体表示。 也就是针对之前的动机-1,也就是将之前的那个公式,给参数化了。EjI就是图像的特征,EiD就是文本的特征,然后EiA就是元数据、标签的特征,这里比如加拿大鹅两个单词不会再拆分而是一体的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章:

EI-CLIP 深度理解 PPT

系列文章目录 文章目录 系列文章目录 在电子商务产品的跨模态检索中,电子商务图像和电子商务语言都有许多独特的特点。如图所示,一个电子商务产品图片通常只包含一个简单的场景,有一个或两个前景物体和一个普通的背景。同时,电子商…...

leetcode力扣刷题系列——【最小元素和最大元素的最小平均值】

题目 你有一个初始为空的浮点数数组 averages。另给你一个包含 n 个整数的数组 nums,其中 n 为偶数。 你需要重复以下步骤 n / 2 次: 从 nums 中移除 最小 的元素 minElement 和 最大 的元素 maxElement。 将 (minElement maxElement) / 2 加入到 aver…...

【线性回归分析】:基于实验数据的模型构建与可视化

目录 线性回归分析:基于实验数据的模型构建与可视化 1. 数据准备 2. 构建线性回归模型 3. 可视化 数据分析的核心 构建预测模型 应用场景 预测模型中的挑战 结论 线性回归分析:基于实验数据的模型构建与可视化 在数据分析领域,线性…...

CountUp.js 实现数字增长动画 Vue

效果&#xff1a; 官网介绍 1. 安装 npm install --save countup.js2. 基本使用 // template <span ref"number1Ref"></span>// script const number1Ref ref<HTMLElement>() onMounted(() > {new CountUp(number1Ref.value!, 9999999).sta…...

设计模式大全

1. 策略模式 什么是策略模式&#xff1f; 策略模式&#xff08;Strategy Pattern&#xff09;是一种行为设计模式&#xff0c;它定义了一系列算法&#xff0c;并将每个算法封装起来&#xff0c;使它们可以互换。策略模式使得算法可以独立于使用它的客户端而变化。通过使用策略…...

redis IO多路复用机制

目录 一、五种 I/O 模型 1.阻塞IO&#xff08;Blocking IO&#xff09; 2.非阻塞IO&#xff08;Nonblocking IO&#xff09; 3.IO多路复用&#xff08;IO Multiplexing&#xff09; 通知的方式 select模式 poll模式 epoll模式 4.信号驱动IO&#xff08;Signal Driven …...

Oracle漏洞修复 19.3 补丁包 升级为19.22

1.场景描述 上周末2024-10-12日,服务器扫出漏洞,希望及时修复。其中,oracle的漏洞清单如下,总结了下,基本都是 Oracle Database Server 的 19.3 版本到 19.20 版本和 21.3 版本到 21.11 版本存在安全漏洞,即版本问题。如: Oracle Database Server 安全漏洞(CVE-2023-22…...

Q2=10 and Q2=1--PLB(Fig.4)

&#xff08;个人学习笔记&#xff0c;仅供参考&#xff09; import numpy as np from scipy.special import kv, erfc from scipy.integrate import dblquad import matplotlib.pyplot as plt import scipy.integrate as spi# Constants w 0.6198 g0_sq 21.5989 rho 0.782…...

sd卡挂载返回FR_NOT_READY等错误

前言 本文章主要是例举文件系统挂载sd卡时出现的一下问题总结。本人用的芯片是GDF103系列&#xff0c;最近项目要使用sd进行读取文件&#xff0c;因此查阅了资料进行开发。一开始是使用了SPI方式连接&#xff0c;例程是原子哥的stm32进行改的&#xff0c;但多次调试都是卡死在发…...

推荐一款超级实用的浏览器扩展程序!实时翻译网页,支持多种语言(带私活源码)

今天给大家分享的一款浏览器插件。 一、背景 在如今的信息时代&#xff0c;互联网已经成为了人们获取信息、交流和娱乐的重要平台&#xff0c;而随着全球化的不断深入和交流的加强&#xff0c;越来越多的人开始关注各国的文化、政治和经济&#xff0c;因此需要浏览不同语言的…...

manjaro kde 24 应该如何设置才能上网(2024-10-13亲测)

要在 Manjaro KDE 24 上设置网络连接&#xff0c;可以按照以下步骤进行设置&#xff0c;确保你能够连接到互联网&#xff1a; 是的&#xff0c;你可以尝试使用一个简单的自动修复脚本来解决 Manjaro KDE 中的网络连接问题。这个脚本将检查网络服务、重新启动 NetworkManager、…...

2024软件测试面试大全(答案+文档)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、软件测试基础面试题 1、阐述软件生命周期都有哪些阶段? 常见的软件生命周期模型有哪些? 软件生命周期是指一个计算机软件从功能确定设计&#xff0c;到…...

unity动态批处理

unity动态批处理 动态批处理要求和兼容性渲染管线兼容性 使用动态批处理网格的动态批处理限制动态生成几何体的动态批处理 动态批处理 动态批处理是一种绘制调用批处理方法&#xff0c;用于批处理移动的 GameObjects 以减少绘制调用。动态批处理在处理网格和 Unity 在运行时动…...

faust,一个神奇的 Python 库!

大家好&#xff0c;今天为大家分享一个神奇的 Python 库 - faust。 Github地址&#xff1a;https://github.com/robinhood/faust 在分布式系统和实时数据处理的世界里&#xff0c;消息流处理&#xff08;Stream Processing&#xff09;变得越来越重要。Faust 是一个 Python 库…...

electron本地OCR实现

使用tesseract.js - npm (npmjs.com) 官方demo&#xff1a;GitHub - Balearica/tesseract.js-electron: An example to use tesseract.js in electron 目录结构&#xff1a; // 引入 <script type"module" src"./ocr/tesseract.js"></script>…...

RK3588的demo板学习

表层的线宽是3.8mil: 换层之后线宽变成了4.2mil: (说明对于一根线&#xff0c;不同层线宽不同) 经典&#xff1a; 开窗加锡&#xff0c;增强散热&#xff0c;扩大电流&#xff1a; R14的作用&#xff1a;与LDO进行分压&#xff0c;降低LDOP的压差从而减小其散热&#xff1a;第…...

基于springboot驾校管理系统

作者&#xff1a;计算机学长阿伟 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、ElementUI等&#xff0c;“文末源码”。 系统展示 【2024最新】基于JavaSpringBootVueMySQL的&#xff0c;前后端分离。 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;…...

关于Vue脚手架

一、简介与安装 1 简介 Vue Cli 全称Vue command line interface(Vue命令行接口)&#xff0c;俗称Vue脚手架&#xff0c; 是Vue官方提供的一个标准化开发工具(开发平台)。 可以帮助我们快速创建一个开发Vue项目的标准化基础架子。【集成了webpack配置】 参考官网&#xff1a…...

MySQL 指定字段排序

MySQL 中的 ORDER BY FIELD 用法详解 一、引言 在数据库查询中&#xff0c;排序是一个常见的需求。MySQL 提供了 ORDER BY 子句来对查询结果进行排序&#xff0c;其中 FIELD() 函数是一种非常巧妙且灵活的排序方式。通过 ORDER BY FIELD&#xff0c;可以按照指定的顺序对某个…...

Mysql—高可用集群MHA

1:什么是MHA&#xff1f; MHA&#xff08;Master High Availability&#xff09;是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。 MHA 的出现就是解决MySQL 单点的问题。 MySQL故障切换过程中&#xff0c;MHA能做到0-30秒内自动完成故障切换操作。 MHA能在故障切…...

两步修复Win11下conda无法激活问题

Anaconda安装在了D盘&#xff0c;也添加了环境变量&#xff0c;但虚拟环境一直无法激活1.执行策略设置为 RemoteSigned以管理员身份打开WindowsPowershell&#xff0c;然后输入如下代码将当前用户的执行策略设置为 RemoteSigned。Set-ExecutionPolicy -Scope CurrentUser Remot…...

蓝桥杯备赛:Day5-P1706 全排列问题

&#x1f4da; 算法笔记&#xff1a;P1706 全排列问题 (DFS 基础) 1. 题目描述 P1706 全排列问题 - 洛谷 输出 1∼N1 \sim N1∼N 的所有全排列&#xff0c;要求每个数字占 5 个场宽&#xff0c;排列按字典序从小到大输出。 2. 核心代码 (C 版本) #include <bits/stdc.h…...

地瓜派RDK X5部署YOLOv11n避坑指南:手把手教你解决Softmax算子导致的性能暴跌问题

地瓜派RDK X5部署YOLOv11n性能优化实战&#xff1a;从7FPS到47FPS的完整解决方案 当我在RDK X5开发板上首次部署YOLOv11n模型时&#xff0c;7FPS的推理速度让我陷入了深深的困惑。同样的硬件平台&#xff0c;YOLOv5s能跑180FPS&#xff0c;而参数更少的YOLOv11n却只有个位数的帧…...

别再手动一个个点了!用Labelme批量标注关键点数据的3个高效技巧(附快捷键设置)

别再手动一个个点了&#xff01;用Labelme批量标注关键点数据的3个高效技巧&#xff08;附快捷键设置&#xff09; 在计算机视觉项目的关键点标注任务中&#xff0c;效率往往是决定项目进度的关键因素。我曾参与过一个包含5000张图像的人体姿态估计项目&#xff0c;最初采用传…...

如何完整解决Bilibili API风控限制?开发者高效应对指南

如何完整解决Bilibili API风控限制&#xff1f;开发者高效应对指南 【免费下载链接】bilibili-api 哔哩哔哩常用API调用。支持视频、番剧、用户、频道、音频等功能。原仓库地址&#xff1a;https://github.com/MoyuScript/bilibili-api 项目地址: https://gitcode.com/gh_mir…...

深度解析开源项目MusicFree插件:构建跨平台音乐播放生态的终极指南

深度解析开源项目MusicFree插件&#xff1a;构建跨平台音乐播放生态的终极指南 【免费下载链接】MusicFreePlugins MusicFree播放插件 项目地址: https://gitcode.com/gh_mirrors/mu/MusicFreePlugins MusicFree插件系统是一个创新的开源音乐播放器扩展框架&#xff0c;…...

3个颠覆性技巧:NVIDIA Profile Inspector如何释放显卡隐藏性能

3个颠覆性技巧&#xff1a;NVIDIA Profile Inspector如何释放显卡隐藏性能 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector是一款专业的显卡参数配置工具&#xff0c;能够深度…...

Intv_AI_MK11 Node.js全栈开发指南:环境配置与AI服务端集成

Node.js全栈开发指南&#xff1a;环境配置与AI服务端集成 1. 前言&#xff1a;为什么选择Node.js开发AI应用 Node.js已经成为现代Web开发的热门选择&#xff0c;特别是在需要处理高并发、实时数据流的场景下。当我们将AI能力集成到Web应用中时&#xff0c;Node.js的非阻塞I/O…...

告别netCDF4!用xarray处理气象数据,从读取nc到插值补全的保姆级实践

告别netCDF4&#xff01;用xarray处理气象数据&#xff0c;从读取nc到插值补全的保姆级实践 气象数据处理一直是科研工作者面临的重要挑战之一。传统上&#xff0c;许多研究者依赖netCDF4库来处理.nc格式的气象数据&#xff0c;但随着数据量的激增和分析需求的复杂化&#xff0…...

Fujitsu空调本地化控制:ESP32协议逆向与硬件隔离方案

1. FujitsuAC 开源库深度解析&#xff1a;面向嵌入式工程师的 Fujitsu 空调本地化控制方案1.1 项目定位与工程价值FujitsuAC 是一个专为 ESP32 平台设计的开源固件库&#xff0c;其核心目标是完全替代 Fujitsu 原厂 UTY-TFSXW1 / UTY-TFSXF3 WiFi 通信模块&#xff0c;实现对 F…...