当前位置: 首页 > news >正文

【自监督Re-ID】ICCV_2023_Oral | ISR论文阅读

Codeicon-default.png?t=N7T8https://github.com/dcp15/ISR_%20ICCV2023_Oral

面向泛化行人再识别的身份导向自监督表征学习,清华大学

目录

导读

摘要

相关工作

DG ReID

用于ReID的合成数据

无监督表征学习

Identity-Seeking Representation Learning

结果

消融实验


 

导读

  • 新角度:提出了从大规模无标注互联网行人视频中学习领域泛化的行人表征。

  • 新方法:设计了新颖的自监督的学习框架以及可靠性引导的对比损失函数,有效学习到identity discrimination。所提方法具有出色的数据可扩展性。

  • 高性能:所学表征展现出很强的域泛化能力和域迁移能力,具有很大的实际应用价值和潜力。

摘要

本文旨在从大规模视频中学习一种无需任何注释的域泛化(DG)行人再识别(ReID)表示。由于标注成本高,先前的DG ReID方法使用有限的标注数据进行训练,这限制了进一步发展。为了克服数据和注释的障碍,我们建议使用大规模的无监督数据进行训练。关键问题在于如何挖掘身份信息。为此,我们提出了一种ISR(Identity-seeking Self-supervised Representation learning)方法。ISR将实例关系建模当做最大权重二分匹配问题,从帧间图像构建正样本对。进一步提出了一种可靠性引导的对比损失,以抑制噪声正样本对的不利影响,确保可靠的正样本对主导学习过程。ISR的训练成本与数据大小近似呈线性关系,因此可以利用大规模数据进行训练。所学习的表示表现出很强的泛化能力。在没有人为注释和微调的情况下,ISR在Market-1501上获得了87.0%的Rank-1,在MSMT17上获得了56.4%的Rank-1,分别比最佳有监督域泛化方法高出5.0%和19.5%。

相关工作

DG ReID

领域通用的人物识别(Domain Generalizable ReID)旨在在源领域上学习一个强大的模型,并直接在未见过的目标领域上进行测试,而无需进行微调处理。因其在实际应用中的巨大潜力而受到广泛关注。DIMN设计了一个域不变映射网络来学习元学习管道下的域不变表示。MetaBIN和SNR研究了归一化层或模块,以提高模型的泛化能力。RaMoE利用目标域和多个源域之间的相关性来提高模型的泛化能力。MDA将源和目标特征分布与先前的分布对齐。这些方法是用小规模领域匮乏的标记数据进行训练的。与他们不同的是,我们的目标是从大规模领域多样的未标记数据中学习DG ReID模型。

用于ReID的合成数据

ReID模型的性能受到从真实世界收集标注数据的高昂成本的限制。为了应对这一挑战,一些方法已经转向使用合成数据(synthetic data)。值得注意的是,PersonX包含1266个ID,其中273456张图像是从各个角度拍摄的,能够探索视角对ReID系统的影响。RandPerson提供了8000个身份,其中有来自19台摄像机的228655张图像,而UnrealPerson提供了3000个身份,包括来自34台摄像机的120000张图像;ClonedPerse包括来自24台摄像机的5621个身份和887766张图像。这些合成数据集已被证明对监督学习有价值,因为它们增强了ReID模型的泛化能力。DomainMix [1] 进一步证实,在训练期间将标记的合成数据与未标记的真实世界数据相结合是DG ReID的一个有前途的方向。然而,合成数据和真实世界的数据之间仍然存在巨大的领域差距,阻碍了在合成数据上训练的模型无缝应用于真实的现实世界场景。为了弥补这种差异,我们建议使用大量未标记的真实世界数据进行训练。

[1] Wenhao Wang, Shengcai Liao, Fang Zhao, Kangkang Cui, and Ling Shao. Domainmix: Learning generalizable person re-identification without human annotations. In BMVC, 2021. 3

无监督表征学习

一些主流的无监督表征学习方法(MoCo, SimCLR, BYOL),如果被直接应用于ReID,则只能学习预训练模型,这在直接测试时显示出极低的准确性。核心原因是,它们将一张图像的两个不同视图视为正样本对,或者对图像中的掩码像素进行重建,从而实现了实例区分(instance discrimination)。这与身份区分(identity discrimination)的ReID目标所矛盾。与它们不同,我们将同一ID的帧间图像视为正样本对,来达到身份区分的目标。一项密切相关的工作是CycAs(同团队的工作)及其改进版本。大概意思是作者针对CycAs方法的弱点提出了一种新方法,通过挖掘正样本对和抑制噪声来提供更鲁棒和通用的人物再识别表示学习的解决方案。

可视化证明:ISR对identity-discrimination的有效性

Identity-Seeking Representation Learning

身份导向的自监督表征学习

The overview of ISR.
The overview of ISR.

(1)构建正样本对

        基于最大权二分图匹配,在邻近帧中构建跨帧正样本对。

(2)抑制噪声正样本对

        计算每个正样本对的可靠性,利用可靠性来引导学习对比损失,进而抑制噪声正样本对的影响。

可靠性计算:p(x_{i})=\frac{\sum_{j}\pi ^*exp(x_i\cdot y_j/\tau )}{\sum_{j}exp(x_i\cdot y_j/\tau )},对比损失:L_{RC}(x_i)=-p^\gamma _{\nleftarrow}(x_i)log(p(x_i))

结果

域泛化设置下与SOTA方法的比较
在合成数据集的比较

消融实验

CP:跨帧正样本对;L_{RC}:可靠性导向的对比损失;L_Q:基于记忆的对比损失。
性能与数据规模

更多细节在论文

相关文章:

【自监督Re-ID】ICCV_2023_Oral | ISR论文阅读

Codehttps://github.com/dcp15/ISR_%20ICCV2023_Oral 面向泛化行人再识别的身份导向自监督表征学习,清华大学 目录 导读 摘要 相关工作 DG ReID 用于ReID的合成数据 无监督表征学习 Identity-Seeking Representation Learning 结果 消融实验 导读 新角度…...

ElasticSearch 10000条查询数量限制

一、前言 我们将库存快照数据导入ES后发现要分页查询10000条以后的记录会报错,这是因为ES通过index.max_result_window这个参数控制能够获取数据总数fromsize最大值,默认限制是10000条,因为ES考虑到数据要从其它节点上报到协调节点如果搜索请…...

视频增强修复工具Topaz Video AI mac中文版安装教程

Topaz Video AI mac是一款使用人工智能技术对视频进行增强和修复的软件。它可以自动降噪、去除锐化、减少压缩失真、提高清晰度等等。Topaz Video AI可以处理各种类型的视频,包括低分辨率视频、老旧影片、手机录制的视频等等。 使用Topaz Video AI非常简单&#xff…...

【面试题精讲】Java自增自减运算符

❝ 有的时候博客内容会有变动,首发博客是最新的,其他博客地址可能会未同步,认准https://blog.zysicyj.top ❞ 首发博客地址[1] 面试题手册[2] 系列文章地址[3] 1. 什么是自增自减运算符? 自增自减运算符是一种用于对变量进行加 1 或减 1 操作的特殊运算…...

282_WEB_对于注册、数据data_callback中进行处理的理解

这段代码是一个 HTTP 服务器中处理请求的核心部分,涉及到路由和请求处理的逻辑。让我们逐行解析代码,同时理解其中涉及的关键概念和组件。 首先,你提供的代码有一些与 HTTP 请求和路由处理相关的部分,同时还有一些可能是从一个较大的代码基础中提取的片段,因此有些变量和…...

测试C#图像文本识别模块Tesseract的基本用法

微信公众号“dotNET跨平台”的文章《c#实现图片文体提取》(参考文献3)介绍了C#图像文本识别模块Tesseract,后者是tesseract-ocr(参考文献2) 的C#封装版本,目前版本为5.2,关于Tesseract的详细介绍…...

计组+系统02:30min导图复习 存储系统

🐳前言 考研笔记整理,纯复习向,思维导图基本就是全部内容了,不会涉及较深的知识点~~🥝🥝 第1版:查资料、画思维导图~🧩🧩 编辑: 梅头脑🌸 参考…...

2023华为杯数学建模D题-域碳排放量以及经济、人口、能源消费量的现状分析(如何建立指标和指标体系1,碳排放影响因素详细建模过程)

可能建立的指标如下: 经济指标: 地区生产总值(GDP)人均GDP;第一产业(农林部门)产值;第二产业(能源供应和工业部门)产值;第三产业(建筑和交通部门…...

Excel·VBA分列、字符串拆分

看到一篇博客《VBA,用VBA进行分列(拆分列)的2种方法》,使用VBA对字符串进行拆分 目录 Excel分列功能将字符串拆分为二维数组,Split函数举例 将字符串拆分为一维数组,正则表达式举例 Excel分列功能 Sub 测…...

机器学习算法基础--层次聚类法

文章目录 1.层次聚类法原理简介2.层次聚类法基础算法演示2.1.Single-linkage的计算方法演示2.2.Complete-linkage的计算方法演示2.3.Group-average的计算方法演示 3.层次聚类法拓展算法介绍3.1.质心法原理介绍3.2.基于中点的质心法3.3.Ward方法 4.层次聚类法应用实战4.1.层次聚…...

linux系统中wifi移植方法

第一:移植wifi现象 在linux系统的RK3399中空板上,确认rk3399中控板linux系统已经可以正常运行。本操作是在rk3399中控板上的WIFI模块,linux内核加载wifi驱动后,再配置上正确的wifi密码,就可以实现rk3399中控板通过wifi…...

Machine Learning(study notes)

There is no studying without going crazy Studying alwats drives us crazy 文章目录 DefineMachine LearningSupervised Learning(监督学习)Regression problemClassidication Unspervised LearningClustering StudyModel representation&#xff08…...

centos7通过docker搭建nginx+php环境

以下环境都是基于centos7.9完成。 1.安装docker yum install docker-ce 说明:这一步,由于centos软件仓库没有收纳docker,需要自己去官网爬文档安装。 安装完成之后,就是启动docker服务以及添加到开机启动。 systemctl enable do…...

Node.js 学习笔记

小插件Template String Converter 当输入${}时,自动为其加上 反引号 一、node入门 node.js是什么 node的作用 开发服务器应用 开发工具类应用 开发桌面端应用 1.命令行工具 命令的结构 常用命令 切换到D盘——D: 查看D盘目录——dir 切换工作目录——c…...

RabbitMQ之发布确认高级

RabbitMQ之发布确认高级 一、发布确认 SpringBoot 版本1.1 确认机制方案1.2 代码架构图1.3 配置文件1.4 添加配置类1.5 消息生产者1.6 回调接口1.7 消息消费者1.8 结果分析 二、回退消息2.1 Mandatory 参数2.2 消息生产者代码2.3 回调接口2.4 结果分析 三、备份交换机3.1 代码架…...

lv5 嵌入式开发-10 信号机制(下)

目录 1 信号集、信号的阻塞 2 信号集操作函数 2.1 自定义信号集 2.2 清空信号集 2.3 全部置1 2.4 将一个信号添加到集合中 2.5 将一个信号从集合中移除 2.6 判断一个信号是否在集合中 2.7 设定对信号集内的信号的处理方式(阻塞或不阻塞) 2.8 使进程挂起(…...

【postgresql】 ERROR: multiple assignments to same column “XXX“

Cause: org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; bad SQL grammar []; nested exception is org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; 原因:or…...

一文读懂Llama 2(从原理到实战)

简介 Llama 2,是Meta AI正式发布的最新一代开源大模型。 Llama 2训练所用的token翻了一倍至2万亿,同时对于使用大模型最重要的上下文长度限制,Llama 2也翻了一倍。Llama 2包含了70亿、130亿和700亿参数的模型。Meta宣布将与微软Azure进行合…...

完整指南:如何使用 Node.js 复制文件

文件拷贝指的是将一个文件的数据复制到另一个文件中,使目标文件与源文件内容一致。Node.js 提供了文件系统模块 fs,通过该模块可以访问文件系统,实现文件操作,包括拷贝文件。 Node.js 中文件拷贝方法 在 Node.js 中,有…...

ElementUI - 主页面--动态树右侧内容管理

一.左侧动态树 1.定义组件 ①样式&数据处理 <template><el-menu class"el-menu-vertical-demo" background-color"#334157"text-color"#fff" active-text-color"#ffd04b" :collapse"collapsed" router :def…...

不只是显示中文:用fbterm给你的CentOS终端换个‘皮肤’,提升老旧服务器运维效率

终端美学革命&#xff1a;用fbterm打造高效CentOS字符界面工作环境 在服务器运维的世界里&#xff0c;图形界面往往被视为奢侈品。当您面对一台资源受限的老旧CentOS服务器&#xff0c;或者需要远程管理没有X11支持的机器时&#xff0c;字符界面就成了唯一的选择。但单调的终端…...

终极网盘直链下载助手完整指南:快速免费获取8大网盘真实下载地址

终极网盘直链下载助手完整指南&#xff1a;快速免费获取8大网盘真实下载地址 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云…...

从空洞卷积到多尺度感知:图解PyTorch中ASPP的设计哲学与实现细节(附可运行代码)

从空洞卷积到多尺度感知&#xff1a;图解PyTorch中ASPP的设计哲学与实现细节&#xff08;附可运行代码&#xff09; 当我们观察一幅画时&#xff0c;眼睛会自然地聚焦在不同尺度的细节上——从整体构图到局部纹理&#xff0c;这种多尺度感知能力是人类视觉系统的核心优势。计算…...

HS2-HF_Patch:让Honey Select 2体验全面升级的智能补丁

HS2-HF_Patch&#xff1a;让Honey Select 2体验全面升级的智能补丁 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 你是否曾经因为语言障碍而无法完全享受Honey…...

AI Agent与DevOps融合:自动化开发与运维的智能体工具链

AI Agent与DevOps深度融合:打造全链路自动化开发运维的智能体工具链实践指南 摘要/引言 你有没有遇到过这些DevOps场景的痛点:凌晨3点收到线上告警,爬起来翻几百条日志排查根因花了40分钟,业务已经损失了几十万;团队100个开发每天提交200+MR,DevOps团队光做代码审查就要…...

learn claude code S12 Worktree 任务隔离详解笔记

S12 Worktree 任务隔离详解笔记基于 s12_worktree_task_isolation.py 源码逐行分析&#xff0c;配合 s12-worktree-task-isolation.md 设计思路。一、问题&#xff1a;多个任务共享一个工作目录&#xff0c;互相踩踏 前面 11 章的 agent 都在同一个工作目录下操作。当只有一个 …...

Gemini3.1Pro透明化指南:模型卡与数据卡入口解析

在 2026 年&#xff0c;越来越多的团队开始把“模型怎么用”升级为“模型用得是否可控、可追溯”。尤其是涉及合规审计、数据治理与风险评估时&#xff0c;工程侧最需要的往往是&#xff1a;能快速找到模型信息与数据来源的透明化页面入口&#xff0c;确保链路清晰、记录完整、…...

ERP生产模块设计:从BOM到完工

一、基础数据&#xff1a;BOM与工艺路线生产模块的核心是BOM&#xff08;物料清单&#xff09;和工艺路线。这两个搞不清楚&#xff0c;生产计划无从谈起。1. BOM表结构CREATE TABLE bd_bom (id BIGINT PRIMARY KEY AUTO_INCREMENT,bom_no VARCHAR(30) NOT NULL UNIQUE,materia…...

STM32F103C8T6驱动MAX30102:从CubeMX配置到心率可视化,一个LED灯带你看懂心跳

STM32F103C8T6驱动MAX30102&#xff1a;从硬件交互到心跳可视化实战 当你第一次看到LED灯随着自己的心跳节奏闪烁时&#xff0c;那种将生物信号转化为物理反馈的奇妙体验&#xff0c;正是嵌入式开发的魅力所在。本文将带你用STM32F103C8T6和MAX30102血氧传感器&#xff0c;打造…...

每天140万亿次“Token“在狂奔!这组数据背后,有人赚疯,有人焦虑到失眠

> 就在今天&#xff0c;你刷的每一条AI回复&#xff0c;都在创造历史。0101 你随口的一句话&#xff0c;正在"吃掉"一座超级计算机你有没有这种感觉——早上用豆包写了个周报&#xff0c;中午让Kimi帮你总结了一份PDF&#xff0c;下午在微信里让AI画了一张插画&am…...