当前位置：首页 > news >正文

【自监督Re-ID】ICCV_2023_Oral | ISR论文阅读

news 2026/2/9 22:01:35

Codehttps://github.com/dcp15/ISR_%20ICCV2023_Oral

面向泛化行人再识别的身份导向自监督表征学习，清华大学

目录

导读

摘要

相关工作

DG ReID

用于ReID的合成数据

无监督表征学习

Identity-Seeking Representation Learning

结果

消融实验

导读

新角度：提出了从大规模无标注互联网行人视频中学习领域泛化的行人表征。
新方法：设计了新颖的自监督的学习框架以及可靠性引导的对比损失函数，有效学习到identity discrimination。所提方法具有出色的数据可扩展性。
高性能：所学表征展现出很强的域泛化能力和域迁移能力，具有很大的实际应用价值和潜力。

摘要

本文旨在从大规模视频中学习一种无需任何注释的域泛化（DG）行人再识别（ReID）表示。由于标注成本高，先前的DG ReID方法使用有限的标注数据进行训练，这限制了进一步发展。为了克服数据和注释的障碍，我们建议使用大规模的无监督数据进行训练。关键问题在于如何挖掘身份信息。为此，我们提出了一种ISR（Identity-seeking Self-supervised Representation learning）方法。ISR将实例关系建模当做最大权重二分匹配问题，从帧间图像构建正样本对。进一步提出了一种可靠性引导的对比损失，以抑制噪声正样本对的不利影响，确保可靠的正样本对主导学习过程。ISR的训练成本与数据大小近似呈线性关系，因此可以利用大规模数据进行训练。所学习的表示表现出很强的泛化能力。在没有人为注释和微调的情况下，ISR在Market-1501上获得了87.0%的Rank-1，在MSMT17上获得了56.4%的Rank-1，分别比最佳有监督域泛化方法高出5.0%和19.5%。

相关工作

DG ReID

领域通用的人物识别（Domain Generalizable ReID）旨在在源领域上学习一个强大的模型，并直接在未见过的目标领域上进行测试，而无需进行微调处理。因其在实际应用中的巨大潜力而受到广泛关注。DIMN设计了一个域不变映射网络来学习元学习管道下的域不变表示。MetaBIN和SNR研究了归一化层或模块，以提高模型的泛化能力。RaMoE利用目标域和多个源域之间的相关性来提高模型的泛化能力。MDA将源和目标特征分布与先前的分布对齐。这些方法是用小规模领域匮乏的标记数据进行训练的。与他们不同的是，我们的目标是从大规模领域多样的未标记数据中学习DG ReID模型。

用于ReID的合成数据

ReID模型的性能受到从真实世界收集标注数据的高昂成本的限制。为了应对这一挑战，一些方法已经转向使用合成数据（synthetic data）。值得注意的是，PersonX包含1266个ID，其中273456张图像是从各个角度拍摄的，能够探索视角对ReID系统的影响。RandPerson提供了8000个身份，其中有来自19台摄像机的228655张图像，而UnrealPerson提供了3000个身份，包括来自34台摄像机的120000张图像；ClonedPerse包括来自24台摄像机的5621个身份和887766张图像。这些合成数据集已被证明对监督学习有价值，因为它们增强了ReID模型的泛化能力。DomainMix [1] 进一步证实，在训练期间将标记的合成数据与未标记的真实世界数据相结合是DG ReID的一个有前途的方向。然而，合成数据和真实世界的数据之间仍然存在巨大的领域差距，阻碍了在合成数据上训练的模型无缝应用于真实的现实世界场景。为了弥补这种差异，我们建议使用大量未标记的真实世界数据进行训练。

[1] Wenhao Wang, Shengcai Liao, Fang Zhao, Kangkang Cui, and Ling Shao. Domainmix: Learning generalizable person re-identification without human annotations. In BMVC, 2021. 3

无监督表征学习

一些主流的无监督表征学习方法（MoCo, SimCLR, BYOL），如果被直接应用于ReID，则只能学习预训练模型，这在直接测试时显示出极低的准确性。核心原因是，它们将一张图像的两个不同视图视为正样本对，或者对图像中的掩码像素进行重建，从而实现了实例区分（instance discrimination）。这与身份区分（identity discrimination）的ReID目标所矛盾。与它们不同，我们将同一ID的帧间图像视为正样本对，来达到身份区分的目标。一项密切相关的工作是CycAs（同团队的工作）及其改进版本。大概意思是作者针对CycAs方法的弱点提出了一种新方法，通过挖掘正样本对和抑制噪声来提供更鲁棒和通用的人物再识别表示学习的解决方案。

可视化证明：ISR对identity-discrimination的有效性

Identity-Seeking Representation Learning

身份导向的自监督表征学习

The overview of ISR.

（1）构建正样本对

基于最大权二分图匹配，在邻近帧中构建跨帧正样本对。

（2）抑制噪声正样本对

计算每个正样本对的可靠性，利用可靠性来引导学习对比损失，进而抑制噪声正样本对的影响。

可靠性计算： $p(x_{i})=\frac{\sum_{j}\pi ^*exp(x_i\cdot y_j/\tau )}{\sum_{j}exp(x_i\cdot y_j/\tau )}$ ，对比损失： $L_{RC}(x_i)=-p^\gamma _{\nleftarrow}(x_i)log(p(x_i))$

结果

域泛化设置下与SOTA方法的比较

在合成数据集的比较

消融实验

CP：跨帧正样本对；L_{RC}：可靠性导向的对比损失；L_Q：基于记忆的对比损失。

性能与数据规模

更多细节在论文

相关文章：

【自监督Re-ID】ICCV_2023_Oral | ISR论文阅读

Codehttps://github.com/dcp15/ISR_%20ICCV2023_Oral 面向泛化行人再识别的身份导向自监督表征学习，清华大学目录导读摘要相关工作 DG ReID 用于ReID的合成数据无监督表征学习 Identity-Seeking Representation Learning 结果消融实验导读新角度…...

编程日记 2023/9/30 17:06:59

ElasticSearch 10000条查询数量限制

一、前言我们将库存快照数据导入ES后发现要分页查询10000条以后的记录会报错，这是因为ES通过index.max_result_window这个参数控制能够获取数据总数fromsize最大值，默认限制是10000条，因为ES考虑到数据要从其它节点上报到协调节点如果搜索请…...

编程日记 2023/9/30 16:58:49

视频增强修复工具Topaz Video AI mac中文版安装教程

Topaz Video AI mac是一款使用人工智能技术对视频进行增强和修复的软件。它可以自动降噪、去除锐化、减少压缩失真、提高清晰度等等。Topaz Video AI可以处理各种类型的视频，包括低分辨率视频、老旧影片、手机录制的视频等等。使用Topaz Video AI非常简单&#xff…...

编程日记 2023/9/30 16:56:46

【面试题精讲】Java自增自减运算符

❝ 有的时候博客内容会有变动，首发博客是最新的，其他博客地址可能会未同步,认准https://blog.zysicyj.top ❞ 首发博客地址[1] 面试题手册[2] 系列文章地址[3] 1. 什么是自增自减运算符? 自增自减运算符是一种用于对变量进行加 1 或减 1 操作的特殊运算…...

编程日记 2023/9/30 16:55:44

282_WEB_对于注册、数据data_callback中进行处理的理解

这段代码是一个 HTTP 服务器中处理请求的核心部分，涉及到路由和请求处理的逻辑。让我们逐行解析代码，同时理解其中涉及的关键概念和组件。首先，你提供的代码有一些与 HTTP 请求和路由处理相关的部分，同时还有一些可能是从一个较大的代码基础中提取的片段，因此有些变量和…...

编程日记 2023/9/30 16:54:43

测试C#图像文本识别模块Tesseract的基本用法

微信公众号“dotNET跨平台”的文章《c#实现图片文体提取》（参考文献3）介绍了C#图像文本识别模块Tesseract，后者是tesseract-ocr（参考文献2） 的C#封装版本，目前版本为5.2，关于Tesseract的详细介绍…...

编程日记 2023/9/30 16:51:40

计组+系统02：30min导图复习存储系统

🐳前言考研笔记整理，纯复习向，思维导图基本就是全部内容了，不会涉及较深的知识点~~🥝🥝 第1版：查资料、画思维导图~🧩🧩 编辑： 梅头脑🌸 参考…...

编程日记 2023/9/30 16:50:39

2023华为杯数学建模D题-域碳排放量以及经济、人口、能源消费量的现状分析（如何建立指标和指标体系1，碳排放影响因素详细建模过程）

可能建立的指标如下： 经济指标: 地区生产总值（GDP）人均GDP；第一产业（农林部门）产值；第二产业（能源供应和工业部门）产值；第三产业（建筑和交通部门…...

编程日记 2023/9/30 16:49:38

Excel·VBA分列、字符串拆分

看到一篇博客《VBA，用VBA进行分列（拆分列）的2种方法》，使用VBA对字符串进行拆分目录 Excel分列功能将字符串拆分为二维数组，Split函数举例将字符串拆分为一维数组，正则表达式举例 Excel分列功能 Sub 测…...

编程日记 2023/9/30 16:48:36

机器学习算法基础--层次聚类法

文章目录 1.层次聚类法原理简介2.层次聚类法基础算法演示2.1.Single-linkage的计算方法演示2.2.Complete-linkage的计算方法演示2.3.Group-average的计算方法演示 3.层次聚类法拓展算法介绍3.1.质心法原理介绍3.2.基于中点的质心法3.3.Ward方法 4.层次聚类法应用实战4.1.层次聚…...

编程日记 2023/9/30 16:46:34

linux系统中wifi移植方法

第一：移植wifi现象在linux系统的RK3399中空板上，确认rk3399中控板linux系统已经可以正常运行。本操作是在rk3399中控板上的WIFI模块，linux内核加载wifi驱动后，再配置上正确的wifi密码，就可以实现rk3399中控板通过wifi…...

编程日记 2023/9/30 16:45:33

Machine Learning（study notes）

There is no studying without going crazy Studying alwats drives us crazy 文章目录 DefineMachine LearningSupervised Learning（监督学习）Regression problemClassidication Unspervised LearningClustering StudyModel representation&#xff08…...

编程日记 2023/9/30 16:44:31

centos7通过docker搭建nginx+php环境

以下环境都是基于centos7.9完成。 1.安装docker yum install docker-ce 说明：这一步，由于centos软件仓库没有收纳docker，需要自己去官网爬文档安装。安装完成之后，就是启动docker服务以及添加到开机启动。 systemctl enable do…...

编程日记 2023/9/30 16:43:30

Node.js 学习笔记

小插件Template String Converter 当输入${}时，自动为其加上反引号一、node入门 node.js是什么 node的作用开发服务器应用开发工具类应用开发桌面端应用 1.命令行工具命令的结构常用命令切换到D盘——D: 查看D盘目录——dir 切换工作目录——c…...

编程日记 2023/9/30 16:41:28

RabbitMQ之发布确认高级

RabbitMQ之发布确认高级一、发布确认 SpringBoot 版本1.1 确认机制方案1.2 代码架构图1.3 配置文件1.4 添加配置类1.5 消息生产者1.6 回调接口1.7 消息消费者1.8 结果分析二、回退消息2.1 Mandatory 参数2.2 消息生产者代码2.3 回调接口2.4 结果分析三、备份交换机3.1 代码架…...

编程日记 2023/9/30 16:39:26

lv5 嵌入式开发-10 信号机制（下）

目录 1 信号集、信号的阻塞 2 信号集操作函数 2.1 自定义信号集 2.2 清空信号集 2.3 全部置1 2.4 将一个信号添加到集合中 2.5 将一个信号从集合中移除 2.6 判断一个信号是否在集合中 2.7 设定对信号集内的信号的处理方式(阻塞或不阻塞) 2.8 使进程挂起（…...

编程日记 2023/9/30 16:36:22

【postgresql】 ERROR: multiple assignments to same column “XXX“

Cause: org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; bad SQL grammar []; nested exception is org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; 原因：or…...

编程日记 2023/9/30 16:35:21

一文读懂Llama 2（从原理到实战）

简介 Llama 2，是Meta AI正式发布的最新一代开源大模型。 Llama 2训练所用的token翻了一倍至2万亿，同时对于使用大模型最重要的上下文长度限制，Llama 2也翻了一倍。Llama 2包含了70亿、130亿和700亿参数的模型。Meta宣布将与微软Azure进行合…...

编程日记 2023/9/30 16:34:20

完整指南：如何使用 Node.js 复制文件

文件拷贝指的是将一个文件的数据复制到另一个文件中，使目标文件与源文件内容一致。Node.js 提供了文件系统模块 fs，通过该模块可以访问文件系统，实现文件操作，包括拷贝文件。 Node.js 中文件拷贝方法在 Node.js 中，有…...

编程日记 2023/9/30 16:30:13

ElementUI - 主页面--动态树右侧内容管理

一.左侧动态树 1.定义组件 ①样式&数据处理 <template><el-menu class"el-menu-vertical-demo" background-color"#334157"text-color"#fff" active-text-color"#ffd04b" :collapse"collapsed" router :def…...

编程日记 2023/9/30 16:22:04

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

智慧工地管理云平台系统，智慧工地全套源码，java版智慧工地源码，支持PC端、大屏端、移动端。智慧工地聚焦建筑行业的市场需求，提供“平台网络终端”的整体解决方案，提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

编程新知 2026/1/30 15:16:32

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2026/1/31 2:37:22

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/12/12 4:55:21

Kafka入门-生产者

生产者生产者发送流程： 延迟时间为0ms时，也就意味着每当有数据就会直接发送异步发送API 异步发送和同步发送的不同在于：异步发送不需要等待结果，同步发送必须等待结果才能进行下一步发送。普通异步发送首先导入所需的k…...

编程新知 2026/1/26 4:49:33

C#学习第29天：表达式树（Expression Trees）

目录什么是表达式树？ 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持： 3.性能优化 4.元数据处理 5.代码转换和重写适用场景代码复杂性…...

编程新知 2025/10/20 9:03:01

关于uniapp展示PDF的解决方案

在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项： 一、安装依赖安装 pdf-vue3 和 PDF.js 核心库： npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

编程新知 2025/9/18 20:16:52

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2026/1/31 8:53:50

Ubuntu Cursor升级成v1.0

0. 当前版本低使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开，快捷键也不好用，当看到 Cursor 升级后，还是蛮高兴的 1. 下载 Cursor 下载地址：https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ，…...

编程新知 2026/2/4 16:04:11

Python 高效图像帧提取与视频编码：实战指南

Python 高效图像帧提取与视频编码：实战指南在音视频处理领域，图像帧提取与视频编码是基础但极具挑战性的任务。Python 结合强大的第三方库（如 OpenCV、FFmpeg、PyAV），可以高效处理视频流，实现快速帧提取、压缩编码等关键功能。本文将深入介绍如何优化这些流程，提高处理…...

编程新知 2025/8/31 18:02:53

篇章二论坛系统——系统设计

目录 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 1. 数据库设计 1.1 数据库名: forum db 1.2 表的设计 1.3 编写SQL 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体通过需求分析获得概念类并结合业务实现过程中的技术需要&#x…...

编程新知 2026/2/5 5:58:30