CVPR 2023 | 旷视研究院入选论文亮点解读
近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次,旷视研究院有 13 篇论文入选,涵盖3D 目标检测、多目标跟踪、模型压缩、知识蒸馏等多个领域。以下为入选论文简介 :
👇
01
VoxelNeXt:Fully Sparse VoxelNet for 3D Object Detection and Tracking
用于3D检测和跟踪的纯稀疏体素网络
目前自动驾驶场景的3D检测框架大多依赖于dense head,而3D点云数据本身是稀疏的,这无疑是一种低效和浪费计算量的做法。我们提出了一种纯稀疏的3D 检测框架 VoxelNeXt。该方法可以直接从sparse CNNs 的 backbone网络输出的预测 sparse voxel 特征来预测3D物体,无需借助转换成anchor, center, voting等中间状态的媒介。该方法在取得检测速度优势的同时,还能很好地帮助多目标跟踪。VoxelNeXt在nuScenes LIDAR 多目标跟踪榜单上排名第一。

👉关键词:纯稀疏、nuScenes 3D点云多目标跟踪SOTA
https://arxiv.org/abs/2303.11301
02
A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
用于视频帧预测的多尺度动态体素流网络
根据现有的视频帧预测未来的视频帧是一个运动理解和表示学习中的重要任务。先进的深层神经网络极大地提高了视频预测的性能,然而大多数现有方法需要大模型和额外的输入(对应的分割图或者深度图)来预测未来帧。为了更高的效率和更广泛的应用,我们提出动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network,DMVFN),DMVFN 仅需要图片帧输入,以相当低的计算成本实现了最先进的视频帧预测性能。DMVFN 的核心是一个可微分的路由模块,它可以有效地感知视频帧的运动规模,在推理阶段自适应地选择适当的子网络。DMVFN 的计算量只有经典的深度体素流方法 DVF 的三十分之一,并且在画面质量上超过了最新的基于迭代的 OPT 算法。
引用:
DVF:Video Frame Synthesis Using Deep Voxel Flow
OPT:Optimizing Video Prediction via Video Frame Interpolation

👉关键词:视频预测、动态网络、视频画质、光流
https://huxiaotaostasy.github.io/DMVFN/
03
Three Guidelines You Should Know for Universally Slimmable Self-Supervised Learning
用于指导通用可裁减的自监督学习的三个准则
自监督训练已经代替监督训练逐渐成为目前深度学习的主流, 但如何在面向不同计算资源的平台时部署自监督模型仍然是一个挑战. 为进一步高效部署预训练模型, 我们探索了自监督学习的预训练过程中如何令模型具备universally slimmable的性质, 使得模型可以在预训练过程结束后可以根据目标平台的资源限制选择最优的模型尺寸, 达到精度与效率之间更好的trade-off. 然而, 我们发现由于梯度的时序不一致性会导致直接将应用slimmable network应用到自监督中会导致训练崩溃. 为此, 我们提出三个指导准则用于设计损失函数来保证梯度的时序一致性. 另外, 为进一步提升精度和减少训练开销, 分别提出了group regularization和dynamic sampling的技术. 通过上述方式, 我们的方法US3L只需一次预训练且仅需一份完整模型权重就可以根据具体硬件限制裁减进行适配. US3L在不同的CV任务(分类, 检测, 分割)和不同的架构(CNN, ViT)都进行了验证均取得很好的效果。

👉关键词: self-supervised learning, universally slimmable, temporal consistency, cnns, vit
https://arxiv.org/abs/2303.06870
04
MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors
利用预训练物体检测器大规模提升端到端多目标追踪

我们提出了一种简单而有效的多目标跟踪方法MOTRv2,可以使用预训练的目标检测器来提高跟踪性能。相对于现有的端到端方法,MOTRv2采用额外的目标检测器来生成锚框,为多目标跟踪方法MOTR提供了检测的先验信息,从而极大地缓解了MOTR中联合学习检测和追踪两个任务时的冲突。该方法在基准数据集MOT17、MOT20中表现良好,取得了DanceTrack挑战赛冠军(73.4% HOTA),并在BDD100K数据集上达到了最先进的性能。
👉关键词:多目标跟踪、端到端、目标检测、DanceTrack比赛
https://arxiv.org/abs/2211.09791
05
Referring Multi-Object Tracking
文本引导的多目标追踪:一个数据集benchmark,一个简单的baseline

以往的多目标追踪任务往往要求检测到可视范围内的所有目标并加以追踪,而本文提出了一个更加灵活的基于文本引导的多目标追踪任务(RMOT)。该任务可以根据人类语言指令检测和追踪特定的目标群,可以是一个目标,也可以是多个目标。本文首先构建了第一个RMOT数据集,包括公开数据集KITTI中的18个视频和人工标记的818条指令。同时,本文在MOTR的基础上提出了一个简单的端到端的RMOT基准算法,即TransRMOT。
👉关键词:多目标追踪、RMOT数据集、端到端算法
https://arxiv.org/abs/2303.03366
06
Boosting Semi-Supervised Learning by Exploiting All Unlabeled Data
提升半监督学习中低置信度样本的利用率
半监督学习(SSL)凭借着无需大规模标注数据的优势备受研究人员的关注。以FixMatch为代表的SSL算法,通过将伪标签和一致性正则化两种技术统一到一个框架中实现了目前的最优性能。在本文中,我们指出了FixMatch系列方法存在无标签数据利用率不足的缺点。针对此,我们提出了EML和ANL两个策略,用来挑选出更多的伪标签同时引入额外的标签来充分利用低置信度样本。实验表明,我们的方法可以显著提升FixMatch系列方法的精度。

👉关键词:半监督学习、图像分类
07
Understanding Masked Image Modeling via Learning Occlusion Invariant Feature
从学习遮挡不变性的视角理解掩码图像建模
掩码图像建模(masked image modeling, MIM) 近期在自监督预训练任务上取得巨大成功,但如何理解基于重建框架的 MIM 仍是未解决的问题。本文从 MIM 隐式建模遮挡不变性的新视角,将 MIM 从单塔模型松弛为双塔模型 ,从而将 MIM 与对比学习等基于双塔的方法划归到统一的框架中。在这个统一的视角下,MIM 与对比学习的区别仅有数据变换(需要学习的不变性)与相似性度量。我们发现,基于遮挡的数据变换对于模型的重要性要大于相似性度量,而且这种遮挡不变性由框架而不是数据习得:仅用一张图像迭代5000次就能使 MIM 学到不错的特征,即使这些特征缺乏丰富的语义性,它对于识别任务而言依然是很好的初始化。

👉关键词:遮挡不变性、掩码图像建模
https://arxiv.org/abs/2208.04164
08
Differentiable Architecture Search with Random Features
基于随机特征的可微分神经网络架构搜索

旷视研究院是最早一批进入神经架构搜索领域的机构,一直致力于发掘“本质”有效的算法。在前作《基于随机标签的可微分神经网络架构搜索》的基础上,我们进一步“删繁就简”,仅通过训练超网络中的批归一化层(BatchNorm)就可以在NAS-Bench-201上找到几乎最优的网络架构,进一步揭示了可微分神经网络架构搜索的本质是寻找“最适合优化”的网络结构。在实验中,我们以极小的搜索开销,在CIFAR、ImageNet等多个数据集上取得了最好的效果。
👉关键词:可微分神经网络架构搜索、随机特征、优化理论
https://arxiv.org/abs/2208.08835
09
Scaling up Kernels in 3D Sparse CNNs
大卷积核3D CNN

大卷积核已经在2D 图像处理领域被证明了有效性,然而在3D 领域还没有得到有效探索。其难点在于3D CNN的计算量和参数量会随着其卷积核的增加而成立方次的增加。为了解决这样的问题,我们提出了一种以空间为单位的卷积核分组,能够有效地降低大卷积核 3D CNN的计算量和优化难度。我们提出的大卷积核3D CNN在3D 点云分割、3D 点云检测任务上都取得了很大的提升,并在nuScenes LIDAR检测榜单上排名第一。
👉关键词:大卷积核、nuScenes 3D点云检测SOTA
https://arxiv.org/abs/2206.10555
10
UniDistill: A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection in Bird’s-Eye View
统一的蒸馏框架:基于BEV域的3D检测跨模态知识蒸馏框架
在面向自动驾驶的 3D 目标检测任务中,包括多模态和单模态的传感器组合是多样和复杂的。多模态方法具有系统复杂性,而单模态方法的精度相对较低,因此如何在它们之间进行权衡是很困难的。在这项工作中,我们提出了一个通用的跨模态知识提取框架(UniDistill)来提高单模态检测器的性能。具体而言,UniDistill 将教师和学生检测器的特征投影到鸟瞰图(BEV)空间中,这是对不同模态的友好表示。然后,计算三个蒸馏损失,以稀疏地对齐前景特征,帮助学生检测器向教师检测器学习,而不会在推理过程中引入额外成本。UniDistill 可轻松支持激光雷达到摄像机、摄像机到激光雷达、融合到激光雷达以及融合到摄像机的蒸馏路径。此外,三种蒸馏损失可以过滤背景信息不对齐的影响,并在不同大小的物体之间保持平衡,从而提高蒸馏效率。在 nuScenes 数据集上的大量实验表明,UniDistill 有效地将学生检测器的 mAP 和 NDS 提高了 2.0%~3.2%。

👉关键词:3D 目标检测、知识蒸馏、BEV
https://openreview.net/pdf?id=iWiuqQu8rw
11
Understanding Imbalanced Semantic Segmentation Through Neural Collapse
从神经坍缩的视角理解非平衡类别的语义分割任务
最近研究表明网络学习会有神经坍塌(Neural Collaspe)的现象:同类特征的类内均值和分类器各个类别对应的权重向量,在分类训练的最终阶段,以上两者会收敛到等角单纯形的紧框架顶点(simplex equiangular tight frame)。 在本文中,我们探索了在语义分割任务中最后一层特征中心和分类器的相应结构。 基于我们的实证和理论分析,我们指出语义分割任务本身会涉及到上下文相关性(contextual correlation)和类别间的不平衡分布,这打破了特征中心和分类器神经崩溃的等角和最大分离结构。 然而,这种等角的对称结构有利于对罕见类的区分。 为了保留这些优势,我们在特征中心空间引入了正则化器(regularizer),以促使网络在不平衡语义分割任务中学习上述对称且系统性的结构。 实验结果表明,我们的方法可以在2D图像和3D点云语义分割任务上带来都有显着改进。 此外,我们的方法在ScanNet200测试排行榜上排名第一,并创造了新的mIoU记录 (+6.8% mIoU)。

👉关键词:网络坍塌、正则器、语义分割、不平衡问题
https://arxiv.org/abs/2301.01100
12
Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization
证明深伪检测当前研究种存在的数据分布问题,并给出可能的解决方案
深度伪造(deepfake)技术的出现带来很多社会问题,检测深度伪造生成的图片是一项当前还在进行的研究。本文关注深伪检测当前研究中普遍存在的一个问题,即研究深度伪造所用的公开数据集普遍存在对象身份泄漏的现象(Implicit Identity Leakage)使算法识别精度下降。本文提出一种缓解此现象的方法,能有效提升深伪检测任务的算法精度。

👉关键词:深伪检测
https://openreview.net/pdf?id=uSCbWUh8V_
13
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers
推进vision transformer模型的压缩极限
Vision Transformers(ViTs)作为一种新型的网络结构在各类视觉任务表现良好,但落地仍然受其计算代价的制约。近来大家开始尝试修剪部分冗余token来获得性能和计算成本之间的trade-off;然而,修剪策略的错误难以避免,并会导致额外的上下文信息损失。为了挽救随之而来的性能下降,我们提出了一种联合令牌修剪(token pruning)和令牌挤压(token squeezing)的模块(TPS)来实现对vision transformer模型进行更高效的压缩。在保证了constant shape推理的前提下,与现有SOTA方法的比较证明,我们的方法在所有压缩强度下都优于它们:尤其是在使用更激进的压缩强度下。在将 DeiT-T&S计算代价缩减至 35% 的同时,我们与baseline相比提高了 1%-6%的准确率。我们在hybrid ViTs和vanilla ViTs上都开展了广泛的实验证明了我们方法的鲁棒性和泛用性。

👉关键词:Vision Transformer、模型压缩、动态网络
相关文章:
CVPR 2023 | 旷视研究院入选论文亮点解读
近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次&…...
Vue3 学习总结补充(一)
文章目录1、Vue3中为什么修改变量的值后,视图不更新?2、使用 ref 还是 reactive?3、reactive 为什么会有响应性连接丢失情况?4、watch的不同使用方法5、watchEffect和 watch 的区别区别1:数据源的区别区别2:…...
使用ChatGPT 开放的 API 接口可以开发哪些自研工具?
使用ChatGPT开放的API接口,可以开发多种自研工具,例如: 智能聊天机器人:可以使用ChatGPT提供的语言生成能力,构建一个智能聊天机器人,能够根据用户的输入自动回复,完成自然语言交互。 文本生成工具:可以使用ChatGPT的文本生成能力,开发一个文本生成工具,例如自动生…...
I2C和SPI总线以及通信
通讯属性 概括 Serial/parallel 串行/并行Synchronous/asynchronous 同步/异步Point-to-point / bus 点对点 总线Half-duplex/full-duplex 半双工/全双工Master-slave/ equal partners 主从/对等single-ending / differential 单端/差分 点对点和总线 点对点通讯 只有两个通…...
Spring八股文
Bean的生命周期 1.通过反射生成对象 2.填充Bean的属性 3.调用aware接口的invokeAwareMethod方法,对BeanName、BeanFactory、BeanClassLoader对象的属性设值 4.调用BeanPostProcessor的前置处理方法,其中使用较多的是ApplicationContextPostProcessor…...
20 k8sMetric 简介
一. Metric 简介metrics-server 可实现 Kubernetes 的 Resource Metrics API(metrics.k8s.io),通过此 API 可以查询 Pod 与 Node 的部分监控指标,Pod 的监控指标用于 HPA、VPA 与 kubectl top pods -n ns 命令,而 Node…...
面试问了解Linux内存管理吗?10张图给你安排的明明白白
linux内存管理,内存管理好像离我们很远,但这个知识点虽然冷门(估计很多人学完根本就没机会用上)但绝对是基础中的基础,这就像武侠中的内功修炼,学完之后看不到立竿见影的效果,但对你日后的开发工…...
【C++】内联函数inline
文章目录概念使用特性原理概念 C中内联函数的出现解决了C语言宏函数的不足,类似于宏展开,这种在函数调用处直接嵌入函数体的函数称为内联函数,又称内嵌函数或内置函数。 以inline修饰的函数叫做内联函数,编译时C编译器会在调用内…...
C++演讲比赛流程管理系统_黑马
任务 学校演讲比赛,12人,两轮,第一轮淘汰赛,第二轮决赛 选手编号 [ 10001 - 10012 ] 分组比赛 每组6人 10个评委 去除最高分 最低分,求平均分 为该轮成绩 每组淘汰后三名,前三名晋级决赛 决赛 前三名胜出 …...
谈谈低代码的安全问题,一文全给你解决喽
低代码是一种软件开发方法,通过使用图形化用户界面和可视化建模工具,以及自动生成代码的技术,使得开发人员可以更快速地构建和发布应用程序。 作为近些年软件开发市场热门之一,市面上也涌现了许多低代码产品,诸如简道云…...
[数据结构]二叉树OJ(leetcode)
目录 二叉树OJ(leetcode)训练习题:: 1.单值二叉树 2.检查两棵树是否相同 3.二叉树的前序遍历 4.另一棵树的子树 5.二叉树的构建及遍历 6.二叉树的销毁 7.判断二叉树是否是完全二叉树 二叉树OJ(leetcode)训练习题:: 1.单值二叉…...
flutter 输入时插入分隔符
每四位插入一个分隔符import package:flutter/services.dart;class DividerInputFormatter extends TextInputFormatter {final int rear; //第一个分割位数,后面分割位,,数final String pattern; //分割符DividerInputFormatter({this.rear 4, this.pattern });overrideTex…...
静态版通讯录——“C”
各位CSDN的uu你们好呀,之前小雅兰学过了一些结构体、枚举、联合的知识,现在,小雅兰把这些知识实践一下,那么,就让我们进入通讯录的世界吧 实现一个通讯录: 可以存放100个人的信息每个人的信息:名…...
前端基础开发环境搭建工具等
一、基本开发环境(软件)安装1、Vscode(代码编辑器)官网下载网址:https://code.visualstudio.com/2、nvm(node多版本管理器,每个node版本都有对应的npm版本)安装包下载地址࿱…...
华为OD机试题【IPv4 地址转换成整数】用 Java 解 | 含解题说明
华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典本篇题目:IPv4 地址转换成整数 题目 存在…...
[数据结构]排序算法
目录 常用排序算法的实现:: 1.排序的概念及其运用 2.插入排序 3.希尔排序 4.选择排序 5.冒泡排序 6.堆排序 7.快速排序 8.归并排序 9.排序算法复杂度及稳定性分析 10.排序选择题练习 常用排序算法的实现:: 1.排序的概念及其运用…...
不愧是2023年就业最难的一年,还好有车企顶着~
就业龙卷风已经来临,以前都说找不到好的工作就去送外卖,但如今外卖骑手行业都已经接近饱和状态了,而且骑手们的学历也不低,本科学历都快达到了30%了,今年可以说是最难找到工作的一年。 像Android 开发行业原本就属于在…...
C/C++之while(do-while)详细讲解
目录 while循环有两个重要组成部分: while 是一个预测试循环 无限循环 do-while 循环 while循环有两个重要组成部分: 进行 true 值或 false 值判断的表达式;只要表达式为 true 就重复执行的语句或块;图 1 显示了 while 循环的…...
SpringCloud学习笔记(一)认识微服务
一、微服务技术栈 二、单体架构和分布式架构的区别 1、单体架构: 将业务的所有功能集中在一个项目中开发,打成一个包进行部署 优点:架构简单,部署成本低缺点:耦合度高 2、分布式架构: 根据业务功能对系统…...
Unity中使用WebSocket (ws://)的方法
WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输。 WebSocket与http 其…...
接口测试中缓存处理策略
在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...
23-Oracle 23 ai 区块链表(Blockchain Table)
小伙伴有没有在金融强合规的领域中遇见,必须要保持数据不可变,管理员都无法修改和留痕的要求。比如医疗的电子病历中,影像检查检验结果不可篡改行的,药品追溯过程中数据只可插入无法删除的特性需求;登录日志、修改日志…...
Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...
渗透实战PortSwigger靶场-XSS Lab 14:大多数标签和属性被阻止
<script>标签被拦截 我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet: https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用 再把全部 events 放进去爆破 这些 event 全部可用 <body onres…...
转转集团旗下首家二手多品类循环仓店“超级转转”开业
6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...
音视频——I2S 协议详解
I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...
SQL慢可能是触发了ring buffer
简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...
MySQL 8.0 事务全面讲解
以下是一个结合两次回答的 MySQL 8.0 事务全面讲解,涵盖了事务的核心概念、操作示例、失败回滚、隔离级别、事务性 DDL 和 XA 事务等内容,并修正了查看隔离级别的命令。 MySQL 8.0 事务全面讲解 一、事务的核心概念(ACID) 事务是…...
Web后端基础(基础知识)
BS架构:Browser/Server,浏览器/服务器架构模式。客户端只需要浏览器,应用程序的逻辑和数据都存储在服务端。 优点:维护方便缺点:体验一般 CS架构:Client/Server,客户端/服务器架构模式。需要单独…...
