CVPR 2023 | 旷视研究院入选论文亮点解读
近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次,旷视研究院有 13 篇论文入选,涵盖3D 目标检测、多目标跟踪、模型压缩、知识蒸馏等多个领域。以下为入选论文简介 :
👇
01
VoxelNeXt:Fully Sparse VoxelNet for 3D Object Detection and Tracking
用于3D检测和跟踪的纯稀疏体素网络
目前自动驾驶场景的3D检测框架大多依赖于dense head,而3D点云数据本身是稀疏的,这无疑是一种低效和浪费计算量的做法。我们提出了一种纯稀疏的3D 检测框架 VoxelNeXt。该方法可以直接从sparse CNNs 的 backbone网络输出的预测 sparse voxel 特征来预测3D物体,无需借助转换成anchor, center, voting等中间状态的媒介。该方法在取得检测速度优势的同时,还能很好地帮助多目标跟踪。VoxelNeXt在nuScenes LIDAR 多目标跟踪榜单上排名第一。
👉关键词:纯稀疏、nuScenes 3D点云多目标跟踪SOTA
https://arxiv.org/abs/2303.11301
02
A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
用于视频帧预测的多尺度动态体素流网络
根据现有的视频帧预测未来的视频帧是一个运动理解和表示学习中的重要任务。先进的深层神经网络极大地提高了视频预测的性能,然而大多数现有方法需要大模型和额外的输入(对应的分割图或者深度图)来预测未来帧。为了更高的效率和更广泛的应用,我们提出动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network,DMVFN),DMVFN 仅需要图片帧输入,以相当低的计算成本实现了最先进的视频帧预测性能。DMVFN 的核心是一个可微分的路由模块,它可以有效地感知视频帧的运动规模,在推理阶段自适应地选择适当的子网络。DMVFN 的计算量只有经典的深度体素流方法 DVF 的三十分之一,并且在画面质量上超过了最新的基于迭代的 OPT 算法。
引用:
DVF:Video Frame Synthesis Using Deep Voxel Flow
OPT:Optimizing Video Prediction via Video Frame Interpolation
👉关键词:视频预测、动态网络、视频画质、光流
https://huxiaotaostasy.github.io/DMVFN/
03
Three Guidelines You Should Know for Universally Slimmable Self-Supervised Learning
用于指导通用可裁减的自监督学习的三个准则
自监督训练已经代替监督训练逐渐成为目前深度学习的主流, 但如何在面向不同计算资源的平台时部署自监督模型仍然是一个挑战. 为进一步高效部署预训练模型, 我们探索了自监督学习的预训练过程中如何令模型具备universally slimmable的性质, 使得模型可以在预训练过程结束后可以根据目标平台的资源限制选择最优的模型尺寸, 达到精度与效率之间更好的trade-off. 然而, 我们发现由于梯度的时序不一致性会导致直接将应用slimmable network应用到自监督中会导致训练崩溃. 为此, 我们提出三个指导准则用于设计损失函数来保证梯度的时序一致性. 另外, 为进一步提升精度和减少训练开销, 分别提出了group regularization和dynamic sampling的技术. 通过上述方式, 我们的方法US3L只需一次预训练且仅需一份完整模型权重就可以根据具体硬件限制裁减进行适配. US3L在不同的CV任务(分类, 检测, 分割)和不同的架构(CNN, ViT)都进行了验证均取得很好的效果。
👉关键词: self-supervised learning, universally slimmable, temporal consistency, cnns, vit
https://arxiv.org/abs/2303.06870
04
MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors
利用预训练物体检测器大规模提升端到端多目标追踪
我们提出了一种简单而有效的多目标跟踪方法MOTRv2,可以使用预训练的目标检测器来提高跟踪性能。相对于现有的端到端方法,MOTRv2采用额外的目标检测器来生成锚框,为多目标跟踪方法MOTR提供了检测的先验信息,从而极大地缓解了MOTR中联合学习检测和追踪两个任务时的冲突。该方法在基准数据集MOT17、MOT20中表现良好,取得了DanceTrack挑战赛冠军(73.4% HOTA),并在BDD100K数据集上达到了最先进的性能。
👉关键词:多目标跟踪、端到端、目标检测、DanceTrack比赛
https://arxiv.org/abs/2211.09791
05
Referring Multi-Object Tracking
文本引导的多目标追踪:一个数据集benchmark,一个简单的baseline
以往的多目标追踪任务往往要求检测到可视范围内的所有目标并加以追踪,而本文提出了一个更加灵活的基于文本引导的多目标追踪任务(RMOT)。该任务可以根据人类语言指令检测和追踪特定的目标群,可以是一个目标,也可以是多个目标。本文首先构建了第一个RMOT数据集,包括公开数据集KITTI中的18个视频和人工标记的818条指令。同时,本文在MOTR的基础上提出了一个简单的端到端的RMOT基准算法,即TransRMOT。
👉关键词:多目标追踪、RMOT数据集、端到端算法
https://arxiv.org/abs/2303.03366
06
Boosting Semi-Supervised Learning by Exploiting All Unlabeled Data
提升半监督学习中低置信度样本的利用率
半监督学习(SSL)凭借着无需大规模标注数据的优势备受研究人员的关注。以FixMatch为代表的SSL算法,通过将伪标签和一致性正则化两种技术统一到一个框架中实现了目前的最优性能。在本文中,我们指出了FixMatch系列方法存在无标签数据利用率不足的缺点。针对此,我们提出了EML和ANL两个策略,用来挑选出更多的伪标签同时引入额外的标签来充分利用低置信度样本。实验表明,我们的方法可以显著提升FixMatch系列方法的精度。
👉关键词:半监督学习、图像分类
07
Understanding Masked Image Modeling via Learning Occlusion Invariant Feature
从学习遮挡不变性的视角理解掩码图像建模
掩码图像建模(masked image modeling, MIM) 近期在自监督预训练任务上取得巨大成功,但如何理解基于重建框架的 MIM 仍是未解决的问题。本文从 MIM 隐式建模遮挡不变性的新视角,将 MIM 从单塔模型松弛为双塔模型 ,从而将 MIM 与对比学习等基于双塔的方法划归到统一的框架中。在这个统一的视角下,MIM 与对比学习的区别仅有数据变换(需要学习的不变性)与相似性度量。我们发现,基于遮挡的数据变换对于模型的重要性要大于相似性度量,而且这种遮挡不变性由框架而不是数据习得:仅用一张图像迭代5000次就能使 MIM 学到不错的特征,即使这些特征缺乏丰富的语义性,它对于识别任务而言依然是很好的初始化。
👉关键词:遮挡不变性、掩码图像建模
https://arxiv.org/abs/2208.04164
08
Differentiable Architecture Search with Random Features
基于随机特征的可微分神经网络架构搜索
旷视研究院是最早一批进入神经架构搜索领域的机构,一直致力于发掘“本质”有效的算法。在前作《基于随机标签的可微分神经网络架构搜索》的基础上,我们进一步“删繁就简”,仅通过训练超网络中的批归一化层(BatchNorm)就可以在NAS-Bench-201上找到几乎最优的网络架构,进一步揭示了可微分神经网络架构搜索的本质是寻找“最适合优化”的网络结构。在实验中,我们以极小的搜索开销,在CIFAR、ImageNet等多个数据集上取得了最好的效果。
👉关键词:可微分神经网络架构搜索、随机特征、优化理论
https://arxiv.org/abs/2208.08835
09
Scaling up Kernels in 3D Sparse CNNs
大卷积核3D CNN
大卷积核已经在2D 图像处理领域被证明了有效性,然而在3D 领域还没有得到有效探索。其难点在于3D CNN的计算量和参数量会随着其卷积核的增加而成立方次的增加。为了解决这样的问题,我们提出了一种以空间为单位的卷积核分组,能够有效地降低大卷积核 3D CNN的计算量和优化难度。我们提出的大卷积核3D CNN在3D 点云分割、3D 点云检测任务上都取得了很大的提升,并在nuScenes LIDAR检测榜单上排名第一。
👉关键词:大卷积核、nuScenes 3D点云检测SOTA
https://arxiv.org/abs/2206.10555
10
UniDistill: A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection in Bird’s-Eye View
统一的蒸馏框架:基于BEV域的3D检测跨模态知识蒸馏框架
在面向自动驾驶的 3D 目标检测任务中,包括多模态和单模态的传感器组合是多样和复杂的。多模态方法具有系统复杂性,而单模态方法的精度相对较低,因此如何在它们之间进行权衡是很困难的。在这项工作中,我们提出了一个通用的跨模态知识提取框架(UniDistill)来提高单模态检测器的性能。具体而言,UniDistill 将教师和学生检测器的特征投影到鸟瞰图(BEV)空间中,这是对不同模态的友好表示。然后,计算三个蒸馏损失,以稀疏地对齐前景特征,帮助学生检测器向教师检测器学习,而不会在推理过程中引入额外成本。UniDistill 可轻松支持激光雷达到摄像机、摄像机到激光雷达、融合到激光雷达以及融合到摄像机的蒸馏路径。此外,三种蒸馏损失可以过滤背景信息不对齐的影响,并在不同大小的物体之间保持平衡,从而提高蒸馏效率。在 nuScenes 数据集上的大量实验表明,UniDistill 有效地将学生检测器的 mAP 和 NDS 提高了 2.0%~3.2%。
👉关键词:3D 目标检测、知识蒸馏、BEV
https://openreview.net/pdf?id=iWiuqQu8rw
11
Understanding Imbalanced Semantic Segmentation Through Neural Collapse
从神经坍缩的视角理解非平衡类别的语义分割任务
最近研究表明网络学习会有神经坍塌(Neural Collaspe)的现象:同类特征的类内均值和分类器各个类别对应的权重向量,在分类训练的最终阶段,以上两者会收敛到等角单纯形的紧框架顶点(simplex equiangular tight frame)。 在本文中,我们探索了在语义分割任务中最后一层特征中心和分类器的相应结构。 基于我们的实证和理论分析,我们指出语义分割任务本身会涉及到上下文相关性(contextual correlation)和类别间的不平衡分布,这打破了特征中心和分类器神经崩溃的等角和最大分离结构。 然而,这种等角的对称结构有利于对罕见类的区分。 为了保留这些优势,我们在特征中心空间引入了正则化器(regularizer),以促使网络在不平衡语义分割任务中学习上述对称且系统性的结构。 实验结果表明,我们的方法可以在2D图像和3D点云语义分割任务上带来都有显着改进。 此外,我们的方法在ScanNet200测试排行榜上排名第一,并创造了新的mIoU记录 (+6.8% mIoU)。
👉关键词:网络坍塌、正则器、语义分割、不平衡问题
https://arxiv.org/abs/2301.01100
12
Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization
证明深伪检测当前研究种存在的数据分布问题,并给出可能的解决方案
深度伪造(deepfake)技术的出现带来很多社会问题,检测深度伪造生成的图片是一项当前还在进行的研究。本文关注深伪检测当前研究中普遍存在的一个问题,即研究深度伪造所用的公开数据集普遍存在对象身份泄漏的现象(Implicit Identity Leakage)使算法识别精度下降。本文提出一种缓解此现象的方法,能有效提升深伪检测任务的算法精度。
👉关键词:深伪检测
https://openreview.net/pdf?id=uSCbWUh8V_
13
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers
推进vision transformer模型的压缩极限
Vision Transformers(ViTs)作为一种新型的网络结构在各类视觉任务表现良好,但落地仍然受其计算代价的制约。近来大家开始尝试修剪部分冗余token来获得性能和计算成本之间的trade-off;然而,修剪策略的错误难以避免,并会导致额外的上下文信息损失。为了挽救随之而来的性能下降,我们提出了一种联合令牌修剪(token pruning)和令牌挤压(token squeezing)的模块(TPS)来实现对vision transformer模型进行更高效的压缩。在保证了constant shape推理的前提下,与现有SOTA方法的比较证明,我们的方法在所有压缩强度下都优于它们:尤其是在使用更激进的压缩强度下。在将 DeiT-T&S计算代价缩减至 35% 的同时,我们与baseline相比提高了 1%-6%的准确率。我们在hybrid ViTs和vanilla ViTs上都开展了广泛的实验证明了我们方法的鲁棒性和泛用性。
👉关键词:Vision Transformer、模型压缩、动态网络
相关文章:

CVPR 2023 | 旷视研究院入选论文亮点解读
近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次&…...

Vue3 学习总结补充(一)
文章目录1、Vue3中为什么修改变量的值后,视图不更新?2、使用 ref 还是 reactive?3、reactive 为什么会有响应性连接丢失情况?4、watch的不同使用方法5、watchEffect和 watch 的区别区别1:数据源的区别区别2:…...

使用ChatGPT 开放的 API 接口可以开发哪些自研工具?
使用ChatGPT开放的API接口,可以开发多种自研工具,例如: 智能聊天机器人:可以使用ChatGPT提供的语言生成能力,构建一个智能聊天机器人,能够根据用户的输入自动回复,完成自然语言交互。 文本生成工具:可以使用ChatGPT的文本生成能力,开发一个文本生成工具,例如自动生…...

I2C和SPI总线以及通信
通讯属性 概括 Serial/parallel 串行/并行Synchronous/asynchronous 同步/异步Point-to-point / bus 点对点 总线Half-duplex/full-duplex 半双工/全双工Master-slave/ equal partners 主从/对等single-ending / differential 单端/差分 点对点和总线 点对点通讯 只有两个通…...

Spring八股文
Bean的生命周期 1.通过反射生成对象 2.填充Bean的属性 3.调用aware接口的invokeAwareMethod方法,对BeanName、BeanFactory、BeanClassLoader对象的属性设值 4.调用BeanPostProcessor的前置处理方法,其中使用较多的是ApplicationContextPostProcessor…...

20 k8sMetric 简介
一. Metric 简介metrics-server 可实现 Kubernetes 的 Resource Metrics API(metrics.k8s.io),通过此 API 可以查询 Pod 与 Node 的部分监控指标,Pod 的监控指标用于 HPA、VPA 与 kubectl top pods -n ns 命令,而 Node…...

面试问了解Linux内存管理吗?10张图给你安排的明明白白
linux内存管理,内存管理好像离我们很远,但这个知识点虽然冷门(估计很多人学完根本就没机会用上)但绝对是基础中的基础,这就像武侠中的内功修炼,学完之后看不到立竿见影的效果,但对你日后的开发工…...

【C++】内联函数inline
文章目录概念使用特性原理概念 C中内联函数的出现解决了C语言宏函数的不足,类似于宏展开,这种在函数调用处直接嵌入函数体的函数称为内联函数,又称内嵌函数或内置函数。 以inline修饰的函数叫做内联函数,编译时C编译器会在调用内…...

C++演讲比赛流程管理系统_黑马
任务 学校演讲比赛,12人,两轮,第一轮淘汰赛,第二轮决赛 选手编号 [ 10001 - 10012 ] 分组比赛 每组6人 10个评委 去除最高分 最低分,求平均分 为该轮成绩 每组淘汰后三名,前三名晋级决赛 决赛 前三名胜出 …...

谈谈低代码的安全问题,一文全给你解决喽
低代码是一种软件开发方法,通过使用图形化用户界面和可视化建模工具,以及自动生成代码的技术,使得开发人员可以更快速地构建和发布应用程序。 作为近些年软件开发市场热门之一,市面上也涌现了许多低代码产品,诸如简道云…...

[数据结构]二叉树OJ(leetcode)
目录 二叉树OJ(leetcode)训练习题:: 1.单值二叉树 2.检查两棵树是否相同 3.二叉树的前序遍历 4.另一棵树的子树 5.二叉树的构建及遍历 6.二叉树的销毁 7.判断二叉树是否是完全二叉树 二叉树OJ(leetcode)训练习题:: 1.单值二叉…...

flutter 输入时插入分隔符
每四位插入一个分隔符import package:flutter/services.dart;class DividerInputFormatter extends TextInputFormatter {final int rear; //第一个分割位数,后面分割位,,数final String pattern; //分割符DividerInputFormatter({this.rear 4, this.pattern });overrideTex…...

静态版通讯录——“C”
各位CSDN的uu你们好呀,之前小雅兰学过了一些结构体、枚举、联合的知识,现在,小雅兰把这些知识实践一下,那么,就让我们进入通讯录的世界吧 实现一个通讯录: 可以存放100个人的信息每个人的信息:名…...

前端基础开发环境搭建工具等
一、基本开发环境(软件)安装1、Vscode(代码编辑器)官网下载网址:https://code.visualstudio.com/2、nvm(node多版本管理器,每个node版本都有对应的npm版本)安装包下载地址࿱…...

华为OD机试题【IPv4 地址转换成整数】用 Java 解 | 含解题说明
华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典本篇题目:IPv4 地址转换成整数 题目 存在…...

[数据结构]排序算法
目录 常用排序算法的实现:: 1.排序的概念及其运用 2.插入排序 3.希尔排序 4.选择排序 5.冒泡排序 6.堆排序 7.快速排序 8.归并排序 9.排序算法复杂度及稳定性分析 10.排序选择题练习 常用排序算法的实现:: 1.排序的概念及其运用…...

不愧是2023年就业最难的一年,还好有车企顶着~
就业龙卷风已经来临,以前都说找不到好的工作就去送外卖,但如今外卖骑手行业都已经接近饱和状态了,而且骑手们的学历也不低,本科学历都快达到了30%了,今年可以说是最难找到工作的一年。 像Android 开发行业原本就属于在…...

C/C++之while(do-while)详细讲解
目录 while循环有两个重要组成部分: while 是一个预测试循环 无限循环 do-while 循环 while循环有两个重要组成部分: 进行 true 值或 false 值判断的表达式;只要表达式为 true 就重复执行的语句或块;图 1 显示了 while 循环的…...

SpringCloud学习笔记(一)认识微服务
一、微服务技术栈 二、单体架构和分布式架构的区别 1、单体架构: 将业务的所有功能集中在一个项目中开发,打成一个包进行部署 优点:架构简单,部署成本低缺点:耦合度高 2、分布式架构: 根据业务功能对系统…...

Unity中使用WebSocket (ws://)的方法
WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输。 WebSocket与http 其…...

米哈游春招算法岗-2023.03.19-第一题-交换字符-简单题
交换字符Problem Description 米小游拿到了一个仅由小写字母组成的字符串,她准备进行恰好一次操作:交换两个相邻字母,在操作结束后使得字符串的字典序尽可能大。 请你输出最终生成的字符串。 input 一个仅由小写字母组成的字符串,…...

能把爬虫讲的这么透彻的,没有20年功夫还真不行【0基础也能看懂】
前言 可以说很多人学编程,不玩点爬虫确实少了很多意思,不管是业余、接私活还是职业爬虫,爬虫世界确实挺精彩的。 今天来给大家浅谈一下爬虫,目的是让准备学爬虫或者刚开始起步的小伙伴们,对爬虫有一个更深更全的认知…...

springcloud学习总结
springcloud 构建微服务项目步骤 导入依赖编写配置文件开启这个功能 Enablexxx配置类 于2023年2月24日下午17点38分开始学习于2023年3月17日晚上20点26分学完总结代码地址:https://gitee.com/liang-weihao/StudySpringcloud学习笔记地址:https://www.…...

2022年亏损超10亿,告别野蛮成长的众安在线急需新“引擎”
2023年3月21日,众安在线披露了2022年财报,营收233.52亿元,同比增长6.44%;净亏损16.33亿元,去年同期净利润为11.6亿元,同比由盈转亏。 尽管众安在线再次身陷亏损的泥潭,但投资者却没有选择逃离。…...

ChatGPT文心一言逻辑大比拼(一)
❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…...

【机器学习面试总结】————特征工程
【机器学习面试总结】————特征工程一、特征归一化为什么需要对数值类型的特征做归一化?二、类别型特征在对数据进行预处理时,应该怎样处理类别型特征?三、高维组合特征的处理什么是组合特征?如何处理高维组合特征?四、组合特征怎样有效地找到组合特征?五、文本表示模型…...

如何将字符串反转?
参考答案 使用 StringBuilder 或 StringBuffer 的 reverse 方法,本质都调用了它们的父类 AbstractStringBuilder 的 reverse 方法实现。(JDK1.8)不考虑字符串中的字符是否是 Unicode 编码,自己实现。递归1. public AbstractStrin…...

Linux内核IO基础知识与概念
什么是 IO在计算机操作系统中,所谓的I/O就是 输入(Input)和输出(Output),也可以理解为读(Read)和写(Write),针对不同的对象,I/O模式可以划分为磁盘…...

paper文献和科研小工具
一、好用的网站 Aminer 二、好用的工具 1. SciSpace SciSpace官网 【ChatGPT 论文阅读神器】SciSpace 用户注册与实战测试 SciSpace是一款基于 ChatGPT 的论文阅读神器。 2. ReadPaper 强大且超实用的论文阅读工具——ReadPaper ReadPaper官网 ReadPaper下载链接 Rea…...

dfs和bfs能解决的问题
一.理解暴力穷举之dfs和bfs暴力穷举暴力穷举是在解决问题中最常用的手段,而dfs和bfs算法则是这个手段的两个非常重要的工具。其实,最简单的穷举法是直接遍历,如数列求和,遍历一个数组即可求得所问答案,这与我在前两篇博…...