PointMixer论文阅读笔记
MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set, hierarchical-set的点云。PointMixer这偏论文还很好的证明了chanel-mixing MLP是比token-mixing MLP效果更好,对称encoder和decoder结构能够更好的处理点云问题。
为了方便论文阐述,做以下规定:
P是点云的总和
X是点云特性的总和
Y是output特性的总和
pi是i点云的位置
xi是i点云相关的特性
yi是i点云output的特性
Mi是pi点周围邻居点的集合,常表示为Mi = kNN(P, pi)
PointNet++: 使用kNN和最远点sampling算法,使用不对称的encoder和decoder。PointNet++网络不对整个点云直接分析,而是locally的处理然后再整合在一起。
yi = maxpooling(MLP(concat(xi, pi - pj)));j是Mi的成员
PointTransformer: 也是使用了kNN的方法
yi = sum(softmax(MLP(W1(xi) - W2(xj) + δ(pi - pj)))(W3(xj) + δ(pi - pj)))
W为linear transformer metric,δ为positional encoding vector。
MLP-Mixer: MLP-mixer分为token-mix MLP和channel-mix MLP, MLP-Mixer使用K个tokens有C维features, tokens是将图片分割成小块。 第一步是token-mixing MLPs, 第二步时channel-mixing MLP, token mixing是混合空间轴和维度轴到空间轴,channel-mixing是将空间信息转为维度和空间信息。
MLP-Mixer将CNN的两个任务切割开来,不同位置的mix叫token-mixing,同一位置不同channel的mix叫做channel-mixing。
X’ = X + (W2ρ(W1(Layernorm(X))T))T
Y = X’ + W4ρ(W3Layernorm(X’))
W是MLP,ρ是GELU
token-mix MLPs具有转置同变性,所以点云的输入顺序特别重要。需要在token-mix前再加一层转置不变的网络。
并且MLP-mixer只能处理inter-set的点云,还有很大的提升空间。
https://zhuanlan.zhihu.com/p/372692759
PointMixer:
sj = g2(concat(g1(xj); δ(pi - pj))); j属于Mi, g是channel-mix MLP, δ是positional encoding vector
yi = sum(softmax(sj) * g(xj)); 这里的乘法的element-wise
PointMixer的主要创新点是使用了positional embedding, 使用了softmax,不使用token-mix MLP
为什么不使用token-mix? token-mix MLP具有转置同变性的缺点,而且token-mix只能使用固定数量的输入,但是对于点云来说,neighbor不是固定的,要用聚类算法。
intra-set mixing 使用最传统的kNN
inter-set mixing 使用变种的query-kNN
hierarchical-set mixing 使用变种的hierarchical-kNN
对称性也表现在kNN的集合里面,encoder和decoder的M集是完全颠倒的。
相关文章:
PointMixer论文阅读笔记
MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以…...
[word] word分割线在哪里设置 #其他#经验分享
word分割线在哪里设置 在工作中有些技巧,可以快速提高工作效率,解决大部分工作,今天给大家分享word分割线在哪里设置的小技能,希望可以帮助到你。 1、快速输入分割线 输入三个【_】按下回车就是一条长直线,同样分别…...
C++ 音视频原理
本篇文章我们来描述一下音视频原理 音视频录制原理: 下面是对这张思维导图的介绍 摄像头部分: 麦克风采集声音 摄像头采集画面 摄像头采集回来的数据可以用RGB也可以用YUV来表示 图像帧帧率 一秒能处理多少张图像 图像处理 :调亮度 图像帧队列 :意思是将数据取…...
C# 只允许开启一个exe程序
C# 只允许开启一个exe程序 第一种方法 电脑只能启动一次再次点击显示当前exe程序 using System; using System.Collections.Generic; using System.Diagnostics; using System.Linq; using System.Runtime.InteropServices; using System.Threading.Tasks; using System.Win…...
【Java程序员面试专栏 分布式中间件】Redis 核心面试指引
关于Redis部分的核心知识进行一网打尽,包括Redis的基本概念,基本架构,工作流程,存储机制等,通过一篇文章串联面试重点,并且帮助加强日常基础知识的理解,全局思维导图如下所示 基础概念 明确redis的特性、应用场景和数据结构 什么是Redis,Redis有哪些应用场景 Redi…...
2024年【高处安装、维护、拆除】模拟考试题库及高处安装、维护、拆除实操考试视频
题库来源:安全生产模拟考试一点通公众号小程序 高处安装、维护、拆除模拟考试题库是安全生产模拟考试一点通生成的,高处安装、维护、拆除证模拟考试题库是根据高处安装、维护、拆除最新版教材汇编出高处安装、维护、拆除仿真模拟考试。2024年【高处安装…...
【QT+QGIS跨平台编译】之三十七:【Shapelib+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
文章目录 一、Shapelib介绍二、Shapelib下载三、文件分析四、pro文件五、编译实践一、Shapelib介绍 Shapelib是一个开源的C库,用于读取、写入和操作ESRI Shapefile格式的地理矢量数据。 ESRI Shapefile是一种常见的地理信息系统(GIS)文件格式,用于存储地理矢量数据,包括…...
【机器学习基础】决策树(Decision Tree)
🚀个人主页:为梦而生~ 关注我一起学习吧! 💡专栏:机器学习 欢迎订阅!后面的内容会越来越有意思~ ⭐特别提醒:针对机器学习,特别开始专栏:机器学习python实战 欢迎订阅&am…...
图神经网络DGL框架,graph classification,多个且不同维度的node feature 训练
node feature 维度不同 我现在有许多不同的图要加入训练,每个图的节点特征维度不同,第一张图n_weight特征有10条数据,第二张图n_weight特征有15条数据,但是训练的时候,需要维度都对其,所以直接做0 padding…...
蓝桥杯(Web大学组)2022国赛真题:用什么来做计算 A
判分标准 实现重置(AC)功能,得 1 分。 实现计算式子和结果显示功能,得 3 分。 实现计算功能,得 6 分。 应该按要求来就行吧,,一开始还在想是否要考虑小数点个数的问题还有式子是否有效…… 笔记…...
Linux POSIX信号量 线程池
Linux POSIX信号量 线程池 一. 什么是POSIX信号量?二. POSIX信号量实现原理三. POSIX信号量接口函数四. 基于环形队列的生产消费模型五. 线程池 一. 什么是POSIX信号量? POSIX信号量是一种用于同步和互斥操作的机制,属于POSIX(Po…...
Sentinel(理论版)
Sentinel 1.什么是Sentinel Sentinel 是一个开源的流量控制组件,它主要用于在分布式系统中实现稳定性与可靠性,如流量控制、熔断降级、系统负载保护等功能。简单来说,Sentinel 就像是一个交通警察,它可以根据系统的实时流量&…...
python3 获取某个文件夹所有的pdf文件表格提取表格并一起合并到excel文件
下面是一个完整的示例,其中包括了merge_tables_to_excel函数的定义,并且假设该函数的功能是从每个PDF文件中提取第一个表格并将其合并到一个Excel文件中: import os from pathlib import Path import pandas as pd import pdfplumber …...
【AIGC】Stable Diffusion的模型入门
下载好相关模型文件后,直接放入Stable Diffusion相关目录即可使用,Stable Diffusion 模型就是我们日常所说的大模型,下载后放入**\webui\models\Stable-diffusion**目录,界面上就会展示相应的模型选项,如下图所示。作者…...
【JavaEE】_HTTP请求首行详情
目录 1. URL 2. 方法 2.1 GET方法 2.2 POST方法 2.3 GET与POST的区别 2.4 低频使用方法 1. URL 在mysql JDBC中已经提到过URL的相关概念: 如需查看有关JDBC更多内容,原文链接如下: 【MySQL】_JDBC编程-CSDN博客 URL用于描述某个资源…...
Linux第48步_编译正点原子的出厂Linux内核源码
编译正点原子的出厂 Linux 内核源码,为后面移植linux做准备。研究对象如下: 1)、linux内核镜像文件“uImage” 路径为“arch/arm/boot”; 2)、设备树文件“stm32mp157d-atk.dtb” 路径为“arch/arm/boot/dts” 3)、默认配置文件“stm32m…...
程序员为什么不喜欢关电脑?
程序员为什么不喜欢关电脑? 本人40 最近待业。,希望 3月前能再就业吧!就不喜欢关电脑 这个问题来说是不好习惯。毕竟你的电脑不是服务器,哈哈。但是程序员都很懒,能自动化的,就让机器干。我在此之前 也工作…...
【初始RabbitMQ】了解和安装RabbitMQ
RabbitMQ的概念 RabbitMQ是一个消息中间件:他可以接受并转发消息。例如你可以把它当做一个快递站点,当你要发送一个包 裹时,你把你的包裹放到快递站,快递员最终会把你的快递送到收件人那里,按照这种逻辑 RabbitMQ 是 …...
Linux第56步_根文件系统第3步_将busybox构建的根文件系统烧录到EMMC
1、第1次将“rootfs”打包 1)、打开第1个终端,准备在“mnt”目录下创建挂载目录“rootfs”; 输入“ls回车” 输入“cd /mnt回车” 输入“ls回车”,查看“mnt”目录下的文件和文件夹 输入“sudo mkdir rootfs回车”,在“mnt”…...
Linux进程间通信(三)-----System V消息队列
消息队列的概念及原理 消息队列实际上就是在系统当中创建了一个队列,队列当中的每个成员都是一个数据块,这些数据块都由类型和信息两部分构成,两个互相通信的进程通过某种方式看到同一个消息队列,这两个进程向对方发数据时&#x…...
Qt 实时数据可视化工程实践:环形缓冲区实践
目录 前言 一、架构设计 1.1 分层架构图 1.2 数据写入流 1.3 数据刷新流 (定时器驱动 → 视图更新) 1.4 核心设计思想 二、核心实现详解 2.1 RingBuffer:环形缓冲区实现 2.1.1 append函数(线程安全写入) 函数主体实现: …...
Kurento Media Server与OpenVidu集成:打造企业级视频会议系统
Kurento Media Server与OpenVidu集成:打造企业级视频会议系统 【免费下载链接】kurento-media-server [ARCHIVED] Contents migrated to monorepo: https://github.com/Kurento/kurento 项目地址: https://gitcode.com/gh_mirrors/ku/kurento-media-server K…...
解锁Nvidia Tesla A100完整性能:从驱动安装到Fabric Manager服务配置
1. 为什么你的Tesla A100性能被锁住了? 很多朋友第一次拿到Tesla A100显卡时,都会遇到一个奇怪的现象:明明按照常规方法安装了驱动,nvidia-smi也能正常显示显卡信息,但实际跑深度学习训练或者高性能计算任务时…...
BinCmdParser:嵌入式二进制命令动态解析器
1. BinCmdParser:面向嵌入式通信的动态二进制命令解析器 在工业控制、传感器网络与跨平台设备互联场景中,串口/UART/SPI/I2C等低带宽物理通道常承载结构化二进制指令。传统固定帧格式(如Modbus RTU、自定义8字节头4字节长度2字节CRCÿ…...
布隆过滤器与哈希索引:两级验证模型
在高并发、大数据量的系统中,快速判断一个元素是否“已经存在”是一项基础而关键的能力。无论是防止重复提交、抵御缓存穿透,还是实现分布式去重,都需要一种高效的存在性检查机制。实践中,布隆过滤器(Bloom Filter&…...
【实战指南】110kV变电站电气设计全流程解析:从主变压器选型到防雷接地
1. 110kV变电站电气设计核心流程 110kV变电站作为电力系统的关键节点,其电气设计质量直接影响区域供电可靠性和安全性。我在参与多个变电站项目后发现,设计过程就像搭积木,必须从底层开始稳扎稳打。整个流程可分为四个关键阶段: …...
宇树一年赚6亿背后:研发投入不足1亿,7成人形机器人卖给高校
文章目录前言一、这不是科技公司,这是"高校特供"的硬体印钞机二、七成卖给高校:科研界的"乐高积木"三、研发费用不到1亿:极致省钱的"小脑"路线四、42亿募资背后的焦虑:要补"大脑"短板了五…...
告别tmpfs和ramfs:自己动手写一个极简内存文件系统,深入理解VFS与Page Cache
从零构建内存文件系统:深入VFS与Page Cache的工程实践 在Linux系统中,内存文件系统(Memory File System)因其卓越的I/O性能而广受开发者青睐。不同于传统磁盘文件系统需要经过块设备层和驱动栈的冗长路径,内存文件系统…...
教育心理学教程资源合集
08. 考研心理学课程 文件大小: 34.9GB内容特色: 34.9GB全科视频讲义真题,一站备齐适用人群: 心理学考研党、跨专业考生、二战冲刺核心价值: 名师系统梳理考点,节省50%整理时间下载链接: https://pan.quark.cn/s/074261ae5d32 06. 教育心理学࿰…...
ESP32-CAM远程控制实战:SunFounder AI Camera库深度解析
1. SunFounder AI Camera 库深度解析:面向嵌入式工程师的 ESP32-CAM 远程控制实践指南SunFounder AI Camera 并非传统意义上的纯图像处理模块,而是一套完整的“端-云-APP”协同控制系统。其核心价值在于将 ESP32-CAM 这一低成本、高集成度的 AI 视觉平台…...
