当前位置：首页 > news >正文

PET（Point-Query Quadtree for Crowd Counting, Localization, and More）

news 2026/2/8 17:29:05

PET（Point-Query Quadtree for Crowd Counting, Localization, and More）

介绍
实验记录
- 训练阶段
- 推断阶段

介绍

论文：Point-Query Quadtree for Crowd Counting, Localization, and More

实验记录

训练阶段

TODO

推断阶段

下面是以一张输入图像作为网络输入的实验过程记录：

1.特征提取：对于一张768×1024的图像，记为input。对input做位置编码得到768*1024的位置编码特征，记为input_pos_embed。input经过vgg19输出两个特征分别为f1(96×128)和f2(192×256)，对应sparse特征和dense特征。f1和f2经过encoder网络之后得到enc_src1和enc_src2，尺寸相同。

2.生成分割图：enc_src1和enc_src2经过avg_pool+conv得到一个分割图split_map(12×8)，将split_map插值得到分割图split_map_sparse(96×128)和split_map_dense(192×256)。（从代码中上可以看出，split_map_sparse是1减去插值结果得到的，所以split_map_sparse和split_map_dense是互斥的，也就是说，在split_map_sparse中的dense区域在split_map_dense中对应的区域是稀疏的。）
在这里插入图片描述

3.网格点获取：原始图像为768×1024，使用stride为8和4获取网格点，分别得到92×128和192×256个网格点索引，根据从input_pos_embed中拿到每个点的位置编码，形状为96×128和192×256，记为query_pos_embed1，query_pos_embed2。对应的点特征是从f1和f2中抽取出来，记为query_points_feature1和query_points_feature2。
在这里插入图片描述

4.网格点筛选：这个步骤有点复杂。以split_map_sparse为例，split_map_sparse形状为96×128，将从split_map_sparse分成8×12=96个rectangle，每一个rectangle包含8*16=128个像素，记为div_win(128×96×1)，然后筛选大于0.5的像素并在第0维进行累加，对应代码“valid_div = (div_win > 0.5).sum(dim=0)[: , 0] 和v_idx = valid_div > 0 ”，v_idx是一个mask(96,)的(其中17个为false, 79个为true)，也就是说在96个rectangle中，但只选择了79个rectangle。query_pos_embed1和query_points_feature1也同样分成96个rectangle，经过筛选后得到query_embed(128×79×256)和query_feats(128×79×256)。enc_src1也被分为96个rectangle，经过筛选后得到memory_win(128×79×256)。
在这里插入图片描述

5.Decoding：将上面的query_embed, query_feats，memory_win输入到decoder网络，获得10112（128×79）个输出点，预测10112个偏置，因为train阶段输入图像大小都是256*256，inference阶段输入图像大小各不相同，所以需要对10112个偏置进行rescale（根据256的倍数调整）。同样的操作，对于192×256(dense)特征图，生成4608个输出点。

6.合并预测结果：根据预测的分类标签值，分别从10112个输出点选出56个点，从4608个输出点中选择118个点，合并成174个点, 也就是最终的所有预测点。gt为172，计算mae=(174-172)=2, 计算mse=(174-172)^2=4。

PET（Point-Query Quadtree for Crowd Counting, Localization, and More）

PET（Point-Query Quadtree for Crowd Counting, Localization, and More）

介绍

实验记录

训练阶段

推断阶段

相关文章：

PET（Point-Query Quadtree for Crowd Counting, Localization, and More）

NgRx中dynamic reducer的原理和用法？

麒麟V10服务器安装Apache+PHP

DOS 批处理（一）

P1047 [NOIP2005 普及组] 校门外的树题解

pip的常用命令

力扣面试题 08.12. 八皇后（java回溯解法）

2023年第十二届数学建模国际赛小美赛A题太阳黑子预测求解分析

jsp 分页查询展示,实现按上一页或下一页实现用ajax刷新内容

基于ssm在线云音乐系统的设计与实现论文

简谈PostgreSQL的wal_level=logic

自动化巡检实现方法（一）------- 思路概述

mysql获取时间异常

维基百科文章爬虫和聚类：高级聚类和可视化

springboot智慧导诊系统源码：根据患者症状匹配挂号科室

Shell脚本如何使用 for 循环、while 循环、break 跳出循环和 continue 结束本次循环

n个人排成一圈，数数123离队

深度学习基础回顾

【Vue】修改组件样式并动态添加样式

GO设计模式——12、外观模式（结构型）

基于算法竞赛的c++编程（28）结构体的进阶应用

Linux应用开发之网络套接字编程(实例篇)

synchronized 学习

【杂谈】-递归进化：人工智能的自我改进与监管挑战

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

MODBUS TCP转CANopen 技术赋能高效协同作业

LeetCode - 199. 二叉树的右视图

JVM 内存结构详解

安宝特案例丨Vuzix AR智能眼镜集成专业软件，助力卢森堡医院药房转型，赢得辉瑞创新奖

Modbus RTU与Modbus TCP详解指南