当前位置：首页 > article >正文

Simple-BEV的bilinear_sample 作为view_transformer的解析，核心是3D-2D关联点生成

article 2026/2/25 10:06:17

文件路径models/view_transformers

父类是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。

函数解析

函数bev_coord_to_feature_coord的功能

将鸟瞰图3D坐标通过多相机（针孔/鱼眼）内外参投影到图像特征平面，生成归一化采样坐标与有效掩码，实现多视角特征的空间对齐与融合筛选。
代码

def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):...

首先：函数接收多个参数，包括特征、块索引、外参、内参、畸变参数等。
然后：处理不同相机类型（针孔和鱼眼）的索引
然后：生成3D点（通过gridcloud3d()函数实现，非均匀空间采样），将记忆坐标系中的点转换到自我车辆坐标系（get_bevgrid()和matrix_mem_egocar）。并通过外参矩阵转换到相机坐标系。对于针孔相机，计算投影点，并进行畸变校正，然后将坐标转换到特征图的比例。对于鱼眼相机，处理类似，但使用了不同的畸变模型。
最后：合并两种相机的结果，并根据块索引屏蔽某些相机的特征。

这里面核心的是“对于针孔/鱼眼相机，计算投影点”。
首先，生成相机索引

pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole+ num_cams_fisheye) + self.num_cams * i for i in range(B)])

操作演示，num_cams_pinhole有1个，num_cams_fisheye有4个，num_cams 是5个。
在这里插入图片描述
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()生成的3D点。
然后用内外参数将3D点转换到图像2D点

        # 投影3D点到2D图谱 (原始图像尺寸是 2160x3840)外参逆矩阵 = 外参矩阵.inverse()2D图像的点 = （内参矩阵 @ 外参逆矩阵）@ 3D点  # 尺寸是（BN，4，K）2D图像的点 = 2D图像的点.transpose(2, 1)  #  尺寸是(BN, k, 4)2D深度检测Mark = (2D图像的点[:, :, 2] > 0.0).bool() # 投影点的深度（z坐标）是否为正值，排除位于相机后方的点（不可见）# （X, Y, Z, 1）-> （X/Z, Y/Z, 1, 1）2D图像的点 = 2D图像的点[0:2]/2D图像的点[2]# 增加一个维度2D图像的点 = torch.cat(2D图像的点,ones)# 通过 ida_pinhole（图像坐标系转移矩阵）将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移，完成从相机坐标系到图像平面的投影。2D图像的点 = 图像坐标系转移矩阵 @ 2D图像的点# 缩放2D图像的点 = 2D图像的点/下采样系数# 滤除无效区域的Mark2D的X轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()2D的Y轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)

对于鱼眼相机

3D相机的点 = 外参逆矩阵 @ 3D点  # 
内参矩阵的仿射部分 = 内参[:2,:2]  # （焦距和轴间缩放）,用于将归一化坐标映射到图像平面
内参矩阵中的主点坐标 = 内参[0:2, 2]（图像中心偏移），用于投影时的平移校正。
计算径向距离 = X² + Y² 的平方根
入射角  = torch.atan2(3D相机的点, 计算径向距离)
径向畸变系数 = self.polyval(畸变系数, 入射角, Kannala-Brandt模型) # 根据入射角 theta 计算径向畸变系数 rho
归一化的3D点 = 3D相机的点 × rho ÷ 计算径向距离
2D鱼眼点 = (内参矩阵的仿射部分 @ 归一化的3D点) + 内参矩阵中的主点坐标# 通过 ida_fisheye（图像坐标系转移矩阵）将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移，完成从相机坐标系到图像平面的投影。
2D鱼眼点 = ida_fisheye @ 2D鱼眼点 # 从相机坐标系到图像平面的投影
2D鱼眼点 = 鱼眼点/下采样系数# 和针孔相机一样
有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)

最后返回的是：点 和 有效性Mark

补充：Kannala-Brandt模型介绍–点击这里
在这里插入图片描述

函数gridcloud3d()功能是：

函数通过非均匀采样生成三维网格点云，每个网格位置对应一个点，但不同区域的点密度可能不同。具体来说：

函数forward_kestrel()，功能是：

该函数通过多相机特征采样与体素聚合，将鸟瞰图特征映射到3D空间并压缩生成统一表征。

    def forward_kestrel(self, input):# 获得Neck传过来的特征features = input["bev_neck_features"]# features 复制Z次并在通道维度拼接features = torch.cat([features] * Z, 1)# 特征尺寸调整features = features.reshape(self.num_cams * Z, -1, 60, 128)# 得到 unproject_image_to_mem() 计算的xyz_pix 和 有效性Markxyz_pix , valid_mask= ...# 将2D特征映,通过xyz_pix ，利用GridSampleFuction映射函数，映射到3D特征trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear","zeros", None)# 有效性Mark 删除values = trans_feats* valid_mask# 特征被重塑values = values.reshape(B, self.num_cams, -1, X, Y)# 通道相加feat_mem = torch.sum(values, dim=1)# 通过 conv_norm 压缩成鸟瞰图特征feat_bev = self.bev_z_compressor(feat_mem)return feat_bev

首先是：输入的features被复制Z次并在通道维度拼接，使用reshape将特征调整为(num_cams * Z, -1, 60, 128)，这里num_cams可能代表相机数量，Z是体素深度层数。
然后：GridSampleFuction应用双线性采样，将特征映射到新的坐标，生成trans_feats。
然后：特征被重塑为(B, num_cams, -1, X, Y)。feat_mem 是将多个相机视角的3D特征沿相机数量维度（dim=1）求和后的融合特征，目的是整合不同视角的信息，得到feat_mem。
最后：最后通过bev_z_compressor压缩成鸟瞰图特征feat_bev。

函数unproject_image_to_mem()，功能是：得到xyz_pix, valid_mask，用于后续的GridSampleFuction采用。

    def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):BN, C, H, W = features.shape# get proj point on the feature map and then normalize to [-1, 1]xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]x_norm, y_norm = self.normalize_grid2d(x, y, W, H)xyz_pix = torch.stack([x_norm, y_norm], axis=1)#import pdb; pdb.set_trace()xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)return xyz_pix, valid_mask

首先通过 bev_coord_to_feature_coord()得到 2D点和有效性Mark
按照前述分析 2D 尺寸应该是类似(bn, k, 2),这里bn是批处理大小，k是栅格的数量（通过gridcloud3d()获得），2是xy坐标。
对2D点的x和y进行归一化到[-1,1]，分别除以宽和高，组成新的 2D点。
最后，将三维空间中的点按高度（Z轴）分层，每层对应一个二维网格（X-Y平面）

问文心一言的问题：LSS（Lift-Splat-Shoot）和BEVDepth在3D点处理上有以下核心区别

回答：

LSS（Lift-Splat-Shoot）和BEVDepth在3D点处理上有以下核心区别：

LSS的3D点

全体视锥体栅格：LSS将图像特征提升到整个相机视锥体对应的3D体素网格中，覆盖所有可能的深度层（如0-100米，按固定间隔分层）。
概率分布：每个像素的特征会被分配到多个深度层，形成概率分布（通过深度预测或几何计算），而非单一深度值。
目的：构建全局3D场景表示，适用于复杂场景理解（如多物体遮挡、非地面目标检测）。

BEVDepth的栅格

BEV平面聚焦：BEVDepth通常将特征投影到鸟瞰图（BEV）平面的栅格中（如地面区域），每个栅格对应一个位置，深度预测用于确定该位置是否存在有效特征。
单一深度假设：每个栅格可能仅保留最可能的深度值（如通过深度网络预测），或基于几何投影选择有效层。
目的：高效生成BEV空间特征，尤其适合自动驾驶中地面目标检测（如车辆、行人），减少计算冗余。

栅格点数量减少

LSS：在全体视锥体空间生成三维体素网格（如 100 层深度 × X×Y），覆盖整个相机视野的 3D 空间。
BEVDepth：将特征投影到二维 BEV 平面栅格（如地面区域），仅保留与地面感知相关的位置，深度维度被压缩为单层（通过深度预测或几何投影筛选）。
结论：BEVDepth 的栅格点数量显著减少（从三维到二维），降低了显存占用和计算复杂度。

总结：

LSS的3D点是全体视锥体的分层栅格，强调3D空间的完整建模。
BEVDepth的栅格是BEV平面的深度预测结果，侧重地面区域的紧凑表示。
两者均可结合使用（如BEVDepth可能用LSS作为 backbone），但核心差异在于对3D空间的覆盖范围和深度建模方式。

Simple-BEV的bilinear_sample 作为view_transformer的解析，核心是3D-2D关联点生成

函数解析

问文心一言的问题：LSS（Lift-Splat-Shoot）和BEVDepth在3D点处理上有以下核心区别

回答：

相关文章：

Simple-BEV的bilinear_sample 作为view_transformer的解析，核心是3D-2D关联点生成

Midscene.js自然语言驱动的网页自动化全指南

同一个局域网的话如何访问另一台电脑的ip

基于SpringBoot的名著阅读网站

Excel（实战）：INDEX函数和MATCH函数、INDEX函数实战题

希尔排序中的Hibbard序列

uniapp超简单ios截屏和上传app store构建版本方法

Netty源码—5.Pipeline和Handler一

Netlify 的深度解析及使用指南

MySQL小练习

Apache Hive：基于Hadoop的分布式数据仓库

推荐算法分析

vllm 离线推理Qwen2.5-VL-Instruct，API部署，支持max_pixels

检波、限幅、钳位电路

学习threejs，使用TextGeometry文本几何体

Go红队开发—CLI框架(一)

解决点击按钮页面自动刷新

高效团队开发的工具与方法引言

【Java全栈进阶架构师实战：从设计模式到SpringCloudAlibaba，打造高可用系统】

[蓝桥杯 2023 省 A] 异或和之和

TDengine 3.3.2.0 集群报错 Post “http://buildkitsandbox:6041/rest/sql“

vue数据重置

22、web前端开发之html5（三）

git revert 用法实战：撤销一个 commit 或 merge

修形还是需要再研究一下

AI本地部署之dify

安恒春招一面

GPIO八种模式的应用场景总结

Python应用指南：利用高德地图API获取POI数据（关键词版）

【零基础入门unity游戏开发——2D篇】2D物理系统 —— 2D刚体组件（Rigidbody 2d）