Paper name
Unifying Voxel-based Representation with Transformer for 3D Object Detection
Paper Reading Note
URL: .00630.pdf
当前的跨模态输入表达方式的特点
当前的跨模态特征表达方式的特点
本文认为比较合适的特征表达空间
基于 2d backbone 提取多视角或多帧图像的特征, 基于 FPN 用于生成 FI (H×W×C尺寸) 图像特征,不同 fpn stage 的 hw 不同
受到 lss 启发设计了一个 view transform 方案,基于 view transform 将图像特征转换到 voxel 空间上
首先基于单层 conv 将 FI 处理为 D 维度,然后基于 softmax 算子得到深度分布
对于体素中的点 (x, y, z),基于相机外参内参可以对应到图像 plane 中的某个 (u, v, d) 点,即可以通过图像特征转换到 voxel 空间上
其中 D I ( u , v , d ) D_{I}(u, v, d) DI(u,v,d) 代表图像特征 F I ( u , v ) F_{I}(u, v) FI(u,v) 在 voxel (x, y, z) 的occupancy probability
多帧处理方式:
相对远距离(20-30m) fusion 相对于 lidar 涨点幅度最大;lidar 和 camera 低照下精度都低;雨天基于 camera 融合涨点幅度较大
fusion 精度优势
本文发布于:2024-01-31 14:12:21,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170668154429098.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |