热门推荐
【3D点云】PersFormer:基于透视Transformer的3D车道检测(ECCV2022)
2025-01-02 12:56


题目:PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark
链接:https://arxiv.org/abs/2203.11089
代码:https://github.com/OpenPerceptionX/PersFormer_3DLane
OpenLane数据集:https://github.com/OpenPerceptionX/OpenLane


PersFormer:一种端到端单目3D车道检测器,利用透视Transformer实现前视(front view)图到BEV(鸟瞰)图的转换。
解决自主驾驶场景(上坡/下坡、颠簸等)中车道布局不准确的问题。使用相机参数关注相关的前视图局部区域,生成BEV特征:PersFormer采用统一的2D/3D锚定设计和同时检测2D/3D车道的辅助任务
除此之外,我们还发布了第一批大规模真实世界3D车道数据集OpenLane,具有高质量的注释和场景多样性。开放式车道包含200000帧、超过880000个实例级车道和14个车道类别,以及场景标记和封闭路径对象注释。

1.一种新的基于Transformer的架构,用于实现特征的空间变换
2.同时统一2D和3D车道检测的架构(结果SOTA)
3.OpenLane数据集,第一个具有高质量标记和巨大多样性的大规模真实3D车道数据集

先前的工作将BEV原理引入管道,但他们没有考虑注意力机制和/或3D视觉几何(在这种情况下,是相机参数)。例如,3D LaneNet是用相机内/外矩阵建立的;IPM过程根据前视图特征生成虚拟BEV表示。DETR3D还考虑了摄像机的几何结构,并制定了一个可学习的3D到2D查询搜索注意方案。然而,没有用于鲁棒特征表示的显式BEV建模;聚集的特征可能无法在3D空间中正确表示。

如前所述,在某些情况下(上/下坡)平面假设并不总是保留凹凸。有些方法利用多模态或多视图传感器,如立体相机或激光雷达,获得三维地面拓扑。然而,这些传感器在硬件和计算资源方面存在高成本的不足,限制了它们的实际应用。最近,一些单目方法拍摄单个图像,并使用IPM预测三维空间中的车道。3D LaneNet是该领域的开创性工作,它使用一个简单的端到端神经网络,采用STN完成特征的空间投影。Gen LaneNet建立在3D LaneNet的基础上,设计了一个两级网络,用于解耦segmentation编码器和3D车道预测头。这两种方法在弯曲或挤压转弯情况下存在不正确的特征变换和不令人满意的性能。面对上述问题,我们引入PersFormer来提供更好的特征表示并优化锚定设计,以同时统一二维和三维车道检测。

图释:PersFormer核心是学习从前视图到BEV空间的空间特征转换,以便通过关注参考点周围的局部上下文,在目标点生成的BEV特征将更具代表性。PersFormer由自注意力模块(用于与自己的BEV查询交互)和交叉关注模块(从基于IPM的前视图特征中提取键值对,以生成细粒度的BEV特征)组成。

PersFormer的总体思想是使用IPM中的坐标变换矩阵作为参考,通过关注前视图特征中的相关区域(局部上下文)来生成BEV特征表示。 PersFormer是一种空间变换方法(使用相机参数和数据驱动

PersForme在 参考点中提取前视图特征,构建具有代表性的BEV特征。这种特征转换在一个通过Transformer的聚合精神被证明比基于IPM的跨视图投影性能更好。

一方面,在透视图中进行2D车道检测,是一般的高级视觉问题的一部分;另一方面,统一二维和3D任务自然是可行的,因为 the BEV features to predict 3D outputs descend from the counterpart in the 2D branch.(这块不太理解
端到端统一框架将利用特性并从协同学习优化过程中获益,这在大多数多任务文献[33,59,28]中得到了证明。

首先将规划的anchor(红色)放在BEV空间(左,然后将它们投射到前视图(右)。
偏移量x_ik和u_ik(虚线)被预测为匹配GT(黄色和绿色)到anchor。这样就建立了对应关系,特性也一起优化。

2D anchor设计
anchor的描述和预测与三维视图中定义的相似,只是(u,v)为二维空间,没有高度。每个倾斜角度φ的3D锚Xi_bev对应一个倾斜角度θ的特定2D anchor Ui_fv;连接是通过上述公式(2)形成映射。我们通过设置同一组锚点,实现了同时统一二维和三维任务的目标。这样的设计将同时优化特特征,并使特征跨视图地对齐且具有代表性。

在BEV条件下的二进制分割
与之前的许多工作一样,训练中增加更多的中间监督将提高网络的性能。车道检测属于图像分割,需要一般的大分辨率,我们将一个U-Net结构的头连接到生成的BEV特征之上。这一辅助任务是预测BEV的车道GT S_gt是一个二值图(从三维车道GT投影到BEV空间)。预测输出S_pred与S_gt相大小相同。

backbone与之前的工作略有不同,因为需要同时考虑2D/3D分支。采用 EfficientNet 提取一个特定的图层作为后续模块的输入。稍后提供了两种设计(是否使用FPN)。在使用了几个卷积层后,主干模块输出了4个不同比例的前视图特征图。他们的分辨率是180×240,90×120,45×60,22×30。然后利用PresFormer将每个前视图特征图转换为bev空间特征图,结果得到了4个BEV特征图。


我们首先在BEV空间中设置锚点。按照Gen-LaneNet的顺序,起始位置Xi_bev沿x轴均匀放置,间距为8个像素。
Gen-LaneNet只设置直向(平行于y轴),这使得很难预测具有大曲率或垂直车道的车道。针对这个问题,我们在每个Xi_bev上以不同的角度放置7个锚,即φ∈{π/2、arctan(±0.5)、arctan(±1)、arctan(±2))。此外,我们将所有的BEV锚点投影到具有数据集的平均摄像机高度和螺距角的图像空间中,从而得到相应的二维锚点。

GT 与 anchor 匹配: Y_ref的设置非常接近ego-vehiche,即Gen-LaneNet的5米,这使得它能更好地预测近区域的车道,而在远距离的表现不令人满意。在我们的实验中,我们在二维和三维任务中以最小的编辑距离将锚分配到地面真实车道。该距离是在固定的y位置上计算的:(5、10、15、20、30、40、50、60、802D锚的72个等采样高度。

    以上就是本篇文章【【3D点云】PersFormer:基于透视Transformer的3D车道检测(ECCV2022)】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/17977.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评