推广 热搜: page  关键词  红书  链接  搜索  获取  哪些  数据  数据分析  服务 

CVPR2024

   日期:2025-01-01     作者:fwspr    caijiyuan   评论:0    移动:https://sicmodule.kub2b.com/mobile/news/14544.html
核心提示:添加小助理微信AIDriver004,加入自动驾驶之心近30+方向技术交流群!论文作者 | Chenbin Pan编辑 | 自动驾驶之心写在前面笔者

添加小助理微信AIDriver004,加入自动驾驶之心近30+方向技术交流群!

论文作者 | Chenbin Pan

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做出及时、正确的判断和行为决策。目前,具备自动驾驶功能的汽车中通常会配备包括环视相机传感器、激光雷达传感器以及毫米波雷达传感器在内的多种数据信息传感器来收集不同模态的信息,用于实现准确的感知任务。

由于基于纯视觉的BEV感知算法需要更低的硬件以及部署成本,同时其输出的BEV空间感知结果可以很方便的被下游规控等任务所使用而受到了来自工业界和学术界的广泛关注。近年来,很多基于BEV空间的视觉感知算法被相继提出,并且在公开数据集上取得了出色的感知性能。

目前,基于BEV空间的感知算法根据构建BEV特征的方式可以大体分成两类算法模型:

    虽然两类算法都可以较为准确的生成BEV空间下的特征进而完成最终的3D感知结果,但在当前的基于BEV空间的3D目标感知算法中,比如BEVFormer算法存在着以下两方面的问题:

      所以,针对上述提到的BEVFormer感知算法模型存在的两点问题,我们在BEVFormer算法模型的基础上进行改进,提出了基于环视图像的BEV场景下的3D检测算法模型CLIP-BEVFormer,通过利用对比学习的方式来增强模型对于BEV特征的构建能力,并且在nuScenes数据集上实现了SOTA的感知性能。

      文章链接:https://arxiv.org/pdf/2403.08919.pdf

      网络模型的整体架构&细节梳理

      在详细介绍本文提出的具体CLIP-BEVFormer感知算法模型细节之前,下图展示了我们提出的CLIP-BEVFormer算法的整体网络结构。

      本文提出的CLIP-BEVFormer感知算法模型整体流程图

      通过算法的整体流程图可以看出,本文提出的CLIP-BEVFormer算法模型是在BEVFormer算法模型的基础上进行改进的,这里先简单回顾一下BEVFormer感知算法模型的实现过程。首先,BEVFormer算法模型输入的是相机传感器采集到的环视图像数据,利用2D的图像特征提取网络提取输入环视图像的多尺度语义特征信息。其次,利用包含时序自注意力和空间交叉注意力的Encoder模块完成2D图像特征向BEV空间特征的转换过程。然后,在3D感知空间中以正态分布的形式生成一组Object Query,并送入到Decoder模块中完成与Encoder模块输出的BEV空间特征的空间特征交互利用。最后利用前馈神经网络预测Object Query查询到的语义特征,输出网络模型最终的分类和回归结果。同时,在BEVFormer算法模型训练的过程中,采用一对一的匈牙利匹配策略完成正负样本的分配过程,并利用分类和回归损失完成整体网络模型参数的更新过程。BEVFormer算法模型整体的检测过程可以用如下的数学公式进行表示:

      真值BEV的生成

      在上文中已经有提到,现有的绝大多数基于BEV空间的3D目标检测算法没有显式的对生成的BEV空间特征进行监督,导致模型生成的BEV特征可能存在与真实的BEV特征不一致的问题,这种BEV空间特征的分布差异会制约模型最终的感知性能。基于这一考虑出发,我们提出了Ground Truth BEV模块,我们设计该模块的核心思路是想让模型生成的BEV特征可以和当前真值BEV特征进行对齐,从而提高模型的表现性能。

      具体而言,如整体网络框架图所示,我们使用了一个真值编码器(GTEnc)用来对BEV特征图上的任意一个真值实例的类别标签c和空间边界框位置信息p进行编码,该过程可以用公式表述成如下的形式:

      除此之外,我们为了进一步增强真值目标在BEV特征图上的边界信息,我们在BEV特征图上根据真值目标所在的空间位置将其裁剪下来,并对裁剪后的特征采用池化操作构建对应的特征信息表示,该过程可以表述成如下的形式:

      最后,我们为了实现模型生成的BEV特征与真值BEV特征的进一步对齐,我们采用了对比学习的方法来优化两类BEV特征之间的元素关系和距离,其优化过程可以表述成如下的形式:

      真值目标查询交互

      这部分在前文中也有提到,BEVFormer感知算法模型中的Object Query通过Decoder模块与生成的BEV特征进行交互,获得对应的目标查询特征,但该过程整体还是一个黑盒过程,缺少一个完整的流程理解。针对这一问题,我们引入了真值查询交互模块,通过将真值目标来执行Decoder模块的BEV特征交互来激发模型参数的学习过程。具体而言,我们将真值编码器(GTEnc)模块输出的真值目标编码信息引入到Object Query当中参与Decoder模块的解码过程,与正常的Object Query参与相同的自注意力模块,交叉注意力模块以及前馈神经网络输出最终的感知结果。但需要注意的是,在解码的过程中,所有的Object Query均是采用了并行计算的方式,防止发生真值目标信息的泄露。整个真值目标查询交互过程,可以抽象表述成如下的形式:

      实验结果&评价指标

      定量分析部分

      为了验证我们提出的CLIP-BEVFormer算法模型的有效性,我们分别在nuScenes数据集上从3D感知效果、数据集中目标类别的长尾分布情况以及鲁棒性等角度出发进行了相关实验,下表是我们提出的算法模型与其他3D感知算法模型在nuScenes数据集上的精度对比情况。

      本文提出的方法与其他感知算法模型的对比结果

      在这部分实验中,我们分别评估了不同模型配置情况下的感知性能,具体而言,我们将CLIP-BEVFormer算法模型应用于BEVFormer的tiny和base变体中。此外,我们还探索了将预训练的CLIP模型或者MLP层作为真值目标编码器对于模型感知性能的影响。通过实验结果可以看出,无论是原先的tiny还是base变体,在应用了我们提出的CLIP-BEVFormer算法后,NDS和mAP指标均有稳定的性能提升。除此之外,通过实验结果我们可以发现,对于真值目标编码器选择MLP层还是语言模型,我们提出的算法模型对于此并不敏感,这种灵活性可以使得我们提出的CLIP-BEVFormer算法更具有适应能力并且方便上车部署。总之,我们提出的算法模型的各类变体的性能指标一致表明提出的CLIP-BEVFormer算法模型具有很好的感知鲁棒性,可以在不同模型复杂度和参数量的情况下实现出色的检测性能。

      除了验证我们提出的CLIP-BEVFormer在3D感知任务上的性能外,我们还进行了长尾分布的实验来评估我们的算法在面对数据集中存在长尾分布情况下的鲁棒性和泛化能力,实验结果汇总在下表

      提出的CLIP-BEVFormer算法模型在长尾问题上的表现性能

      通过上表的实验结果可以看出,nuScenes数据集中表现出了极大的类别数量不均衡的问题,其中一些类别如(建筑车辆、公交车、摩托车、自行车等)占比很低,但是对于小汽车的占比非常高。我们通过进行长尾分布的相关实验来评估提出的CLIP-BEVFormer算法模型在特征类别上的感知性能,从而验证其解决不太常见类别的处理能力。通过上述的实验数据可以看出,提出的CLIP-BEVFormer算法模型在所有类别上均实现了性能的提升,并且在对于占比极少的类别上,CLIP-BEVFormer算法模型展示出了明显的实质性改进。

      考虑到在真实环境下的自动驾驶系统需要面临硬件故障、恶劣天气状况或者人造障碍物容易引发的传感器故障等问题,我们进一步实验验证了提出的算法模型的鲁棒性。具体而言,我们为了模拟传感器的故障问题,我们在模型实施推理的过程中随机对一个相机的摄像头进行遮挡,从而实现对于相机可能出现故障的场景进行模拟,相关的实验结果如下表所示

      提出的CLIP-BEVFormer算法模型的鲁棒性实验结果

      通过实验结果可以看出,无论是在tiny还是base的模型参数配置下,我们提出的CLIP-BEVFormer算法模型始终要优于BEVFormer的相同配置的基线模型,验证了我们的算法模型在模拟传感器故障情况下的优越性能和优秀的鲁棒性。

      定性分析部分

      下图展示了我们提出的CLIP-BEVFormer算法模型与BEVFormer算法模型的感知结果可视化对比情况。通过可视化的结果可以看出,我们提出的CLIP-BEVFormer算法模型的感知结果与真值目标更加的接近,表明我们提出的真值BEV特征生成模块与真值目标查询交互模块的有效性。

      提出的CLIP-BEVFormer算法模型与BEVFormer算法模型感知结果的可视化对比情况

      结论

      在本文中,针对原有的BEVFormer算法当中存在的生成BEV特征图过程中缺少显示监督以及Decoder模块中Object Query与BEV特征交互查询的不确定问题,我们提出了CLIP-BEVFormer算法模型,并从算法模型的3D感知性能、目标长尾分布以及在传感器故障的鲁棒性等方面进行实验,大量的实验结果表明我们提出的CLIP-BEVFormer算法模型的有效性。

       

      投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

       

      自动驾驶Daily

       

      自动驾驶技术与行业发展日常分享,专注自动驾驶与AI

       

      51篇原创内容

       

      ① 全网独家视频课程

       

      BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

       

      网页端官网:www.zdjszx.com

       

      ② 国内首个自动驾驶学习社区

       

      国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

       

       

      ③【自动驾驶之心】技术交流群

       

      自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

       

      自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

       

      多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

       

      多传感器融合:多传感器后融合技术交流群;

       

      规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

       

      定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

       

      三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

       

      自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

       

      自动驾驶开发:自动驾驶开发、ROS等技术交流群;

       

      其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

       

      扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

       

      ④【自动驾驶之心】平台矩阵,欢迎联系我们!

      本文地址:https://sicmodule.kub2b.com/news/14544.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

      特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

       
       
      更多>同类最新资讯
      0相关评论

      文章列表
      相关文章
      最新动态
      推荐图文
      最新资讯
      点击排行
      网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号