2023 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR 2023) 将于2023年6月18日至22日在加拿大温哥华市举行。CVPR是计算机视觉领域的顶级国际会议,CCF A类会议。本届CVPR 2023共收到9155篇有效投稿,最终共有2360篇论文被录用,25.78%的接受率。
空间感知与计算课题组和视觉感知与计算课题组@CVPR2023的6篇论文分别从多模态三维目标检测、城市环境全局4D人体姿态估计、攀岩人体动捕、无地图视觉定位、行人重识别、长尾视觉识别6个方向进行了研究。
作者:吴海(厦门大学)、温程璐*(通讯作者,厦门大学), Shaoshuai Shi(Max Planck Institute for Informatics)、Xin Li(Texas A & M University)、王程(厦门大学)
论文简介:本文针对基于虚拟点的三维目标检测中噪声大和计算冗余度高的问题,设计了一个新的虚拟稀疏卷积(VirConv),通过冗余体素抛弃及将稀疏体素映射回图像空间抑制深度估计噪声,显著提高了多模态三维目标检测的效率和精度。以此为基础,提出VirConv-L,VirConv-T和VirConv-S分别用于高效率、高精度、半监督三维目标检测。在竞争激烈的KITTI 自动驾驶数据集二维、三维、BEV汽车检测榜单上,方法均排名第一(2022/11月-至今)。
激光雷达视觉定位方向:首个亚米级精度户外无地图视觉定位模型
作者:李文(厦门大学)、于尚书(厦门大学)、王程*(通讯作者,厦门大学)、胡国胜(Oosto)、沈思淇(厦门大学)、温程璐(厦门大学)
论文简介:激光雷达三维视觉定位是城市全空间(室内外)、全天候、全天时可用的稳健导航解决方案。无地图视觉定位技术使用神经网络来隐式的替代定位任务中的传统地图。无地图视觉定位仅需当前场景数据,避免了地图的存储和传输。SGLoc将激光雷达视觉定位问题解耦为点云对应点回归和位姿估计两个子问题,强化了隐式神经网络对场景中三维几何的学习能力,显著提升定位精度。在10公里级城市场景验证结果表明,SGLoc是首个能够在达到亚米级定位精度的大范围无地图视觉定位模型。
激光雷达人体动作捕捉方向:城市环境全局4D人体姿态估计数据集
SLOPER4D: A Scene-Aware Dataset for Global 4D Human PoseEstimation in Urban Environments
作者:戴雨笛(厦门大学)、林逸泰(厦门大学)、林希平(厦门大学)、温程璐*(通讯作者,厦门大学)、许岚(上海科技大学)、易鸿伟(Max Planck Institute for Intelligent Systems, Tübingen, Germany)、沈思淇(厦门大学)、马月昕(上海科技大学)、王程(厦门大学)
论文简介:本文提出了用于全局4D人体姿态估计的大型城市场景感知数据集SLOPER4D。基于自制的激光雷达和相机头戴式设备,采集了12名对象在10个城市场景中的动作序列,并提供了2D关键点、3D姿态参数和全局平移的逐帧标注,以及重建的场景点云。SLOPER4D包括15个运动序列(轨迹长度均大于200米),覆盖面积超过2千平方米;包含100K LiDAR帧、300K视频帧和500K的IMU运动帧。基于建图和动作捕捉联合优化方法,数据集还提供了准确的全局3D人体姿态标注。该数据集将有效促进大规模城市场景下全局人体姿态估计相关工作的研究。
激光雷达人体动作捕捉方向:人与环境交互下的大型多模态攀岩动作数据集
CIMI4D:A Large Multimodal Climbing Motion Dataset under Human-scene Interactions
作者:颜明(厦门大学)、王新(厦门大学)、戴雨笛(厦门大学)、沈思淇*(通讯作者,厦门大学)、温程璐(厦门大学), 许岚(上海科技大学)、马月昕(上海科技大学)、王程(厦门大学)
论文简介:本文提出了一个大型攀岩运动数据集CIMI4D,包含姿态惯性测量动作序列、点云序列、RGB 视频、点云场景等来自12位攀岩爱好者的攀岩运动数据。我们通过一个联合优化过程对不同模态的数据进行了时间同步、优化校准,并通过人工标注提高了数据的质量。本文在人体姿态估计(有/无场景约束)、姿态预测和姿态生成等任务对现有方法进行测试,由于现有方法主要关注的是在地面上行走的人体姿态,在以CIMI4D为代表的攀爬动作上表现欠佳,CIMI4D对现有方法带来较大的挑战。相关数据集,代码将于近期发布。
行人重识别方向:基于多样性的特征扩展网络的跨模态行人重识别和低光照跨模态新基准
Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification
作者:张玉康(厦门大学)、王菡子*(通讯作者,厦门大学)
论文简介:对于可见光与近红外跨模态行人重识别任务,其主要的挑战是可见光和红外图像之间的模态差异。然而,训练样本通常是有限的,而模态差异太大,这导致现有的方法无法有效地挖掘跨模态的细粒度线索。为了解决这一问题,本文提出了一种新的增强网络,称为多样性的特征扩展网络。该算法可以有效地生成不同的特征来学习多样性的特征表示,并减少可见光和红外图像之间的模态差异。此外,本文提供了一个低光照的跨模态行人重识别数据集,该数据集包含46,767个由9台可见光和近红外相机捕获的1,064个行人的图像。在SYSU-MM01、RegDB和LLCM数据集上进行的大量实验表明,所提出的算法优于其他现有的方法。
长尾识别方向:基于多专家架构的自异构长尾学习方法
Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge Excavation
作者:金焱(厦门大学)、李梦柯(深圳光明实验室)、卢杨*(通讯作者,厦门大学)、张晓明(香港浸会大学)、王菡子(厦门大学)
论文简介:目前深度长尾视觉识别的主要目的是在保证对多数类别影响最小的情况下尽可能提高少数类别的识别效果,以获得更加平衡的判别模型。该工作首先发现深度模型对于长尾视觉特征存在深度相关的偏好。基于此发现,该论文提出了一种基于多专家架构的自异构长尾学习方法。该方法首先对不同深度浅层特征与专家深层特征进行聚合,使得深度专家自发利用多样化深浅特征,随后通过动态知识迁移在特征学习阶段实现对困难负类的压制。实验结果表明,该方法在长尾视觉识别的4个基准数据集上都取得了目前最优的性能表现。