题目: Weakly Supervised Semantic Point Cloud Segmentation: Towards 10× Fewer Labels
论文:https://arxiv.org/pdf/2004.04091.pdf
代码:https://github.com/alex-xun-xu/WeakSupPointCloudSeg
在这项工作中,我们提出了一种弱监督点云分割方法,它只需要一小部分的点被标记。这是通过 学习梯度近似 和 利用额外的空间和颜色平滑约束 来实现。在三个不同程度的弱监督的公共数据集上进行了实验。
有监督的方法有[19,20,33,12,29] (两个任务:点云 形状分类 和 点云分割 )
[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di,and Baoquan Chen. Pointcnn: Convolution on x-transformed points. In NIPS, 2018.
[19] Charles R. Qi, Hao Su, Kaichun Mo, and Leonidas J. Guibas.PointNet: Deep learning on point sets for 3D classification and segmentation. In CVPR, 2017.
[20] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NIPS, pages 5099–5108,2017.
[29] Lei Wang, Yuchun Huang, Yaolin Hou, Shenman Zhang, and Jie Shan. Graph attention convolution for point cloud semantic segmentation. In CVPR, 2019.
[33] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma,Michael M Bronstein, and Justin M Solomon. Dynamicgraph cnn for learning on point clouds. ACM Transactions on Graphics (TOG), 2019.
为了使弱监督分割具有很强的上下文建模能力和处理通用的三维点云数据,我们选择建立在最先进的深度神经网络来学习点云特征嵌入。给定部分标记的点云数据,我们采用了一个不完全的监督分支,它只惩罚标记点。这是因为不完全监督的学习梯度可以被认为是完全监督的抽样近似。在3.2节我们分析了,近似梯度在分布上收敛于真实梯度,间隙呈正态分布,方差与采样点的数量成反比。因此,如果给定足够的标记点,近似的梯度接近于真实的梯度。结论是,在每个样本中用更少的标记点广泛地注释更多的样本,总是比用更多(或完全)标记点集中地标记更少的样本更好。
由于上述方法只对标记点施加约束,我们在三个正交方向上对未标记点提出附加约束:
1.首先,我们引入了一个额外的不精确监督分支,它以类似于多实例学习[35,7]的方式定义了点云样本级交叉熵损失。它的目的是抑制关于负类别的任何点的激活。
2.其次,我们引入了一个孪生自监督分支,通过增强训练样本的随机平面内旋转和翻转,然后鼓励原始的和增强的point-wise 预测是一致的。
3.最后,我们观察到语义部分/对象, 在局部空间和颜色空间中通常是连续的。
- 这是第一个在深度学习环境下研究弱监督点云分割的工作。
- 我们对弱监督的成功作出了一个解释,并且提供对固定标签预算下的注释策略的见解
- 我们采用基于不精确监督、自监督和空间和颜色平滑度的三个额外损失来进一步约束未标记数据。
- 实验在三个公共数据集上进行了实验,作为鼓励未来研究的benchmarks。
具体地说,我们关注两种类型的弱监管:不完全和不准确( incomplete and inexact supervision)
这在文献[38,3,17,2,10,27,8]中也被称为半监督学习。少量标注:几个边界框或像素被标记用于图像分割任务[17,2],或者几个节点被标记用于图形推理[27]。成功的原因通常归因于问题特定假设的利用,包括图流形[38,3,27]、空间和颜色连续性[17,2]等。另一种工作方式是基于集成学习,通过引入额外的约束条件,如原始数据和改变数据之间的一致性,例如添加噪声[22]、旋转[10]或ad对抗性训练[15]。
在这项工作中,我们利用了最先进的深度神经网络,和其中重新分配额外的空间约束,以进一步规范模型。因此,我们利用了深度模型和几何先验提供的空间相关性。
他们的目标是从图像分割任务的每幅 图像级注释 [9,24]中推断出每幅像素的预测。提出了类激活图(CAM)[35],以突出CNN的关注基于区别性的监督。它是一个很好的弱监督分割[9,32]的 先验模型。不准确的监督往往是对不完全的监督的 补充,因此,它也被使用改进半监督图像分割[2]。在这项工作中,我们引入不精确监督作为不完全监督的补充。
PointNet[19]是通过级联多层感知器(mlps)来学习三维点云特征的点云的分类和分割;这些工作[20,33,12,30,11]提出通过局部池化或图卷积来利用局部几何。在点云分析的所有任务中,有语义分割由于其在机器人技术中的潜在应用,现有的工作依赖于在point-level 学习[19]一个分类器。然而,这种范式需要详尽的点级标记,并且不能很好地进行扩展。我们还注意到,[26]提出在训练目标中增加空间平滑正则化。[5]提出通过CRF来细化预测。然而,这两项工作都需要充分的监督。
[11] Loic Landrieu and Martin Simonovsky. Large-scale point cloud semantic segmentation with superpoint graphs. In CVPR, 2018.
[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. Pointcnn: Convolution on x-transformed points. In NIPS, 2018.
[20] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NIPS, pages 5099–5108, 2017.
[30] Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, and Raquel Urtasun. Deep parametric continuous convolutional neural networks. In CVPR, 2018.
[33] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph cnn for learning on point clouds. ACM Transactions on Graphics (TOG), 2019.
[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. Pointcnn: Convolution on x-transformed points. In NIPS, 2018.
后续实验中会有性能对比。
我们首先假设两个权重相似的网络—— 一个经过完全监督训练,另一个经过弱监督,应该产生相似的结果。假设两个网络都以相同的初始化开始,那么在每一步中,梯度的相似性就越高,这意味着两个网络收敛到相似结果的机会就越大。
全监督与弱监督的梯度表示如下:
三维形状或场景的 语义标签 在空间和颜色空间中都是平滑的。在我们的弱监督环境下,当嵌入大量的未标记点没有很好地受到分割损失的约束时,显式约束更有利。
训练阶段:
预测阶段:
最终的训练目标是结合上述所有目标,即总=l_seg+λ1l_mil+λ2l_sia+λ3l_smo。我们根据经验设置了λ1,λ2,λ3=1。在等式中选择k-nn图为k=10、η=1e3和γ为1。
三个数据集:ShapeNet 是一个CAD模型数据集,包含来自16个类别的16,881个形状,每个形状都有50个部分的注释。对于每个训练样本,我们从每个部分中随机选择一个点的子集来进行标记。
PartNet[16]被提出用于更细粒度的点云学习。它由24个独特的形状类别组成,共有26,671个形状。
S3DIS[1],用于对室内场景的理解。它由6个区域组成,每个区域覆盖几个房间。