前言:
眼前同学们对“三维点云物体实例分割”大致比较看重,姐妹们都想要了解一些“三维点云物体实例分割”的相关内容。那么小编在网络上搜集了一些关于“三维点云物体实例分割””的相关内容,希望朋友们能喜欢,姐妹们快快来了解一下吧!原论文标题:SoftGroup for 3D Instance Segmentation on Point Clouds
Abstract
现有的最先进的三维实例分割方法先进行语义分割,然后再进行分组。在进行语义分割时进行hard predictions,使每个点都与单一类别相关。然而,由hard decision产生的错误会传播到分组中,导致(1)预测的实例与ground truth之间的重叠度低,(2)大量的false positives。为了解决上述问题,本文提出了一种被称为SoftGroup的三维实例分割方法,通过自下而上的soft grouping和自上而下的细化来完成。SoftGroup允许每个点与多个类别相关联,以减轻语义预测错误带来的问题,并通过学习将其归类为背景来抑制false positive实例。
在不同的数据集和多种评价指标上的实验结果证明了SoftGroup的功效。它的性能超过了先前最强的方法,就AP50而言,它在ScanNet v2隐藏测试集上的性能为+6.2%,在S3DIS Area 5的性能为+6.8%。SoftGroup的速度也很快,在ScanNet v2数据集上,单台Titan X的每次扫描时间为345ms。两个数据集的源代码和训练好的模型都可以在https: //github.com/thangvubk/SoftGroup.git上找到。
1. Introduction
由于3D传感器的快速发展和大规模3D数据集的可用性,对3D数据的场景理解越来越受到关注。点云上的实例分割是一项3D感知任务,是自动驾驶、虚拟现实和机器人导航等广泛应用的基础。实例分割处理点云以输出每个检测到的目标的类别和实例掩码。
最先进的方法[4,15,20]将3D实例分割视为自下而上的pipeline。他们学习逐点语义标签和中心偏移向量,然后将具有较小几何距离的相同标签的点分组到实例中。这些分组算法是在hard语义预测上执行的,其中一个点与单个类相关联。在许多情况下,目标是局部模糊的,输出的语义预测显示不同部分的不同类别,因此使用hard语义预测进行实例分组会导致两个问题:(1)预测实例与ground-truth值之间的低重叠和(2)来自错误语义区域的额外false-positive实例。图1显示了一个可视化示例。这里,在语义预测结果中,橱柜的某些部分被错误地预测为其他家具。当使用hard语义预测进行分组时,语义预测误差会传播到实例预测。结果,预测的橱柜实例与ground-truth的重叠度很低,而另一个家具实例是误报。
图 1. 来自相同语义预测结果的有和没有SoftGroup的实例分割。最后一行显示仅用于语义预测的调色板。实例预测由不同目标的不同随机颜色来说明。在语义预测结果中,橱柜的某些区域被错误地预测为其他家具。如果没有SoftGroup,这些错误会传播到实例预测。 SoftGroup解决了这个问题并生成更准确的实例mask。
本文提出SoftGroup通过考虑soft语义分数来执行分组而不是hard one-hot语义预测来解决这些问题。 SoftGroup的直觉如图2所示。我们的发现是,具有错误语义预测的目标部分对于真实语义类仍然具有合理的分数。 SoftGroup依赖于分数阈值来确定目标属于哪个类别,而不是参数最大值。对soft语义分数进行分组会产生真实语义类的准确实例。语义预测错误的实例将通过学习将其分类为背景来抑制。为此,我们根据与ground truth的最大交集(IoU)将实例proposal视为正样本或负样本,然后构建自上而下的细化阶段来细化正样本并抑制负样本。如图1所示,SoftGroup能够从不完美的语义预测中生成准确的实例mask。
SoftGroup在概念上简单且易于实现。 ScanNet v2[6]和S3DIS[1]基准数据集上的实验表明了我们方法的有效性。值得注意的是,就AP50而言,SoftGroup在ScanNet隐藏测试集上以 +6.2%的显着优势和在S3DIS Area 5上+6.8%的优势显着优于之前的最先进方法。 SoftGroup速度很快,处理一个ScanNet场景需要345毫秒。总之,我们的贡献是三倍的。
我们提出了SoftGroup,它对soft语义分数进行分组,以避免从hard语义预测到实例分割的错误传播。我们提出了一个自上而下的细化阶段来纠正、细化正样本并抑制由错误语义预测引入的误报。我们报告了对具有不同评估指标的多个数据集的广泛实验,显示出对现有最先进方法的显着改进。2. Related work
3D点云的深度学习。 点云表示是3D场景理解的常用数据格式。为了处理点云,早期的方法[2,3,36,37]根据点的统计属性提取手工制作的特征。最近的深度学习方法学习从点中提取特征。基于PointNet的方法[32,33]提出通过共享的多层感知器(MLP)处理点,然后从对称函数(例如最大池化)中聚合区域和全局特征。卷积方法被积极探索用于点云处理。连续卷积方法[23、40、44、45]学习与局部点的空间分布相关的内核。离散卷积方法[5,8,13,19,25,34]学习从点量化获得的规则网格的内核。 Transformers[18, 50]和基于图的方法[38, 39, 43]也被提出来解决点云的数据不规则性。
基于Proposal的实例分割。 基于proposal的方法考虑了一种自上而下的策略,该策略生成区域proposal,然后在每个proposal中分割目标。现有的基于proposal的3D点云方法很大程度上受到Mask-R CNN用于2D图像的成功的影响。为了处理点云的数据不规则性,Li等人[47]提出了GSPN,它采用综合分析策略来生成高目标3D proposal,并由基于区域的PointNet进行细化。Hou等人[12]提出了3DSIS,它结合了多视图RGB输入和3D几何来预测边界框和实例掩码。Yang等人[46]提出了3D-BoNet,它直接输出一组边界框,无需生成anchor和非极大值抑制,然后通过逐点二元分类器对目标进行分割。Liu等人[22]提出GICN将每个目标的实例中心近似为高斯分布,对其进行采样以获得目标候选,然后生成相应的边界框和实例mask。
基于分组的实例分割。 基于分组的方法依赖于自下而上的pipeline,该pipeline产生逐点预测(例如语义图、几何位移或潜在特征),然后将点分组到实例中。Wang等人[41]提出SGPN来为所有点构建特征相似性矩阵,然后将具有相似特征的点分组为实例。Pham等人[29]提出了JSIS3D,它通过多值条件随机场模型合并语义和实例标签,并联合优化标签以获得目标实例。Lahoud等人[17]提出了MTML来学习特征和方向嵌入,然后在特征嵌入上执行mean-shift聚类以生成object segments,这些object segments根据它们的方向特征一致性来评分。
Han等人[9]介绍了OccuSeg,它执行由目标占用信号引导的基于图形的聚类,以获得更准确的分割输出。Zhang等人[48]考虑了一种概率方法,将每个点表示为三变量正态分布,然后进行聚类步骤以获得目标实例。Jiang等人[15]提出了点群算法来分割原始点集和偏移点集上的目标,该算法简单而有效,可将具有相同标签的邻近点进行分组,并逐步扩展该组。Chen等人[4]扩展了PointGroup并提出了HAIS,它进一步吸收实例的周围片段,然后基于实例内预测来细化实例。Liang等人[20]SSTNet从预先计算的超级点构建树网络,然后遍历树并分割节点以获得目标实例。
常见的基于proposal和基于分组的方法各有优缺点。基于proposal的方法独立处理每个目标proposal,不受其他实例的干扰。基于分组的方法无需生成proposal即可处理整个场景,从而实现快速推理。然而,基于proposal的方法难以生成高质量的proposal,因为该点仅存在于目标表面上。基于分组的方法高度依赖于语义分割,使得语义预测中的错误传播到实例预测中。所提出的方法利用了这两种方法的优点并解决了它们的局限性。我们的方法被构建为一个两阶段的pipeline,其中自下而上的阶段通过对soft语义分数进行分组来生成高质量的目标proposal,然后自上而下的阶段处理每个proposal以细化正样本并抑制负样本。
图 2. 提取图1中的橱柜以说明我们方法的高级pipeline。基于软语义分数的软分组模块输出更准确的实例(上一个)。分类器处理每个实例并从错误的语义预测(较低的一个)中抑制实例。
3. Method
SoftGroup的整体架构如图3所示,分为两个阶段。在自底向上分组阶段,逐点预测网络(第3.1节)将点云作为输入并生成逐点语义标签和偏移向量。软分组模块(第3.2节)处理这些输出以产生初步的实例proposal。在自上而下的细化阶段,基于proposal,从主干中提取相应的特征,并用于预测类、实例mask和mask分数作为最终结果。
图 3.所提出方法的架构由自下而上的分组和自上而下的细化阶段组成。从输入点云中,U-Net主干提取点特征。然后语义和偏移分支预测语义分数和偏移向量,然后是软分组模块以生成实例proposal。特征提取层从实例proposal中提取主干特征。每个proposal的特征都被输入到一个微型U-Net中,然后是分类、分割和掩码评分分支,以获得最终实例。
3.1. Point-wise Prediction Network
逐点预测网络的输入是一组N个点,每个点由其坐标和颜色表示。点集被体素化以将无序的点转换为有序的体积网格,这些网格被馈送到U-Net风格的主干[35]以获得点特征。采用子流形稀疏卷积[8]来实现3D点云的U-Net。根据点特征,构造两个分支以输出逐点语义分数和偏移向量。
3.2. Soft Grouping
图 4. 不同分数阈值τ 语义预测的召回率和准确率。虚线表示硬语义预测的召回率和精度。
图4显示了与hard语义预测相比,具有不同分数阈值τ 的召回率和精度(类的平均值)。使用hard语义预测,召回率为79.1%,这表明超过20%的类点数没有被预测覆盖。当使用分数阈值时,召回率随着分数阈值的降低而增加。但是,分数阈值小也会导致精度低。我们提出了一个自上而下的细化阶段来缓解低精度问题。精度可以解释为目标实例的前景和背景点之间的关系。我们将阈值设置为0.2,精度接近50%,导致前景和背景点之间的比率,以确保阶段是平衡的。
3.3. Top-Down Refinement3.4. Multi-task Learning5. Conclusion
我们提出了SoftGroup,一种简单而有效的方法,用于三维点云的实例分割。SoftGroup对软语义分数进行分组,以解决对局部不明确目标进行硬分组所产生的问题。从分组阶段获得的实例proposals被分配给正样本或负样本。然后构建一个自上而下的提炼阶段来提炼正面信息并抑制负面信息。在不同数据集上的大量实验表明,就而言,我们的方法在hidden ScanNet v2测试集上比现有的最先进方法高出+6.2%,在S3DIS Area 5上高出+6.8%。
原文链接:
标签: #三维点云物体实例分割