用于点云中3D对象检测的图神经网络

本文提出了一个GNN用于从LiDAR电云中发现对象，为此，作者在固定半径的近邻图中有效地编码了点云，使用Point-GNN预测每个点的对象的类别和形状。在Point-GNN中，本文提出了一种自动注册机制来减少平移差异，并且设计了一种盒合并和计分操作，以准确地组合来自多个顶点的检测。

在KITTI基准上进行的实验表明，本文所提出的方法仅使用点云即可达到领先的准确性，甚至可以超越基于融合的算法，结果证明了使用图神经网络作为3D对象检测的新方法的潜力。3D环境对于机器人感知十分重要，从点云中识别物体对于如自动驾驶之类的应用很有帮助。CNN依赖卷积操作识别物体，卷积操作虽然有效，但需要网格化的输入，但点云相较于图片来说更加稀疏并且在网格中分布不均。

将点云放置在常规网格上会在网格单元中生成数量不均匀的点。在这样的网格上应用相同的卷积运算会导致拥挤的单元中潜在的信息丢失或空单元中的计算浪费。最近的一些工作尝试使用无序点集作为输入，这样无需将点云转换为网格。但这样做通常需要迭代采样和分组来创建点集。

在大的点云上重复分组和采样可能会在计算上造成高昂的成本，因此最近的一些3D检测方法通常采用混合的方法在不同阶段分别使用网格或集合表示，但这种混合的策略可能会同时受到这两种表示方法的限制。本文提出用图的形式来表示点云，并设计了Point-GNN来进行目标检测。具体来说，将点云中的点作为图的顶点，并与周围一定半径内的其他点进行连边，从而允许特征在邻居之间流动。

这样的图表示可以直接适应点云的结构而无需将其转化为其他的形式。GNN在每层中会重新使用图中的边，以避免重复对点进行分组和采样。本文提出的Point-GNN将点云作为输入，输出每个顶点所属的对象类别和边界框，从而一次性检出多个物体，同时引入了一种自动注册机制，以根据特征自动对齐坐标，设计了框合并以及积分操作，以准确的组合来自多个顶点的检测结果。

本文的主要贡献有以下几个方面：1.提出了一种使用GNN的点云物体检测方法；2.使用带有自动注册机制的Point-GNN实现一次检测多个物体；3.在KITTI benchmark上达到了SOTA的3D对象检测精确度，并深入分析了每个组件的有效性。模型的整体结构如下图所示，分为三个组件：1)图构建；2)T次迭代的GNN；3)边界框合并和评分。带自注册机制的GNN Loss边界框合并和评分。

由于多个顶点可以位于同一对象上，因此神经网络可以输出同一对象的多个边界框。必须将这些边界框合并为一个，并分配一个置信度分数。非最大抑制（NMS）已被广泛用于此目的。通常的做法是选择具有最高分类分数的框，然后隐藏其他重叠的框。但是，分类分数并不总是反映定位质量。明显地，部分被遮挡的物体可能具有指示该物体的类型的强烈线索，但是缺乏足够的形状信息。标准NMS可能仅基于分类分数就选择了不准确的边界框。

所以作者在合并的过程中同时考虑到了重叠边界框的中位数位置和大小。

本文提出了一种名为Point-GNN的图神经网络，用于从点云的图形表示中检测3D对象。通过图表示紧凑地对点云进行编码，而无需映射到网格或重复采样和分组。Point-GNN在KITTI benchmark的3D和鸟瞰图对象检测方面均达到领先的精度。实验表明，提出的自动配准机制减少了过渡方差，并且在框合并和评分操作提高了检测精度。