目前已有的一些3D检测器都是将3D边界框到2D边界框的几何约束作为重要组件。由于2D的边界框只有四条边,仅能提供四个几何约束,这就导致2D检测器的一点小错误会极大的影响3D检测器的效果。本文的方法通过预测图片中物体3D边界框的九个关键点,利用3D和2D透视图的几何关系恢复3D空间中的尺寸、位置和方向。
通过这种方法,即使关键点的估计非常嘈杂,也可以稳定地预测对象的属性,使我们能够以较小的架构获得较快的检测速度。训练的方法仅使用对象的3D属性,而无需外部网络或监督数据。该方法是第一个用于单眼图像3D检测的实时系统,同时达到了KITTI基准的最新性能。代码将在https://github.com/Banconxuan/RTM3D上发布。
3D目标检测是自动驾驶中场景感知和运动预测的基本组件,目前的3D检测器都严重依赖于3D雷达扫描得到的位置信息。但基于雷达的系统非常昂贵而且不利于编码现在的车辆形状。而单目相机相对便宜更容易应用在现实场景中。本文的研究聚焦于单目RGB图片的3D目标检测。本文提出了一个无需依赖2D检测器的一阶段单目3D检测器。
首先,通过一个单阶段全卷积架构预测9个2D关键点,这些关键点包括3D边界框的8个顶点和中心点的投影点,这9个关键点在3D边界框上提供了18个几何约束。此外,本文还提出了一个全新的用于关键点检测的多尺度金字塔,可以通过软加权金字塔获得最终的关键点激活图。给定9个投影点后,下一步是通过对象的位置、尺寸和方向等从这些3D点的角度上进行参数化,使重投影误差最小。
将重投影误差公式化为se3空间中多元方程的形式,可以准确有效地生成检测结果。作者讨论了不同先验信息对基于关键点的方法(如尺寸、方向和距离)的影响。获取此信息的前提条件是不要增加过多的计算,以免影响最终检测速度。本文对这些先验模型进行建模,并提出了一个整体能量函数以进一步改善3D估计。
本文的主要贡献有以下几点:1.将单目3D检测转化为关键点检测问题,结合了几何约束来更准确和高效的生成3D物体的属性。2.提出了一种新颖的单阶段多尺度3D关键点检测网络,该网络可为多尺度物体提供准确的投影点。3.提出了一个整体能量函数,可以共同优化先验和3D对象信息。4.根据KITTI基准进行评估,本文是第一种仅使用图像的实时3D检测方法,与其他方法在相同的运行时间下对比,具有更高的准确性。