Pauls, Jan-Hendrik, Kursat Petek, Fabian Poggenhans, and Christoph Stiller. “Monocular Localization in HD Maps by Combining Semantic Segmentation and Distance Transform.” In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 4595–4601. Las Vegas, NV, USA: IEEE, 2020. https://doi.org/10.1109/IROS45743.2020.9341003.
1 Introduction
本文的贡献:
- 提出使用语义分割网络来克服之前常用的物体探测网络生成bboxing 的空间限制,这使得我们可以检测到稀疏、可共享、独立于传感器的HD 地图中的所有地图元素;
- 使用distance transform 来解决稠密语义信息的数据关联问题,且该关联过程本质上是动态的;
- 将语义信息和标准的汽车里程计组成为一个鲁棒的位姿图优化,克服了语义定位只使用图片的缺点。
3 Semantic Segmentation and Post-processing
作者使用包含多个检测头的ResNet-38 网络进行语义分割:
- 其中一个检测头按照增强型Cityscapes 数据集种类进行分割,种类的增强在于增加了所有的道路标志lane marking 类别,该结果被命名为Cityscapes+LM。
- 第二个检测头预测车道,特别是本车所在的车道区域。
只关注与地图元素对应的语义类别,curbs (C), lane borders (LB), lane markings (LM), traffic lights (TL), traffic signs (TS)。由于本网络无法检测车道边界LB,作者采用形态学方法根据车道区域提取出相应的LB。
4 Distance Transform
将某个类别的二值图片记为 $B_c$ ,distance transform 用于将 $B_c$ 转化为一个距离图片 $D_c$ ,具有相同的维度,但是是连续的像素数值。
5 Semantic Localization
作者将不同地标采样成3D 点来表示,这样可以适用于任何形状的地标。利用初始位姿估计将附近的地表点映射至距离图片 $D_c$ ,构建如下所示的损失函数:
原理在于最优位姿p 会使得所有投影后的地标位于相应的语义标签图片块中,对于非最优的情况,每个地标需要移动至下一个合适的图片块,该信息可通过对距离图片进行插值以生成一个顺滑的梯度。因此,插值后的距离图片可以视为一个快速查找表,只需计算一次然后就可用于每一次优化步骤。另一个优势在于这个查找可动态构建地标与图片块之间的联系,也就是说,不需要额外的处理就可以在每一次优化中改变。
对于外点剔除,作者使用带有变量宽度的Tukey’s biweight 损失作为鲁棒损失函数 $\rho$ ,距离较远的地图元素,如交通牌、交通灯等可以相应调整变量宽度。
6 Pose Graph Optimization
作者构建了一个包含图片定位和汽车VO 的滑动窗口位姿图优化,VO 主要用来获取径向longitudinal 速度与 yaw 转向速率,作者假定在连续帧间VO 满足常数速度和转向速率 $v,w$ ,因此,部分2D 位姿在汽车坐标系中的非线性更新 $\widetilde{p} = (x, y, \theta)$ :
其中,$\Delta T$ 表示连续两帧之间的时间间隔。然后该部分2D 位姿被转换至相机坐标系,并使用在高度、pitch、roll 方向的弱正则化进行补充,作为一个简化的6自由度运动模型。