Pauls, Jan-Hendrik, Kursat Petek, Fabian Poggenhans, and Christoph Stiller. “Monocular Localization in HD Maps by Combining Semantic Segmentation and Distance Transform.” In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 4595–4601. Las Vegas, NV, USA: IEEE, 2020. https://doi.org/10.1109/IROS45743.2020.9341003.

1 Introduction

本文的贡献：

提出使用语义分割网络来克服之前常用的物体探测网络生成bboxing 的空间限制，这使得我们可以检测到稀疏、可共享、独立于传感器的HD 地图中的所有地图元素；
使用distance transform 来解决稠密语义信息的数据关联问题，且该关联过程本质上是动态的；
将语义信息和标准的汽车里程计组成为一个鲁棒的位姿图优化，克服了语义定位只使用图片的缺点。

3 Semantic Segmentation and Post-processing

作者使用包含多个检测头的ResNet-38 网络进行语义分割：

其中一个检测头按照增强型Cityscapes 数据集种类进行分割，种类的增强在于增加了所有的道路标志lane marking 类别，该结果被命名为Cityscapes+LM。
第二个检测头预测车道，特别是本车所在的车道区域。

只关注与地图元素对应的语义类别，curbs (C), lane borders (LB), lane markings (LM), traffic lights (TL), traffic signs (TS)。由于本网络无法检测车道边界LB，作者采用形态学方法根据车道区域提取出相应的LB。

4 Distance Transform

将某个类别的二值图片记为 $B_c$ ，distance transform 用于将 $B_c$ 转化为一个距离图片 $D_c$ ，具有相同的维度，但是是连续的像素数值。

5 Semantic Localization

作者将不同地标采样成3D 点来表示，这样可以适用于任何形状的地标。利用初始位姿估计将附近的地表点映射至距离图片 $D_c$ ，构建如下所示的损失函数：

原理在于最优位姿p 会使得所有投影后的地标位于相应的语义标签图片块中，对于非最优的情况，每个地标需要移动至下一个合适的图片块，该信息可通过对距离图片进行插值以生成一个顺滑的梯度。因此，插值后的距离图片可以视为一个快速查找表，只需计算一次然后就可用于每一次优化步骤。另一个优势在于这个查找可动态构建地标与图片块之间的联系，也就是说，不需要额外的处理就可以在每一次优化中改变。

对于外点剔除，作者使用带有变量宽度的Tukey’s biweight 损失作为鲁棒损失函数 $\rho$ ，距离较远的地图元素，如交通牌、交通灯等可以相应调整变量宽度。

6 Pose Graph Optimization

作者构建了一个包含图片定位和汽车VO 的滑动窗口位姿图优化，VO 主要用来获取径向longitudinal 速度与 yaw 转向速率，作者假定在连续帧间VO 满足常数速度和转向速率 $v,w$ ，因此，部分2D 位姿在汽车坐标系中的非线性更新 $\widetilde{p} = (x, y, \theta)$ ：

其中，$\Delta T$ 表示连续两帧之间的时间间隔。然后该部分2D 位姿被转换至相机坐标系，并使用在高度、pitch、roll 方向的弱正则化进行补充，作为一个简化的6自由度运动模型。

Echo's blog

论文记录 Monocular Localization in HD Maps by Combining Semantic Segmentation and Distance Transform

1 Introduction

3 Semantic Segmentation and Post-processing

4 Distance Transform

5 Semantic Localization

6 Pose Graph Optimization