0%

论文记录 Visual-Based Semantic SLAM with Landmarks for Large-Scale Outdoor Environment

Zhao, Zirui, Yijun Mao, Yan Ding, Pengju Ren, and Nanning Zheng. “Visual-Based Semantic SLAM with Landmarks for Large-Scale Outdoor Environment.” In 2019 2nd China Symposium on Cognitive Computing and Hybrid Intelligence (CCHI), 149–54, 2019. https://doi.org/10.1109/CCHI.2019.8901910.

1 Introduction

本文的贡献:

  • 通过将视觉SLAM 地图和语义分割信息进行融合,来构建大型户外环境的语义3D 地图
  • 扩充KITTI 数据集以包含GPS 信息,以及从Google Map 上获取的相关地标标签
  • 提出一个基于语义地图将真实世界的地标和点云地图联系起来,以构建一个拓扑地图的方法。

3 Approach

3.1 System overview

系统框架如Fig. 1所示:

fig1

3.2 Semantic mapping

作者使用PSPNet-101 模型对图片进行语义分割,利用TensorRT 进行实施推理加速

利用ORB-SLAM2 进行3D 重建轨迹估计

利用贝叶斯更新准则来为每个地图点的语义标签概率分布进行更新。

3D 点云坐标与像素坐标的转换关系:

f1

在特征点被投影至相机坐标系后,可得到每个特征点在19个类别标签上的概率分布

f3

其中,$L_m(x_m, y_m, z_m)$ 表示地图点 $(x_m, y_m, z_m)$ 的类别标签;$F_s$ 表示语义分割后当前帧图片像素在每个类别标签上的概率分布。此外,由于同一特征点可在多帧图像中被观测到,因此需要进行多观测数据融合操作,此处利用贝叶斯更新

f4

其中,Z 是归一化常数;$l_k^m$ 表示地图点 m 在帧 k 上的标签;$p(l_l^m | F_{1:k}, P_{1:k})$ 表示从第一帧到 k 帧的累积概率分布

最终,每个地图点的标签通过选取最大概率值来确定:

f6

在实时融合过程中,每个地图点会包含一个语义标签以及一个语义概率分布。

3.3 GPS fusion

为了将建筑地标点云在像素级别上联系起来以产生语义点云,作者将建筑地标的WGS84 坐标转换至点云坐标系下。作者发现从Goole Map API 获取的WGS84 坐标系经纬度不适合直接转换,因此,首先将其转换至Cartesian 坐标系下,单位是米;然后利用现有的方法将其与点云坐标系进行对齐。设$P_A$ 为Cartesian 坐标下的点云,其中心为 $centroid_A$ ;$P_B$ 为位姿坐标系下的点云,其中心为 $centroid_B$ ,由于两者的尺度不一致,还需进行尺度转换。旋转矩阵与平移矩阵的计算如下所示:

f7

f9

其中,$\lambda$ 为尺度因子,计算方式如下:

f11

3.4 Post process

利用地标的GPS 信息和语义标签,可以将地标级数据和3D 重建结果融合起来,可方便用于任务导向的导航问题。作者使用基于模糊数学的方法 fuzzy-mathematics-based method 进行地标数据融合:不关注地标位置的准确性,而是关注地标位置的归属分布,这点是模仿人类感知习惯的。作者尝试基于高斯概率分布来评估位置归属性,如果一个位置接近某个地标,那么根据高斯分布该位置的归属性会更高;归属性定义如下所示:

f13

其中,$(x_l, y_l)$ 表示地标位置;$\sigma$ 表示高斯分布的标准差。

拓扑地图如Fig. 3所示,其只包含地标之间的可抵达关系以及它们的几何关系,拓扑地图中只有节点和边,适合全局路径规划。

fig3

5 Conclusion

现有的工作主要聚焦于准确性或者实时性能,但这对于机器人整体感知层面的提升较小;作者利用带有GPS 信息的KITTI 数据集进行地标语义融合以及拓扑语义制图,结合Google Map API,可构建包含真实名字与位置信息的地标,使得离线人机语言交互、任务导向的导航或者地标级的定位成为可能。