0%

论文记录 Robust Loop Closure Detection Integrating Visual–Spatial–Semantic Information via Topological Graphs and CNN Features

Wang, Yuwei, Yuanying Qiu, Peitao Cheng, and Xuechao Duan. “Robust Loop Closure Detection Integrating Visual–Spatial–Semantic Information via Topological Graphs and CNN Features.” Remote Sensing 12, no. 23 (November 27, 2020): 3890. https://doi.org/10.3390/rs12233890.

1 Introduction

本文的主要贡献:

  • 提出一个包含视觉、空间以及语义信息的鲁棒回环检测方法,提高大视角变化及动态场景下的鲁棒性;
  • 使用预训练的语义分割网络和AlexNet 特征提取网络,可不经再训练直接应用于其他场景。

2 Materials and Methods

算法架构如Fig. 1所示,包含以下关键模块:

  1. 语义地标提取;
  2. 消除动态地标并选择区分度高的地标;
  3. 地标区域的CNN 特征计算,及特征维度压缩处理;
  4. 语义拓扑图及随机游走描述子的构建;
  5. 使用随机游走描述子计算几何相似度;
  6. 整体相似度计算以进行回环检测。

fig1

2.1 Semantic Topology Graph

语义拓扑图的构建过程如下所示:

fig2

2.1.1 Landmark Extraction

作者使用ADE20K 训练的DeepLabV3+ 网络进行语义分割来提取地标。

2.1.2 Landmark Selection

对语义分割图片进行处理,来去除面积小于一定阈值(本文中设定为100)的区域,并滤掉动态物体,最终获取具有清晰边界的地标区域,过程如Fig. 3所示。

fig3

为了克服动态场景的影响,作者利用语义信息消除行人动态地标,将行人与长期停放的车辆区域进行融合,以作为后续工作的汽车地标。

作者结合地标包含的像素个数以及语义信息来选择区分度高的地标;而动态物体地标是由场景内容和语义信息来决定的,也就是说,根据地标在每个实验场景中的移动状态,来移除数据集中的移动地标,从而阻止其参与后续的算法步骤。

2.1.3 CNN Features

CNN 特征具有外观不变性 appearance invariance

根据前人的研究,AlexNet 的第三卷积层输出的特征图在外观变化下具有优异的表现,作者发现全连接层输出的特征图有丰富的语义信息,对于视角变化具有很强的鲁棒性,但是在外观变化下较弱。因此,作者选取AlexNet Conv3 的输出作为地标区域的全局特征

为了保持地标的原始尺寸信息,作者将地标轮廓的Hu moment 添加进CNN 特征中来描述地标。

2.1.4 Graph Representation

本文中,每个地标被描述为包含有类别与像素数量信息的节点,节点的位置位于地标区域的中心。描述子的构建过程如Fig. 5所示:

fig5

2.2 Loop Closure Detection

回环检测的流程如Fig. 6所示,同时检测外观相似度(CNN 与轮廓特征)与几何相似度(随机游走描述子),从而得到总体相似度。

fig6

2.2.1 Obtain Candidate Images

通过控制query image 与历史图片的相同标签地标数量,来获取候选匹配图片;作者设定为1,即当query image 与历史图片有一个相同标签的地标时,就将该历史图片作为候选图片。

2.2.2 Appearance Similarity

作者使用基于cos 距离(式 1)的最近邻域搜索方法来对具有相同标签的地标进行匹配,

f1

其中,$v_i^q$ 表示query 图片的第 i 个地标的特征向量,$v_j^c$ 表示候选图片的第 j 个地标的特征向量。

此外,利用地标的几何形状作为惩罚因子来消除误匹配,使用Hu moments 来描述地标不规则的轮廓特征,具有旋转、平移及尺寸的不变性。

2.2.3 Geometric Similarity

将随机游走描述子矩阵M 进行级联转化为向量 G,然后计算两个图描述子向量之间的相似度:

f6