Wang, Yuwei, Yuanying Qiu, Peitao Cheng, and Xuechao Duan. “Robust Loop Closure Detection Integrating Visual–Spatial–Semantic Information via Topological Graphs and CNN Features.” Remote Sensing 12, no. 23 (November 27, 2020): 3890. https://doi.org/10.3390/rs12233890.
1 Introduction
本文的主要贡献:
- 提出一个包含视觉、空间以及语义信息的鲁棒回环检测方法,提高大视角变化及动态场景下的鲁棒性;
- 使用预训练的语义分割网络和AlexNet 特征提取网络,可不经再训练直接应用于其他场景。
2 Materials and Methods
算法架构如Fig. 1所示,包含以下关键模块:
- 语义地标提取;
- 消除动态地标并选择区分度高的地标;
- 地标区域的CNN 特征计算,及特征维度压缩处理;
- 语义拓扑图及随机游走描述子的构建;
- 使用随机游走描述子计算几何相似度;
- 整体相似度计算以进行回环检测。
2.1 Semantic Topology Graph
语义拓扑图的构建过程如下所示:
2.1.1 Landmark Extraction
作者使用ADE20K 训练的DeepLabV3+ 网络进行语义分割来提取地标。
2.1.2 Landmark Selection
对语义分割图片进行处理,来去除面积小于一定阈值(本文中设定为100)的区域,并滤掉动态物体,最终获取具有清晰边界的地标区域,过程如Fig. 3所示。
为了克服动态场景的影响,作者利用语义信息消除行人动态地标,将行人与长期停放的车辆区域进行融合,以作为后续工作的汽车地标。
作者结合地标包含的像素个数以及语义信息来选择区分度高的地标;而动态物体地标是由场景内容和语义信息来决定的,也就是说,根据地标在每个实验场景中的移动状态,来移除数据集中的移动地标,从而阻止其参与后续的算法步骤。
2.1.3 CNN Features
CNN 特征具有外观不变性 appearance invariance。
根据前人的研究,AlexNet 的第三卷积层输出的特征图在外观变化下具有优异的表现,作者发现全连接层输出的特征图有丰富的语义信息,对于视角变化具有很强的鲁棒性,但是在外观变化下较弱。因此,作者选取AlexNet Conv3 的输出作为地标区域的全局特征。
为了保持地标的原始尺寸信息,作者将地标轮廓的Hu moment 添加进CNN 特征中来描述地标。
2.1.4 Graph Representation
本文中,每个地标被描述为包含有类别与像素数量信息的节点,节点的位置位于地标区域的中心。描述子的构建过程如Fig. 5所示:
2.2 Loop Closure Detection
回环检测的流程如Fig. 6所示,同时检测外观相似度(CNN 与轮廓特征)与几何相似度(随机游走描述子),从而得到总体相似度。
2.2.1 Obtain Candidate Images
通过控制query image 与历史图片的相同标签地标数量,来获取候选匹配图片;作者设定为1,即当query image 与历史图片有一个相同标签的地标时,就将该历史图片作为候选图片。
2.2.2 Appearance Similarity
作者使用基于cos 距离(式 1)的最近邻域搜索方法来对具有相同标签的地标进行匹配,
其中,$v_i^q$ 表示query 图片的第 i 个地标的特征向量,$v_j^c$ 表示候选图片的第 j 个地标的特征向量。
此外,利用地标的几何形状作为惩罚因子来消除误匹配,使用Hu moments 来描述地标不规则的轮廓特征,具有旋转、平移及尺寸的不变性。
2.2.3 Geometric Similarity
将随机游走描述子矩阵M 进行级联转化为向量 G,然后计算两个图描述子向量之间的相似度: