0%

论文记录 View-Invariant Loop Closure with Oriented Semantic Landmarks

Li, Jimmy, Karim Koreitem, David Meger, and Gregory Dudek. “View-Invariant Loop Closure with Oriented Semantic Landmarks.” In 2020 IEEE International Conference on Robotics and Automation (ICRA), 7943–49. Paris, France: IEEE, 2020. https://doi.org/10.1109/ICRA40945.2020.9196886.

Abstract

作者使用物体标识与物体间几何关系来实现具有视角不变性的回环检测与偏移矫正。

use object identity and inter-object geometry for view-invariant loop detection and drift correction

此外,作者还提出了一个对物体方向进行估计的方法,来克服由于物体对称性造成的模糊度;最终,作者构建了可绘制带有几何细节语义地图(包含物体方向、距离与尺寸信息)的SLAM系统。

1 Introduction

作者在前作(Li 等, 2019)(使用物体地标进行视角不变性的重定位)的基础上,使用物体作为高等级的语义地标进行回环检测。

fig1

本文利用移动相机捕捉的多视角图像来估计物体的方向,进而解决物体对称性模糊度,这使得本系统可以匹配一个更大的环境来确定位姿。

2 Related Work

作者使用bounding cuboids这种可以很好容纳目标物体的表示方式来代表物体;且没有选择RGB-D 相机,而是使用更为常见的RGB 相机,有利于本系统的广泛应用。

作者利用SLAM 进行多视角物体方向推断;相较于已有的实例级别方法,作者是在种类级别category level进行方向估计的,允许系统在陌生环境中正常运行。

3 SLAM System

3.1 Overview

作者认为,基于基于外观的局部特征对于精确跟踪相机的局部位姿是有意义的,但对于大视角变化等明显改变场景外观的情况下不具有鲁棒性;而环境中的物体信息(如常见的家居用品)对于视角变化等情况具有较强的鲁棒性,但在缺少其他信息(如基于外观的局部特征)时难以得到利用,因为在图片平面中计算物体的精确位置是很困难的。因此,作者采取如下的混合策略:

  1. 使用基于外观的局部特征来跟踪相机局部位姿;
  2. 使用已知的相机位姿来简化物体在3D 空间中位姿的推断;
  3. 当相机在跨越长基线情况下需要进行回环检测或者重定位时,使用物体地标进行视角不变性的匹配。

作者在前作(Li 等, 2019)进行了重定位,本文针对回环检测进行研究。回环识别是通过对由于相机位姿漂移造成的重复物体进行匹配(包括物体标识与几何布局)而实现的。

fig2

3.2 Semantic Mapping

制图系统输入为RGB 图像流,输出为估计的相机轨迹,以及以9自由度bounding cuboids表示的物体地标,文章(Lin 等, 2021)借鉴了本文的9自由度bounding cuboids表示方法,包含位置、旋转以及尺寸信息。

本系统是以ORB-SLAM 为基础进行构建的,bounding box探测是由Faster-RCNN 完成的,且作者引入了一种实例级物体方向回归算法来提升制图系统的性能。

如Fig. 2所示,作者使用 expectation maximization (EM) 算法来更新物体地标:

  1. 物体地标投影到每个关键帧中,并与object detections 进行匹配;
  2. 将匹配到的detections 与关键帧相机位姿进行结合,进行三角测量并更新物体地标位姿;
  3. 没有与已知物体地标匹配成功的detections 初始化为新的地标。

3.3 Loop Detection

在长轨迹上进行语义地图绘制时,由于相机位姿漂移会造成重复物体地标被添加进语义地图中。本文系统是建立在ORB-SLAM基础上的,因此保留了其基于外观特征的回环检测,为了应对大视角变化场景下的回环检测,增加了额外的物体级回环检测机制:在制图环节的每一次EM迭代后,将最近添加的物体地标视为一组近期地标,并与早期的地标进行匹配。假设地标 lm 分别属于关键帧组合 $K_l, K_m$ (因为同一地标可能会出现在多个关键帧中),定义keyframe separation

f1

其中,$u - w$ 表示两个关键帧索引值(表示两个关键帧被加入地图中的次序)相减,定义一个阈值,若式 (1) 小于某个阈值则判定地标 lm 相近。定义一个集合 L,包含最新的地标 l 以及根据上式得到的与其距离相近的地标集合,目标是找到轨迹中之前遇到过的一组地标与 L 的子集拥有相似的空间分布,这样就可能找到了回环。由于物体地标的稀疏性,可以穷尽迭代所有可能的匹配。

3.4 Geometric Loop Verification

假设两组物体地标 $(l_1, l_2, l_3), (m_1, m_2, m_3)$ 实现了上节的初步匹配,进行如下的匹配测试:

3) Object layout

若要比较匹配物体的几何布局,需要使用一个共同的参考框架来描述物体,本文使用点来表示各个物体的坐标,基于两组物体地标 $(l_1, l_2, l_3), (m_1, m_2, m_3)$ 分别构建局部坐标系统 A 与 B ,然后计算包括旋转 R、平移 t 以及尺寸 s 的相似度转换,将A中的任意点 $p_l$ 映射到 B 中的相应位置 $p_m$ :

f2

将 $(l_1, l_2, l_3)$ 从 A 投影到 B 中,然后进行如下测试:

  • Scale consistency:尺度变化不能过大
  • Translational consistency:位置尺寸不能过大,由于单目RGB相机无法提供绝对距离,作者选取一个尺度归一化的距离进行判断;
  • Rotational consistency:物体方向不能差异过大。

3.5 Loop Correction

对于给定的回环检测,利用相似转换来将物体匹配与观测到这些物体地标的关键帧相机位姿进行对齐,并使用ORB-SLAM 的 essential graph optimizer 将矫正参数通过非线性最小二乘优化散发到所有关键帧,在此基础上更新语义地图。

对于每一个物体地标,选取一个观测到该地标的关键帧,计算该关键帧更新前后的相对位姿变换,并将该变换参数更新到地标位姿上去,使用EM算法细调所有的地标位姿。

4 Orientation Regression

4.1 Overview

Fig. 3展现了物体的对称性造成的物体方向回归算法不收敛的难题,作者在本文主要针对的是镜面对称问题,并简单讨论了圆柱对称问题。

fig3

4.2 Multi-view Orientation Inference

作者将视角球形分为几部分,其中任意部分的不同视角展现不同的外观,如Fig. 4所示,作者将视角分为4个象限,并对每一部分训练一个方向回归函数。

fig4

5 Experiments

5.1 Loop Closure

现有的SLAM数据集在回环检测方面基本上使用视角变化不大的同一场景照片,本方法的优势无法展现,故作者采用自采的数据集进行实验,回环检测图片使用的是具有较大视角变化的图片,结果如Fig. 6所示,实验使用5种立方物体(屏幕、键盘、手机、遥控器以及微波炉)、4种圆柱物体(水杯、瓶子、碗以及花盆绿植)作为地标物体并进行回环检测。

fig6

实验中漂移减少百分比定义如下:

f4

S是共同的起始位置坐标,E是本文方法估计的结束位置坐标,e是ORB-SLAM 估计的位置坐标。Table 1 展示了所有序列的偏移减少量。

t1