Li, Jimmy, David Meger, and Gregory Dudek. “Semantic Mapping for View-Invariant Relocalization.” In 2019 International Conference on Robotics and Automation (ICRA), 7108–15. Montreal, QC, Canada: IEEE, 2019. https://doi.org/10.1109/ICRA.2019.8793624.
1 Introduction
本文使用了基于外观的几何特征与物体级语义特征的混合策略,主要贡献就是将传统视觉SLAM 和语义地标进行协同集成。
3 Method
3.1 Problem Statement
本文方法包含两个组件:
- 语义制图算法:跟踪物体帧间的3D 位姿变换,并产生包含物体的度量地图;
- 重定位算法:给定同一场景的两个语义地图,进行对齐并产生位姿变换。
3.2 Semantic Mapping
使用立方体来表示物体,包含9自由度:位置、朝向以及尺寸。
利用ORB-SLAM2 获取相机位姿,对物体检测算法处理过的图片中的物体进行三角化,通过基于采样的推理程序得到3D 立体框。为了简化3D 物体的几何推理,作者假定物体与场景布局是对齐的,场景布局包含三个正交轴。

3.2.2 Data Association
利用ORB-SLAM 获取关键帧的位姿后,将3D 物体地标投影至关键帧中得到相应 p 的bbox,关键帧中检测到的物体的bbox 记为 d,则定义p 与 d 之间的损失函数:

下标 $l, t, r, b$ 分别表示bbox 在像素坐标系中的左边、上边、右边、下边四条边。分母作用是归一化,防止较大物体的bbox 主导损失函数。
3.2.3 Object Pose Update
物体3D 框的复杂几何性质以及模糊的投影过程,会造成强烈的非凸性搜索空间;作者提出一种高效的搜索策略:
- 首先,在一个缩小的搜索空间中高效产生多个物体假设;
- 然后,利用它们在完整的搜索空间中快速探索多个局部最小值。
将位于物体上表面的中心点X 投影至图像平面,构建服从高斯分布的概率模型:

其中,$f_k$ 表示将3D 点X 投影至图片关键帧k 中。计算后验分布:

得到一组3D 采样点,然后将其视为上表面的中心点来形成相应的3D bbox,将方向与场景布局进行对齐,尺寸选择该物体的平均尺寸,由此形成完整的3D bbox 估计集合 L,假设 $o\in L$ 对应的假设为 $H_o$ ,路标 $o$ 对应的物体假设 $h$ 的得分为:

其中,$K_o$ 表示有 o 关联检测的所有关键帧集合;$\delta_k$ 表示在关键帧 $k$ 中的关联检测;$f_k$ 将物体假设 h 投影至关键帧 $k$ 中;损失函数 $c$ 由式1描述;$\Gamma$ 表示两个物体 $h, h’$ 在上下文环境中的相关性(如键盘和鼠标更有可能同时出现在一表面上)。
得到所有假设的得分之后,利用最高得分的假设(且必须比现有假设的得分更高)来更新每个路标。
3.2.4 Contextual Coherence
作者使用上下文约束来对物体的位姿估计进行正则化,以鼓励物体地标更符合典型的空间关系,作者之前的研究也证明了物体的共面性coplanarity 可视为对物体位姿估计的可靠约束。作者定义相关性函数 $\Gamma$ :

其中,$BOTTOMDIST(h, h’)$ 给定两个3D bbox 的底面距离,$COPLANAR$ 指的是位于相同的表面上的两个物体。
3.3 Relocalization
给定两个包含一组物体地标的语义地图 $L_1, L_2$ ,重定位过程可通过下述公式解决:

其中,$\theta(o, L)$ 返回一组地标,地标位姿在坐标系 $o$ 中来表示;$\psi(s, L)$ 返回一组尺寸放大 $s$ 倍的地标;函数 $\Omega(L_1, L_2)$ 包含两个操作:
- 利用Hungarian 算法计算两组地标的最佳匹配;
- 对匹配结果进行内点识别,最终返回内点数量。
完成地图匹配之后即可得到两个相机轨迹之间的相对转换关系。