Li, Jimmy, David Meger, and Gregory Dudek. “Semantic Mapping for View-Invariant Relocalization.” In 2019 International Conference on Robotics and Automation (ICRA), 7108–15. Montreal, QC, Canada: IEEE, 2019. https://doi.org/10.1109/ICRA.2019.8793624.

1 Introduction

本文使用了基于外观的几何特征与物体级语义特征的混合策略，主要贡献就是将传统视觉SLAM 和语义地标进行协同集成。

3 Method

3.1 Problem Statement

本文方法包含两个组件：

语义制图算法：跟踪物体帧间的3D 位姿变换，并产生包含物体的度量地图；
重定位算法：给定同一场景的两个语义地图，进行对齐并产生位姿变换。

3.2 Semantic Mapping

使用立方体来表示物体，包含9自由度：位置、朝向以及尺寸。

利用ORB-SLAM2 获取相机位姿，对物体检测算法处理过的图片中的物体进行三角化，通过基于采样的推理程序得到3D 立体框。为了简化3D 物体的几何推理，作者假定物体与场景布局是对齐的，场景布局包含三个正交轴。

3.2.2 Data Association

利用ORB-SLAM 获取关键帧的位姿后，将3D 物体地标投影至关键帧中得到相应 p 的bbox，关键帧中检测到的物体的bbox 记为 d，则定义p 与 d 之间的损失函数：

下标 $l, t, r, b$ 分别表示bbox 在像素坐标系中的左边、上边、右边、下边四条边。分母作用是归一化，防止较大物体的bbox 主导损失函数。

3.2.3 Object Pose Update

物体3D 框的复杂几何性质以及模糊的投影过程，会造成强烈的非凸性搜索空间；作者提出一种高效的搜索策略：

首先，在一个缩小的搜索空间中高效产生多个物体假设；
然后，利用它们在完整的搜索空间中快速探索多个局部最小值。

将位于物体上表面的中心点X 投影至图像平面，构建服从高斯分布的概率模型：

其中，$f_k$ 表示将3D 点X 投影至图片关键帧k 中。计算后验分布：

得到一组3D 采样点，然后将其视为上表面的中心点来形成相应的3D bbox，将方向与场景布局进行对齐，尺寸选择该物体的平均尺寸，由此形成完整的3D bbox 估计集合 L，假设 $o\in L$ 对应的假设为 $H_o$ ，路标 $o$ 对应的物体假设 $h$ 的得分为：

其中，$K_o$ 表示有 o 关联检测的所有关键帧集合；$\delta_k$ 表示在关键帧 $k$ 中的关联检测；$f_k$ 将物体假设 h 投影至关键帧 $k$ 中；损失函数 $c$ 由式1描述；$\Gamma$ 表示两个物体 $h, h’$ 在上下文环境中的相关性（如键盘和鼠标更有可能同时出现在一表面上）。

得到所有假设的得分之后，利用最高得分的假设（且必须比现有假设的得分更高）来更新每个路标。

3.2.4 Contextual Coherence

作者使用上下文约束来对物体的位姿估计进行正则化，以鼓励物体地标更符合典型的空间关系，作者之前的研究也证明了物体的共面性coplanarity 可视为对物体位姿估计的可靠约束。作者定义相关性函数 $\Gamma$ ：

其中，$BOTTOMDIST(h, h’)$ 给定两个3D bbox 的底面距离，$COPLANAR$ 指的是位于相同的表面上的两个物体。

3.3 Relocalization

给定两个包含一组物体地标的语义地图 $L_1, L_2$ ，重定位过程可通过下述公式解决：

其中，$\theta(o, L)$ 返回一组地标，地标位姿在坐标系 $o$ 中来表示；$\psi(s, L)$ 返回一组尺寸放大 $s$ 倍的地标；函数 $\Omega(L_1, L_2)$ 包含两个操作：

利用Hungarian 算法计算两组地标的最佳匹配；
对匹配结果进行内点识别，最终返回内点数量。

完成地图匹配之后即可得到两个相机轨迹之间的相对转换关系。

Echo's blog

论文记录 Semantic Mapping for View-Invariant Relocalization