0%

论文记录 Semantic Monocular SLAM for Highly Dynamic Environments

Brasch, Nikolas, Aljaz Bozic, Joe Lallemand, and Federico Tombari. “Semantic Monocular SLAM for Highly Dynamic Environments.” In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 393–400. Madrid: IEEE, 2018. https://doi.org/10.1109/IROS.2018.8593828.

1 Introduction

作者通过结合基于特征法直接法,来实现动态环境中的鲁棒性。

本文的贡献:

  • 利用语义分割获取场景的语义信息,可检测潜在动态物体,并在后续跟踪中避免使用潜在动态物体上的特征点;
  • 提出一个概率模型,考虑观测到某个地图点的所有帧的语义信息来更新该地图点的语义类别;
  • 除了使用语义信息,还是用临时动作信息temporal dynamic information 来判断地图点是否是静态的;
  • 为了实现实时性能,作者设计了一个高效的在线概率更新方法
  • 作者在合成和实际场景中测试了本算法,证明了本算法在高动态场景中可以获取更稳定的结果。

fig1

3 Probabilistic Semantic SLAM

本系统是基于ORB-SLAM 开发的,整体架构如Fig. 2所示,

fig2

3.1 Pose estimation and mapping

鉴于ORB 特征点法和直接法的特点,作者会优先选择使用ORB 特征点法;而在特征点不充足的情况下(低纹理特征场景),使用直接法。包含重投影误差 $E_R$ 和光度误差 $E_P$ 的综合误差项如下所示:

f1

作者使用带有鲁棒Huber 核的高斯牛顿法来求解非线性最小二乘问题,并使用逆协方差来代表观测的不确定度;对于每个新的观测,使用下式进行协方差传递更新

f5

3.2 Probabilistic outlier rejection

在更新地图点的位置参数时,由于一些观测较其他观测更为可靠,因此,使用一个概率模型将观测的方差作为权重的方法要比所有观测使用相同权重的方法表现更好。作者使用参数 $\phi$ 表示地图点的内点概率(静态点的可能),这样,地图点除了位置参数外,还包含深度 d,内点概率 $\phi$ ,以及语义类别 c。

当地图点被观测到时,利用三角化计算深度估计值 $d_i$ ,以及估计的方差 $\tau_i^2$ 。作者用 $CNN(c_k | I_i) \in [0, 1]$ 表示CNN 网络输出结果,表示当前图片 $I_i$ 中该特征点属于类别 $c_k$ 的概率。特征点的深度观测似然概率如下所示:

f6

其中,$\alpha_i$ 表示匹配准确度;$\bar{x} = (1 - x)$ 。上式的内在机理为:若当前特征点正确匹配,且地图点是静态的,那么 $\alpha_i, \phi$ 接近于1,则深度估计 $d_i$ 近似服从高斯分布 $\mathcal{N}(\mu, \sigma^2)$ ;若当前匹配错误,或者特征点是动态的,则当前观测被认为服从均匀分布 $\mathcal{U}(a, b)$ ,在平均深度的估计中不提供任何有用的信息。与深度估计类似,作者将地图点的语义信息建模为网络输出 $CNN(c_k | I_i)$ 和错误匹配的均匀分布的混合:

f7

这使得地图点可以高效地在线更新,以及在动态和静态之间进行平滑转换

对于特征点的内点概率与语义类别的关系,可用Beta 分布来建模:

f8

其中,$A_k, B_k$ 是针对每种类别 k 的固定常数,表示种类 k 属于静态或动态的概率,如,对于汽车,$A_k$ 较低、$B_k$ 较高,意味着汽车具有较高的动态概率;此外,$A_k, B_k$ 还可以作为调整语义观测与深度观测之间的权重参数:较高的$A_k, B_k$ 会给予语义先验较运动先验在内点概率估计中更高的权重。

Fig. 3给出了深度信息、内点概率和语义类别联合概率模型的依赖图:

fig3

近似推导可得到一个结合三项的后验概率

f9

其中,第一项将深度视为高斯分布;第二项为内点概率服从关于深度观测信息的Beta 分布;第三项为内点概率服从关于语义类别的Beta 分布;$D = \{d_1, …, d_N\}$ 表示深度观测信息;$S = \{s_1, …, s_N\}$ 表示语义观测信息,其中,$s_i = (CNN(c_1|I_i), …, CNN(c_K|I_i))$ 为CNN 网络在K 个类别上的概率密度

当前内点概率可通过下式计算得到:

f15

3.3 Real-time semantic segmentation

高动态场景中,图片内容会快速发生变化,因此需要在每一帧中提取新的关键点来保持足够多的数量进行跟踪,为了让每个新的地图点得到一致的语义观测,作者对所有帧进行语义分割。作者使用ICNet 进行语义分割。