0%

论文记录 Multimodal Semantic SLAM with Probabilistic Data Association

Doherty, Kevin, Dehann Fourie, and John Leonard. “Multimodal Semantic SLAM with Probabilistic Data Association.” In 2019 International Conference on Robotics and Automation (ICRA), 2419–25. Montreal, QC, Canada: IEEE, 2019. https://doi.org/10.1109/ICRA.2019.8794244.

Abstract

语义SLAM 可被分解为:

  • 一个离散的推理问题:决定物体种类与观测地标之间的联系(data association, DA)
  • 一个连续的推理问题:获取机器人的位姿和地标的位置。

在模糊的DA 情况下,语义SLAM 通常不是一个高斯推理过程,现有的工作多是基于潜在的假设或者使用多重可能假设进行求解的。而作者提出了一种将DA 假设表示为一种等效非高斯模型的多模态形式的解算方法。

1 Introduction

如图1所示,即便那些可以用高斯分布表示的观测模型在DA 和地标种类模糊的情况下也可以使用一个非高斯观测模型来表示。

fig1

本文做出的贡献:

  1. 提出一个nonparametric belief propagation 方法,为带有模糊DA 的语义SLAM 进行后验推理
  2. 描述了multimodal semantic factors ,使得我们可以将不确定性包含到DA 和语义中,作为因子图中的非高斯因子,从而利用mm-iSAM (multimodal incremental smoothing and mapping) 进行位姿与地标的连续优化
  3. 在仿真与真实数据集中进行实验,证明了该方法在DA 和地标种类模糊方面的鲁棒性。

3 Semantic SLAM with Ambiguous Data Association

3.1 Semantic SLAM with Known Data Association

本文使用最大后验估计理论进行求解:

f2

3.2 Probabilistic Data Association

为解决带有模糊DA 的语义SLAM 问题,作者分两步交替计算DA 概率与位姿、地标位置:

第一步,边缘化位姿与地标来计算DA 概率:

f7

其中,$\eta_{\mathcal{D}}$ 为归一化常数;$\Theta = \{\mathcal{X}, \mathcal{L}\}$ 分别表示相机位姿与地标

第二步,边缘化DA 来获取位姿与地标的分布:

f8

作者只在接收到观测之后进行一次迭代的DA 概率计算,从而减少了计算负担。

4 Multimodal Semantic SLAM

4.1 Multimodal iSAM

SLAM 中的因子图表示为:

f10

其中,$\varphi$ 表示观测因子,$\psi$ 表示先验因子。这里,因子图是一个间接的图模型,位姿与地标是被观测因子与先验因子连接起来的隐变量。每个变量的边缘分布可以使用belief propagation 进行解算,该方法在变量服从高斯分布时可以产生方便的分析形式。

multimodal iSAM 利用nonparametric belief propagation 来容纳非高斯变量,该方法在没有高斯假设的情况下,使用Gibbs 采样和kernel density estimation 组合方法来近似所有连续状态变量的置信度。对于随机变量X:

f11

其中,$\mathcal{N}$ 是多元高斯核 multivariate Gaussian kernel,每个核的中心位于一个采样 $x^{[n]}$ , $w^{[n]}$ 是相应核的权重(采用均匀分布),而 $\sum^{[n]}$ 是相应高斯核的带宽,通过leave-one-out 交叉验证来获取。

该方法的一个好处在于,在后验估计中不再需要直接表示多种潜在可能的modes,这种隐含表示将推理的复杂度从假设数量中解耦了出来,因为在近似边缘化中的计算只依赖于采样的固定数量。结果就是,具有非常低概率的modes 在近似边缘分布中不太可能会出现,但是这些modes 也不会直接被舍弃,会继续存在于因子图中,这样那些后面变得更有可能的modes 可以得到恢复

3.2 Multimodal Semantic Factors

设定一个语义观测模型因子为

$p(y_t^k | x_t, l_j) = p(y_t^{k,c} | l_j^c)p(y_t^{k,r} | x_t, l_j)p(y_t^{k,b} | x_t, l_j)$

其中,$y_t^{k,c}$ 表示路标类别,通过物体检测网络获取;$y_t^{k,r}$ 表示到路标的距离;$y_t^{k,b}$ 表示物体的方位

假设 $p(y_t^{k,r} | x_t, l_j), p(y_t^{k,b} | x_t, l_j)$ 服从高斯分布,均值与方差分别为 $y_t^{k,r}$ ,$y_t^{k,b}$ 和 $\sigma_t^{2,k,r}, \sigma_t^{2,k,b}$ 。

假设一个统一的先验DA:

f12

其中,$\mathbb{D}\{d_t^k = j\} = \{\mathcal{D}_t \in \mathbb{D}_t | d_t^k = j\}$ 表示在时间t 所有可能的数据关联集合,其中观测 k 与地标 j 相关联。

在给定数据关联 $d_t^k$ 情况下边缘化位姿估计、地标位置和种类,来计算每个观测 $y_t^k$ 的似然:

f13

上式中,使用采样来逼近位姿分布上的积分计算,对于DA 计算,作者采纳了一个最大似然模型来简化地标位置的积分计算,作者发现该方法在高斯分布模型上效果很好,对于非高斯模型可以使用基于采样的逼近策略来近似。

对于属于集合 $\mathcal{J} \subseteq\mathcal{L}$ 中的所有地标 $l_j$ ,给定 $\hat{p}(d_t^k = j)$ ,一个multimodal 语义因子将位姿 $x_t$ 与 $\mathcal{J}$ 中的每一个候选联系起来:

f14