Li, Ao, Jikai Wang, Meng Xu, and Zonghai Chen. “DP-SLAM: A Visual SLAM with Moving Probability towards Dynamic Environments.” Information Sciences 556 (May 1, 2021): 128–42. https://doi.org/10.1016/j.ins.2020.12.019.
1 Introduction
本文的贡献:
- 作者提出了一种通过实时传递每个关键点移动概率的动态物体检测方法,该移动概率传递方法克服了几何约束和语义信息的偏差,可提高vSLAM 的准确性与鲁棒性;
- 利用静态信息补全遮挡的背景区域,获取没有动态物体的合成RGB 图片以及相应的深度图片,有益于虚拟现实等应用;
- 作者将该移动物体检测方法集成至ORB-SLAM2 系统中,利用公开数据集进行测试,证明了本方法对SLAM 精度与鲁棒性的提高。
3 DP-SLAM
3.1 The approach overview
本文提出的移动物体检测算法流程图如Fig. 1所示:
本方法结合几何模型和语义分割进行动态物体检测,几何模型和语义分割的结果转化为观测概率,前一帧中关键点的移动概率被视为先验概率,基于贝叶斯理论,每个关键点的移动概率可通过观测概率和先验概率进行更新。
3.2 Semantic segmentation
本方法使用Mask R-CNN 网络获取像素级语义信息,将场景中的先验动态物体(人、自行车、汽车等)掩码生成到一张图片中;由于CNN 网络的精度限制,导致部分关键点分类错误的情况,特别是在物体轮廓边界附近,为了实现更精确的分类结果,作者使用二项式逻辑回归binomial logistic regression 模型来计算每个关键点的语义分割动态概率,如Fig. 3所示,掩码内具有低得不正常的移动概率(0.75)的关键点更有可能是识别错误的,应该是位于静态背景中的关键点。
用来估计关键点 $p_i$ 语义分割动态概率的二项式逻辑回归模型如下所示:
其中,$\alpha$ 为影响因子来平滑即时检测结果,本文中被设定为0.1;$dist(p_i, z_t)$ 为关键点 $p_i$ 与语义分割掩码边界之间的距离。上式的含义在于,位于先验动态物体掩码内的关键点距离边界越近,那么该关键点的语义分割动态概率越小,即该点被错误分类的可能性越高。
3.3 Epipolar geometry constraint
Mask R-CNN 网络是由COCO 数据集训练的,只能对预定义的种类进行识别,不能对其他物体进行检测,因此,作者额外使用对极几何约束来检测关键点的移动概率。如Fig. 4所示,计算当前帧匹配点与极线之间的距离判断该点的移动概率。
利用对极几何约束计算特征点的移动概率过程如算法1所示,具体步骤如下所示:
- 首先,通过计算当前帧的光流金字塔来获取匹配的关键点,剔除掉那些距离图片边缘过近或匹配点对之间像素差异过大的点;
- 然后,利用RANSAC 算法获取基础矩阵,在此基础上计算关键点距离极线的距离,若大于一定阈值(0.75)则判定为外点。
由于动态物体的存在,图片中每个关键点不会严格位于对应的极线上,距离越大,移动概率就越大;因此,作者假设关键点与其极线的距离满足高斯分布:
3.4 Iteratively moving probability update
持续跟踪动态物体会极大提高定位表现,因此,作者提出一种移动概率传递算法,从多帧图片中结合几何模型和语义分割信息进行动态物体检测。
定义关键点 $p_i$ 在时间 t 的运动状态为 $D_t(p_i)$ ,若该关键点被判定为动态点,则 $D_t(p_i)=1$ ,否则为0。结合来自语义模型和语义分割的移动概率 $P(D_t(p_i) | c_{p_i}^t), P(D_t(p_i) | s_{p_i}^t)$ :
其中,
其中,$N_c, N_s$ 分别表示几何模型、语义分割识别出当前帧中动态点的数量。
在这个过程中,作者假设动态概率传递模型拥有马尔可夫特性,则基于贝叶斯理论的关键点移动概率传递模型表示为:
观测概率表示为:
其中,
最后,将关键点移动概率 $P(D_t(p_i)|c_{p_i}^t, s_{p_i}^t) > 0.5$ 的关键点视为外点,在后续的跟踪制图进程中不再使用。
3.5 Background inpainting
在移除掉动态物体后,根据之前的静态观测来补全遮挡的背景区域,生成一个不包含动态物体的静态图片,该静态图片包含环境中的静态结构,有益于后续的回环检测和制图。
作者将本算法与其他类似的方法进行比较,结果如Fig. 10所示,证明了本算法的优势。