0%

论文记录 Towards Real-time Semantic RGB-D SLAM in Dynamic Environments

Ji, Tete, Chen Wang, and Lihua Xie. “Towards Real-Time Semantic RGB-D SLAM in Dynamic Environments.” In 2021 IEEE International Conference on Robotics and Automation (ICRA), 11175–81. Xi’an, China: IEEE, 2021. https://doi.org/10.1109/ICRA48506.2021.9561743.

1 Introduction

本文做出的贡献:

  • 提出一个基于关键帧的语义RGB-D SLAM 系统,可以减少动态环境中移动物体的影响;
  • 提出一个高效的几何模块,与语义SLAM 框架相结合来处理未知的移动物体
  • 通过实验证明本算法可在嵌入式系统中实时运行,同时可实现与SOTA 方法相当的精度。

3 Proposed Method

本系统是基于ORB-SLAM2 算法的,系统框架如下图所示:

fig2

3.1 Semantic Module

考虑到精度与速度的平衡,作者选用SegNet 作为语义分割的网络;为了进一步实现实时处理性能,作者只对关键帧进行语义分割,将潜在动态物体(如人、汽车、自行车等)上的特征点进行剔除;值得注意的是,作者并不进一步使用几何模块对潜在动态物体的真实运动情况进行确认,而是认为,对于长期一致的制图目的而言,即便这些潜在动态物体在某些时刻是静态的,但是长远考虑的话它们并不可靠,所以作者直接将这些潜在动态物体进行剔除。

3.2 Geometry Module

语义分割只能对训练时的标记种类进行识别,无法对未知类别的物体进行识别,因此,作者引入几何模块来对未知动态物体进行检测。

作者首先利用K-Means 算法将深度图中的点分割为N 个集群,3D 空间中距离较近的点被分为一组集群;作者假设每个集群属于一个物体表面,且同一集群内的点的运动状态一致。因为同一个物体可能被分为几个不同的集群,所以本算法中的物体可以不满足刚体假设

对于每个集群 $c_j$ ,作者计算该集群内所有特征点 $\mathbf{u}_i’$ 与其在3D 空间中的关联点 $\mathbf{P}_i$ 之间的重投影误差,求得集群内的重投影误差均值 $r_j$ :

f1

其中,$\rho$ 是正则化方程(惩罚方程)。如果某个集群的平均重投影误差相较于其他集群更大,则标记该集群是动态的,并移除掉属于该集群的所有特征点。部分实验结果如Fig. 3所示,观察可得,在部分情况下语义分割会出现识别失败或错误的现象,而此时几何模块可以正常识别出动态物体。

fig3

3.3 Keyframe and Local Map Update

由于一帧图片是使用关键帧局部地图进行跟踪的,所以只需要确保关键帧和局部地图中只有静态特征点即可。当一个新的关键帧被选取后,利用语义分割识别出动态特征点,局部地图中也会同步移除相应的动态地图点,由此,可以保持一个只包含静态特征与地图点的数据库。

3.4 Tracking

本系统对每一帧新图片的跟踪采用类似于ORB-SLAM2 的两步法

  1. 首先,利用当前帧和与当前帧有最大重合区域的关键帧进行初始位姿估计,因为关键帧已经移除了潜在动态物体,所以初始位姿估计更可靠
  2. 然后,几何模块利用初始位姿估计进行动态物体检测,并从当前帧中移除所有的动态特征点,在此基础上跟踪当前帧中所有观测到的地图点进行局部BA 优化,获取最终的位姿估计。