Yu, Peilin, Chi Guo, yang Liu, and Huyin Zhang. “Fusing Semantic Segmentation and Object Detection for Visual SLAM in Dynamic Scenes.” In Proceedings of the 27th ACM Symposium on Virtual Reality Software and Technology, 1–7. VRST ’21. New York, NY, USA: Association for Computing Machinery, 2021. https://doi.org/10.1145/3489849.3489882.
1 Introduction
本文针对SLAM 算法环境中存在的动态物体,结合物体检测和语义分割来获取潜在动态物体的先验轮廓,在此基础上应用几何约束实现对动态特征点的剔除。
本文做出的贡献:
- 提出一种自适应机制,使得系统可根据不同的环境选择使用语义分割还是物体检测;
- 提出一种静态点恢复技术,以减少可用静态点的损失,并使用光流和对极约束来检查物体的状态;
- 在公开数据集TUM 上进行评估,在高动态环境下实现了良好的表现。
3 Our Method
本文方法的架构如Fig. 1所示,利用自适应机制来切换物体检测分支和语义分割分支,然后结合几何约束技术实现对动态特征点的剔除。
3.1 Extract Semantic Information
在自适应机制模块中,作者通过多次实验得到一个阈值,来决定是否有必要使用语义分割进行处理:
- 如果得分超过这个阈值,说明动态物体占据了当前视野的较大部分。此时,需要进一步使用语义分割来尽可能地保留静态特征点(Fig. 2);
- 如果得分低于这个阈值,说明动态物体占据了当前视野地较小部分。此时,仅利用物体检测技术即可(Fig. 3)。
得分的计算方程:
其中,$f(u,v)$ 表示若像素被判定属于潜在动态物体则为1,否则为0;$P_I$ 表示所有像素数量。即,上式表示判定为动态物体像素占总体像素的比例。
3.2 Remove Dynamic Features
使用以下策略对动态特征点进行准确剔除:
3.2.1 Dynamic check
使用DS-SLAM 中的移动一致性检测来判断是否属于动态特征点:潜在动态物体内部的动态特征点超过一定阈值,则判定该物体是动态物体,并移除属于该物体的所有特征点。该策略同时应用于两个分支中。
3.2.2 Static point recovery
作者提出一个静态点恢复技术 static point recovery (SPR) 恢复bbox 内的部分静态点来增强系统的鲁棒性。对于物体检测网络处理过的图片,作者将潜在动态物体bbox 外部的点视为静态点,记为第一部分;bbox 内部的点视为潜在动态点,记为第二部分。SPR 技术是针对第二部分的特征点进行恢复操作的,具体操作步骤如下所示:
首先,利用第一部分(即静态特征点)中的所有特征点计算两两之间线段的距离,在相邻帧之间构建 line segment constraint,如Fig. 4所示,
所谓的 line segment constraint,作者认为静态特征点对之间的距离在相邻帧之间变化不大,则统计第一部分所有点对在相邻帧之间的距离变化值,用其平均值作为阈值 $\phi_t$ 。
然后,利用所有静态点和bbox 内的潜在动态点 $k$ 进行组合,计算潜在动态点 $k$ 的得分:
作者判定,若得分 $s_{k, t}$ 超过组合数量的一半,则判定潜在动态点 $k$ 为真实动态点并剔除,否则保留为静态特征点。SPR 效果如Fig. 5所示。