Zhang, Jun, Mina Henein, Robert Mahony, and Viorela Ila. “VDO-SLAM: A Visual Dynamic Object-Aware SLAM System,” 2020.
1 Introduction
作者提出了VDO-SLAM (Visual Dynamic Object-aware SLAM),一个基于Stereo/RGB-D 相机的动态SLAM 系统,利用图像语义信息同时实现机器人定位、静动态结构制图,并在场景中跟踪物体的运动。本文的贡献如下:
- 将动态场景建模为一个统一的估计框架,包括机器人位姿、静动态3D 点以及物体运动;
- 对动态物体 SE(3) 位姿变换的精确估计,并提取物体速度;
- 一个利用语义信息来跟踪移动物体的鲁棒方法,且能够处理由语义分割失败导致的间接遮挡。
3 Methodology
3.1 Background and Notation
本文的符号表示如Fig. 2所示,本文利用光流来发掘连续帧之间的联系。
作者根据物体特征点在物体上的位置不变的性质,得到特征点在全局参考坐标系下的运动模型:
其中,$^0_{k-1}H_k\in SE(3)$ 表示物体特征点在全局参考坐标系下的位姿转换(相当于物体的位姿变换)。上式是本文运动估计的核心所在,因为它从物体特征点的角度描述了物体的位姿变换,而不需要将物体的3D 位姿设定为一个随机变量。
3.2 Camera Pose and Object Motion Estimation
3.2.1 Camera Pose Estimation
通过最小重投影误差来估计相机位姿:
其中,$^0\mathbf{m}^i_{k-1}$ 表示在时间k-1 观测到的静态3D 点;$^{I_k}\tilde{\mathbf{p}}^i_k$ 表示在图片 $I_k$ 中相应的2D 点。
3.2.2 Object Motion Estimation
相似地,利用重投影误差来求解物体的运动估计 $^0_{k-1}H_k$ :
3.2.3 Joint Estimation with Optical Flow
跟踪移动物体上的特征点难度很大,比如当物体运动较大或相机距离物体较远的情况。因此,本文提出的技术目标在于同时对光流估计和运动估计进行优化。
3.3 Graph Optimization
作者将动态SLAM 问题建模为一个因子图优化,如Fig. 3所示,该因子图包含四种类型的观测信息:
- 3D 点测量(白色圆圈)
- 视觉里程计观测(黄色圆圈)
- 动态物体特征点运动(品红色圆圈):同一个动态物体上的特征点的位姿转换相同
- 物体平滑运动观测(靛蓝色圆圈):考虑相机帧率、物理规则会阻止相对大型物体(汽车)快速剧烈的运动,因此引入该平滑运动因子来最小化物体连续运动的改变
4 System
系统整体框架如Fig. 4所示,系统主要包含三个部分:Pre-processing, Tracking 以及 Mapping。
4.1 Pre-processing
该模块需要满足两个挑战:
- 区分静态背景与物体;
- 确保对动态物体的长期跟踪。
为了实现目标,作者使用实例分割与稠密光流估计。
其中,作者利用稠密光流估计来最大化动态物体的跟踪点数量,本方法利用稠密光流在语义掩码中的所有点进行采样来大幅增加物体特征点的数量;此外,稠密光流法通过对同一物体掩码内的所有点赋予一个独特的物体识别码,实现同时跟踪多个物体,且在实例分割失败的情况下可以恢复物体掩码。