Zhang, Jun, Mina Henein, Robert Mahony, and Viorela Ila. “VDO-SLAM: A Visual Dynamic Object-Aware SLAM System,” 2020.

1 Introduction

作者提出了VDO-SLAM (Visual Dynamic Object-aware SLAM)，一个基于Stereo/RGB-D 相机的动态SLAM 系统，利用图像语义信息同时实现机器人定位、静动态结构制图，并在场景中跟踪物体的运动。本文的贡献如下：

3 Methodology

本文的符号表示如Fig. 2所示，本文利用光流来发掘连续帧之间的联系。

作者根据物体特征点在物体上的位置不变的性质，得到特征点在全局参考坐标系下的运动模型：

其中，$^0_{k-1}H_k\in SE(3)$ 表示物体特征点在全局参考坐标系下的位姿转换（相当于物体的位姿变换）。上式是本文运动估计的核心所在，因为它从物体特征点的角度描述了物体的位姿变换，而不需要将物体的3D 位姿设定为一个随机变量。

通过最小重投影误差来估计相机位姿：

其中，$^0\mathbf{m}^i_{k-1}$ 表示在时间k-1 观测到的静态3D 点；$^{I_k}\tilde{\mathbf{p}}^i_k$ 表示在图片 $I_k$ 中相应的2D 点。

相似地，利用重投影误差来求解物体的运动估计 $^0_{k-1}H_k$ ：

跟踪移动物体上的特征点难度很大，比如当物体运动较大或相机距离物体较远的情况。因此，本文提出的技术目标在于同时对光流估计和运动估计进行优化。

作者将动态SLAM 问题建模为一个因子图优化，如Fig. 3所示，该因子图包含四种类型的观测信息：

系统整体框架如Fig. 4所示，系统主要包含三个部分：Pre-processing， Tracking 以及 Mapping。

该模块需要满足两个挑战：

为了实现目标，作者使用实例分割与稠密光流估计。

其中，作者利用稠密光流估计来最大化动态物体的跟踪点数量，本方法利用稠密光流在语义掩码中的所有点进行采样来大幅增加物体特征点的数量；此外，稠密光流法通过对同一物体掩码内的所有点赋予一个独特的物体识别码，实现同时跟踪多个物体，且在实例分割失败的情况下可以恢复物体掩码。