首页 > 其他分享> > MOT 综述-Multiple Object Tracking: A Literature Review

MOT 综述-Multiple Object Tracking: A Literature Review

2021-05-24 15:52:03 作者：互联网

ref：https://leijiezhang001.github.io/MOT-%E7%BB%BC%E8%BF%B0-Multiple-Object-Tracking-A-Literature-Review/

这篇文章比较广义，不是针对3D tracking的，知识互通，可以学习一下。

本文的主要贡献点如下四条：1）多目标跟踪系统的关键方向，包括公式(formulation)，分类(categorization)，关键原则(key principles)，以及测评(evaluation)；2）根据现有技术所属的不同方向来进行讨论，再将每个方向的方法划分为成组，然后对组内方法的原则、优缺点进行讨论；3）检验现有公开的实验并且总结在主流数据集上的实验结果，再进行量化地对比，与此同时指出分析中发现的几个有趣的问题；4）提供在MOT研究中会遇到的问题的讨论，以及可能在以后的工作中会出现的潜在可研究方向。

MOT作为一个中层任务，是一些高层任务的基础，比如行人的pose estimation，action recognition，behavior analysis，车辆的state estimation。

SOT（单目标跟踪）主要关注appearance model以及motion model的设计，解决尺度、旋转、光照等影响因素。而MOT包含两个任务：目标数量以及目标ID，这就要求MOT还需要解决其他问题：

frequent occlusions；

initialization and termination of tracks;

similar appearance;

interactions among multiple objucts;

1 问题描述

2 分类方法

- initialization method
  初始化方式分为：
  　∘∘　Detection-Based Tracking，优势明显，除了只能处理特定的目标类型；
  　∘∘　Detection-Free Tracking，能处理任何目标类型；
- processing mode
  根据是否使用未来的观测，处理方式可分为：
  　∘∘　online tracking，适合在线任务，缺点是观测量会比较少；
  　∘∘　offline tracking，输出结果存在时延，理论上能获得全局最优解；
- type of output
  根据问题求解方式输出是否存在随机性：
  　∘∘　probabilistic inference，概率性推断；
  　∘∘　deterministic inference，求解最大后验概率；
  
  自动驾驶等在线任务主要关注 Detection-Based，online tracking。

3 框架

MOT主要考虑两个问题：

目标在不同帧之间的相似度量，即对appearance，motion，interaction，exclusion，occlusion的建模。

恢复出目标的ID，即inference过程；

3.1 Visual Representation

3.1.1. Visual Representation

　　视觉表达即目标的特征表示方式：

local features
本质上是点特征，点特征由 corner+descriptor(角点+描述子) 组成。KLT(good features to track)在 SOT 中应用广泛，用它可以生成短轨迹，估计相机运动位姿，运动聚类等；Optical Flow也是一种局部特征，在数据关联之前也可用于将检测目标连接到短轨迹中去。
region features
在一个块区域内提取特征，根据像素间作差的次数，可分为：
- zero-order, color histogram & raw pixel template
- first-order, HOG & level-set formulation(?)
- up-to-second-order, Region covariance matrix
others
其它特征本质上也需要 local 或 region 的方式提取，只是原始信息并不是灰度或彩图。如 depth,probabilistic occupancy map, gait feature.

　　Local features，比如颜色特征，在计算上比较高效，但是对遮挡，旋转比较敏感；Region features 里，HOG 对光照有一定的鲁棒性，但是对遮挡及形变效果较差；Region covariance matrix 更加鲁棒，但是需要更高的计算量；深度特征也比较有效，但是需要额外的获取深度信息的代价。

3.3. Interaction Model

3.3.1. Social Force Models

Individual Force
- fidelity, 目标不会改变它的目的地方向；
- constancy, 目标不会突然改变速度和方向；
Group Force
- attraction, 目标间应该尽量靠近；
- repulsion, 目标间也得保留适当的距离；
- coherence, 同一个 group 里面的目标速度应该差不多；

3.3.2. Crowd Motion Pattern Models

　　当一个 group 比较密集的时候，单个目标的运动模型不太显著了，这时候群体的运动模型更加有效，可以用一些方法来构建群体运动模型。

3.4. Exclusion Model

3.4.1. Detection-level

　　同一帧两个检测量不能指向同一个目标。匹配 tracklets 时，可以将这一项作为惩罚项。不过目前的检测技术都做了 NMS，基本可以消除这种情况。

3.4.2. Trajectory-level

　　两个轨迹不能非常靠近。对于 online tracking 来说，就是 tracking 结果的两个量不能挨在一起，如果挨在一起，就说明有问题，比如遮挡，或跟丢。

3.5. Occlusion Handling

Part-to-whole, 将目标分成栅格来处理；
Hypothesize-and-test,
Buffer-and-recover, 在遮挡产生前，记录一定量的观测，遮挡后恢复；
Others

3.6.2. Deterministic Optimization

　确定性优化法需要至少一个时间窗口的观测量，所以适合 offline tracking 任务。优化方法有：

Bipartite graph matching
Dynamic Programming
Min-cost max-flow network flow
Conditional random field
MWIS(Maximum-weight independent set)

4. 评价方法

　　评价方法是非常重要的，一方面对算法系统进行调参优化，另一方面比较各个不同算法的优劣。评价方法 (evaluation) 包括评价指标 (metrics) 以及数据集 (datasets)，多类别的数据集主要有：

MOT Challenge
KITTI

评价指标可分为：

A. 检测指标
　◊◊　准确性(Accuracy)

Recall & Precision
False Alarme per Frame(FAF) rate, from paper
False Positive Per Image(FPPI), from paper
MODA(Multiple Object Detection Accuracy), 包含了 false positive & miss dets. from paper

　◊◊　精确性(Precision)

MODP(Multiple Object Detection Precision), 衡量检测框与真值框的位置对齐程度；from paper

B. 跟踪指标
　◊◊　准确性(Accuracy)

ID switches(IDs), from paper
MOTA(Multiple Object Tracking Accuracy), 包含了FP，FN，mismatch；from paper

　◊◊　精确性(Precision)

MOTP(Multiple Object Tracking Precision), from paper
TDE(Tracking Distance Error), from paper
OSPA(optimal subpattern assignment), from paper

　◊◊　完整性(Completeness)

MT, the numbers of Mostly Tracked, from paper
PT, the numbers of Partly Tracked
ML, the numbers of Mostly Lost
FM, the numbers of Fragmentation

　◊◊　鲁棒性(Robustness)

RS(Recover from Short-term occlusion), from paper
RL(Recover from Long-term occlusion)

5. 总结

5.1. 还存在的问题

　　MOT 算法模块较多，参数也较复杂，但是最依赖于检测模块的性能，所以算法间比较性能时，需要注意按模块进行变量控制。

5.2. 未来研究方向

- MOT with video adaptation，检测模块式预先训练的，需要在线更新学习；
- MOT under multiple camera: ∘∘　multiple views，不同视野相同场景信息的记录， ∘∘　non-overlapping multi-camera，不同视野不同场景的 reidentification；
- Multiple 3D object tracking，能更准确预测位置，大小，更有效处理遮挡；
- MOT with scene understanding，拥挤场景，用场景理解来有效跟踪；
- MOT with deep learning
- MOT with other cv tasks，和其他任务融合，比如目标分割等；

不要怕，不要悔

https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E8%AF%A6%E8%A7%A3/

https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E5%99%A8%E5%9C%A8%E4%B8%89%E7%BB%B4%E7%9B%AE%E6%A0%87%E7%8A%B6%E6%80%81%E4%BC%B0%E8%AE%A1%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8/

标签：Literature,Multiple,Review,E6%,目标,tracking,paper,MOT
来源： https://blog.51cto.com/u_15221047/2807359