融合视频目标检测与单目标、多目标跟踪，港中文开源视频感知平台

机器之心Pro 08-07 3516

前言：

此时各位老铁们对“sort追踪”都比较关切，我们都需要剖析一些“sort追踪”的相关内容。那么小编也在网上搜集了一些对于“sort追踪””的相关知识，希望兄弟们能喜欢，看官们一起来了解一下吧！

机器之心报道

编辑：魔王

香港中文大学多媒体实验室（MMLab）OpenMMLab 开源一体化视频目标感知平台 MMTracking。

新年伊始，香港中文大学多媒体实验室（MMLab）OpenMMLab 又有新动作，发布了一款一体化视频目标感知平台 MMTracking。该框架基于 PyTorch 写成，支持单目标跟踪、多目标跟踪与视频目标检测，目前已开源。

GitHub 地址：

MMTracking 效果展示。

据介绍，MMTracking 具备以下主要特性：

1. 首个开源一体化视频目标感知平台

对视频内的目标进行感知识别一直是学界、业界都非常关心的问题。这个问题在学界常被细分为不同的子问题，比如视频目标检测、多目标跟踪与单目标跟踪。具体来说，

视频目标检测只需对视频内的每一帧进行检测，不要求对不同帧中的同一目标进行关联。

多目标检测在完成视频目标检测的基础上，更加侧重于对视频内的同一目标进行关联。

单目标跟踪更加侧重人机交互，算法需要在给定一个任意类别、任意形状目标的情况下，对其进行持续跟踪。

近几年来，虽然各个任务都涌现了许多优秀的算法，但这些领域仍然缺少开源的代码框架，给代码复现、借鉴、公平对比带来了很大困难。OpenMMLab 将这些任务融合到了同一框架下，希望能够作为开源的一体化视频目标感知平台，推动不同子领域间的融合、互促与发展。

2. OpenMMLab 内部项目间的充分交互

视频目标感知在大部分情况下可以认为是 2D 目标检测的下游任务，十分依赖各种 2D 目标检测算法。在此之前，如何使用或切换不同的 2D 目标检测器其实是一个很烦琐耗时的任务。

MMTracking 充分利用了 OpenMMLab 其他平台的成果与优势，比如它 import 或继承了 MMDetection 中的大部分模块，极大地简化了代码框架。在这种模式下，通过 configs 可以直接使用 MMDetection 中的所有模型。以多目标跟踪举例，每一个多目标跟踪模型多由以下几个模块组成：

Configs 示例：

现阶段的 ReID 模型也继承了 MMClassification 中的一些模块并将在后期增加其他支持。

受益于 OpenMMLab 的这种模块化设计，MMTracking 可以利用其他图像级平台的已有成果，从而只需要注重视频部分模块的设计与开发。同时，如果用户需要单独训练一个目标检测器，该工具也支持直接使用 MMDetection 的 configs 进行训练，只需要在 config 中添加一句 USE_MMDET=True 即可将模式切换到 MMDetection 下，进行前序模型训练。

3. 高效、强大的基准模型

视频目标感知领域中的不同方法往往各成一派，缺乏公认的训练方法与准则，因此在很多时候很难做到真正的公平对比。

MMTracking v0.5 复现了各个领域的主流算法，包括：

视频目标检测：DFF、FGFA、SELSA

多目标跟踪：SORT、DeepSORT、Tracktor

单目标跟踪：SiameseRPN++

据 OpenMMLab 知乎文章介绍，MMTracking 在保证高效训练与推理的基础上，有些模型甚至超出官方实现，例如：

对视频目标检测算法 SELSA 的实现结果（第一行）相比于官方实现（第二行），在 ImageNet VID 数据集上 mAP@50 超出 1.25 个点。

对多目标跟踪算法 Tracktor 的实现结果（第一行）相比于官方实现（第二行），在 MOT17 数据集上 MOTA 超出 4.9 个点，IDF1 超出 3.3 个点。

对单目标跟踪算法 SiameseRPN++ 的实现结果（第一行）相比于官方实现（第二行），在 LaSOT 数据集上的 Norm precision 超出 1.0 个点。

本文地址：http://www.longkongtuishu.com/ca00dBA1sBFcOD1xU.html

标签： #sort追踪