龙空技术网

在密集人群中追踪行人头部

小小cv笔记 8634

前言:

而今小伙伴们对“行人跟踪算法原理”可能比较关切,我们都需要了解一些“行人跟踪算法原理”的相关文章。那么小编在网上汇集了一些有关“行人跟踪算法原理””的相关资讯,希望朋友们能喜欢,咱们一起来了解一下吧!

论文收录于CVPR2021

论文题目:

Tracking Pedestrian Heads in Dense Crowd

论文地址:

摘要

在拥挤的视频序列中跟踪人类是视觉场景理解的一个重要组成部分,不断增加的人群密度挑战了人类的可见性,限制了现有的行人跟踪器的可扩展性,以适应更高的人群密度,由于这个原因,我们提议用人群头部数据集(CroHD)来恢复头部跟踪,它由9个序列11463帧,超过2,276,838个头部和5230个轨迹注释在不同的场景中组成,对于评估,我们提出了一个新的度量,IDEucl,来衡量算法在图像坐标空间中最长时间内保持唯一标识的有效性,从而建立行人人群运动和跟踪算法性能之间的对应关系。

此外,我们还提出了一种新的头部检测器HeadHunter,用于拥挤场景下的小头部检测,我们用粒子过滤器和基于颜色直方图的重新识别模块扩展HeadHunter,用于跟踪头部,为了建立一个强有力的基线,我们将我们的跟踪器与CroHD上现有的最先进的行人跟踪器进行了比较,并证明了其优越性,特别是在身份保留跟踪指标方面,轻巧的头部侦测器和有效保存身份的追踪器,我们相信我们的贡献将有助于在密集人群中追踪行人。

1. 介绍

跟踪多个目标,尤其是人,是视觉场景理解中的一个核心问题,这一任务的复杂性随着需要跟踪的目标的增加而增加,并且仍然是一个开放的研究领域,与计算机视觉的其他子领域一样,随着深度学习的出现,多目标跟踪(MOT)任务自开始以来已经显著提高了其基准,在最近的过去,mot挑战基准的重点已经转移到跟踪密度更高的人群中的行人,应用于活动识别、异常检测、机器人导航、视觉监控、安全规划等领域,然而,跟踪器在这些基准上的表现显示出饱和趋势。目前,大多数在线跟踪算法都遵循基于检测的跟踪范式,一些研究工作已经证实,目标检测器的性能对跟踪器的性能至关重要,随着场景中行人密度的增加,行人的能见度随着相互遮挡的增加而降低,如图1所示,导致行人检测的减少。

为了应对这些挑战,同时在密集拥挤的环境中有效地跟踪人类,我们重新点燃MOT的任务,通过人类明显可见的部分—头部来跟踪人类,为此,我们提出了一个新的数据集,CroHD, Crowd of Heads dataset,由9个序列11463帧组成,头部边界框注释用于跟踪,我们希望这个新的数据集为未来有前途的研究提供机会,以便更好地理解密集人群中的全球行人运动,作为补充,我们开发了两个新的基线在CroHD上,一个头部探测器HeadHunter和一个头部追踪器HeadHunter- t,我们设计了专门用于拥挤环境中的头部检测的HeadHunter,与标准的行人检测器不同,并在现有的头部检测数据集上演示了最先进的性能。

HeadHunter-t扩展了HeadHunter的粒子过滤框架和用于头部跟踪的轻量级再识别模块,为了验证HeadHunter-T是一个强大的基线跟踪器,我们将其与三种在拥挤的mot挑战基准测试中表现最好的行人跟踪器进行了比较,并在CroHD上进行了评估,我们进一步在头部检测跟踪和身体检测跟踪之间进行比较,以说明我们的贡献的有效性。

为了建立跟踪算法和行人运动之间的对应关系,有必要了解各种跟踪器在成功表示真实行人轨迹方面的充分性,因此,我们提出了一种新的度量,IDEucl,以评估跟踪算法在图像坐标空间中对地面真相轨迹的最长长度保持相同恒等式的一致性,IDEucl与我们的数据集兼容,可以扩展到任何跟踪基准,用静态相机记录。

总结而言,本文的贡献如下(i)我们提出了一个新的数据集CroHD,带有注释的行人头部用于在密集人群中跟踪,(ii)我们提出了一个CroHD的基线头部检测器HeadHunter, (iii)我们开发了HeadHunter-t,通过扩展HeadHunter作为CroHD的基线头部跟踪器,(iv)我们提出了一个新的度量,IDEucl,以评估跟踪器在表示真值轨迹方面的效率,最后,(v)通过与CroHD上现有的三种最先进的跟踪器进行比较,我们证明HeadHunter-T是一个强有力的基线。

2. 相关工作

头部检测基准 头部检测最早的基准提供好莱坞电影中主题的ground truth头部注释,在最近,SCUT-Head和CrowdHuman数据集提供了拥挤场景中的人类头部注释,头部检测在人群计数和分析中也具有重要意义,Rodriguez等人介绍了通过头部检测跟踪的想法,他们的数据集由大约2200个头部注释组成,近年来,试图缩小检测与人群计数之间差距的研究作品激增,试图在拥挤的场景中产生假象的头部真实边界框。

头部检测方法 头部检测从根本上来说是一个多尺度和上下文目标检测问题的结合,多尺度的对象基于图像金字塔或特征金字塔进行检测,前者是需要多次图像前向传递的计算密集型任务,而后者在一次前向传递中生成多个金字塔,背景对象检测在人脸检测的文献中得到了广泛的研究,这些文献通过使用更大的接受尺寸的卷积滤波器来建模上下文,显示出了更高的检测精度,Sun等人将这种上下文和尺度不变量应用于头部检测。

跟踪基准和评估 多目标跟踪(MOT)的任务是跟踪视频序列中初始数量未知的目标,第一个用于跟踪人类的MOT数据集是PETS数据集,MOT基准的标准化后来提出,从那时起,它每年都在更新,涉及到更复杂的场景和日益拥挤的环境,最近,TAO数据集被引入用于多对象跟踪,它专注于跟踪2907个短序列中的833个对象类别,我们的数据集在每帧行人密度达到346人的拥挤环境中提出了跟踪的挑战。

为了在mot challenge数据集上评估算法,经典MOT指标和CLEAR MOT指标实际上已经被建立为量化性能的标准化方法,CLEAR度量提出了两个重要的评分MOTA和MOTP,分别是基于累积每帧精度和边界框精度的经典度量的简洁总结,最近,Ristani等人提出了ID度量,它根据跟踪器在Ground Truth轨迹最长时间内保持身份的效率来奖励跟踪器。

跟踪算法 在线多目标跟踪算法可以总结为:(i)检测,(ii)运动预测,(iii)亲和计算,(iv)关联步骤。基于R-CNN的网络已成为检测阶段的普遍选择,这是因为基于提议的检测器相对于单阶段检测方法的先天优势,在在线多目标跟踪算法中,Chen等人使用粒子滤波框架,根据每个粒子的外观分类评分来衡量其重要性,该评分由单独的网络计算,独立训练,早期的研究使用具有恒定V速度假设的顺序重要性抽样(SIS)来分配粒子的重要性权重,Henschel等人论证了单目标检测器在跟踪方面的局限性,并将头部检测器与行人检测器串联使用。然而,近年来,MOT的研究工作试图弥合跟踪和探测之间的差距通过统一的框架,其中最值得注意的是Tracktor,它演示了单独的对象检测器足以预测后续帧中的目标位置,受益于视频中的高帧率。

3. CroHD 数据集

描述: CroHD的目标是在人口密集的视频序列中提供行人头部的跟踪注释,据我们所知,社区中不存在这样的基准,因此我们在9个全高清序列的11463帧中注释了2276,838个人头。我们建立CroHD的5个序列从公开的motchallenge CVPR19基准,以使跟踪器在同一场景的性能比较两种范式之间的跟踪器-头部跟踪和行人跟踪,我们将上述序列的训练集和测试集分类保持在CroHD中与MOTChallenge CVPR19基准测试相同,我们进一步在两个新的场景中注释了4个更高人群密度的新序列,新的场景集中在涩谷火车站和涩谷十字路口,这是世界上最繁忙的人行横道之一,CroHD中的所有序列都有25f / ps的帧率,并从高架视点捕获。

这些序列包括拥挤的室内和室外场景,记录在不同的照明和环境条件下,这确保了数据集的足够多样性,使其能够用于训练和评估基于现代深度学习技术的全面性。

最大行人密度达到每帧约346人,而整个数据集的平均行人密度为178,表1给出了CroHD的详细顺序总结,我们将CroHD分成4个5740帧序列进行训练,5个5723帧序列进行测试,他们有三个相同场景,而第四个场景是不同的,以确保在这个数据集上的跟踪器的泛化,每个CroHD序列的代表帧及其各自的训练、测试分割如图2所示,我们将使我们的序列和训练集注释公开,为了保持MOTChallenge CVPR19基准测试的公平性,我们将不发布与测试集对应的注释。

注释 CroHD的注释和数据格式遵循motchallenge基准所概述的标准指南,我们在一个场景中注释了所有可见的人头,而可视性留给了注释者最好的裁量权,所有肩膀可见的人的头都被标注,包括被头罩遮挡的头,如头巾、帽子等,对于从MOTChallenge CVPR19基准继承的序列,注释的执行独立于行人跟踪真实值,以便在两种模式之间没有依赖性,由于视频序列的高帧率,我们在关键帧之间插入注释,只在必要时调整跟踪。

CroHD包含四个类:行人、车上的人、静态和忽略,雕像的头像或衣服上的人脸都被标注上了“忽略”的标签,车辆、轮椅或婴儿运输工具上的行人的头部被注释为Person on vehicle,在整个序列中没有移动的行人被归类为静态人员,与标准的MOTChallenge基准测试不同,我们观察到边界框之间的重叠是最小的,因为从高架视角看头部边界框几乎是不同的,因此,我们将可见性标志限制为二进制—要么可见(1.0),要么遮挡(0.0),如果与基础真值的交集过并(IoU)大于0.4,我们认为一个提议是匹配的。

4. 评价指标

对于CroHD上头部检测的评价,我们分别遵循标准的多目标检测指标均值平均精度(mAP)、多目标检测精度(MODA)、多目标检测精度(MODP)和mAP COCO,mAP COCO是一个更严格的度量,它计算AP的平均值跨越IoU的阈值{50%,55%,60%,…, 95%}。对于跟踪器的评估,我们采用了完善的多目标跟踪指标,并扩展了提出的“IDEucl”指标。

IDEucl 虽然基于事件的度量和基于身份的度量(IDF1)从局部和全局角度来看是跟踪算法的有说服力的性能指标,但它们并不能量化跟踪器能够覆盖的真实轨迹的比例。

具体地说,现有的度量不测量真实轨迹在图像坐标空间中的比例,跟踪器能够保持一个标识,重要的是要定量区分跟踪器,哪些跟踪器更有效地跟踪了大部分真实行人轨迹,这在密集人群中特别有用,可以更好地理解全局人群运动模式。为此,我们提出了一种新的评价指标“IDEucl”,它基于跟踪器在图像坐标空间中保持真实轨迹长度一致标识的效率来衡量跟踪器,尽管如此,IDEucl似乎与现有的IDF1度量相关,该度量度量保持一致ID的真实轨迹的帧的比例,相比之下,IDEucl测量的是分配了正确ID的路程的百分比。

为了阐明这种差异,请考虑图3中所示的示例,两个跟踪器A和B为一个真实轨迹g计算4个不同的标识,跟踪器A在前150帧提交3个标识切换,同时为剩下的150帧保持一致的标识,另一方面,跟踪器B在前150帧保持一致的标识,但在后150帧提交3个标识切换,我们的指标报告跟踪者a的得分为0.3(图3a),跟踪者B的得分为0.67(图3b),与此同时,IDF1和经典度量对两个跟踪器分别报告了“0.5”和“3身份切换”的得分,按照现有的度量标准,跟踪器A和跟踪器B被认为是同样有效的。

它们既没有突出追踪者A的无效,也没有突出追踪者B在以一致的身份覆盖足够部分的真实轨迹方面的能力。因此,IDEucl更适合于判断估计的行人运动质量,因此,为了表述这个度量,我们通过构造一个二部图G = (U, V, E)来执行一个全局假设到真实匹配,如果两个“规则”节点在时间上重叠,则由一条边e连接,重叠由∆定义

考虑τt, ht是t时刻的任意真实和假设轨迹,δ定义为:

图M∈RN−1的每条边E∈RN上的代价表示为图像空间中两个连续的“规则”节点的时间关联之间的距离,特别地,一条边的代价被定义为,

其中d为图像坐标空间中的欧氏距离,在图像坐标空间中,为真值轨迹指定一个唯一的假设,该假设对真值的优势距离保持一致的同一性,我们采用匈牙利算法求解此最大权值匹配问题获得最佳(最长)假设,一旦我们获得了一个最佳假设,我们将度规C表述为最佳假设覆盖的图像坐标中ground truth的长度之比,

值得注意的是,这种成本函数的表述自然地根据每个ground truth轨迹在图像坐标空间中的距离来权衡其重要性。

5. 方法:头部检测与跟踪

在本节中,我们将阐述HeadHunter和HeadHunter-t的设计和工作原理。

5.1. HeadHunter

由于检测是目标跟踪的关键步骤,通过考虑我们检测到的对象的性质和大小,我们将HeadHunter设计得与传统的对象检测器不同,HeadHunter是一个端到端两级检测器,具有三个功能特征,首先,它使用Resnet-50骨干网使用特征金字塔网络(FPN)在多个尺度上提取特征,头部的图像在外观上是相同的,在拥挤的场景中,通常与无关的物体(通常是背景)相似,因此,受到头部检测文献的启发,我们在每个单独的fpn之上增加了一个上下文敏感预测模块(CPM)。

该上下文模块由4个Inception-ResNet-A块组成,具有128和256个滤波器,用于3 × 3卷积,1024个滤波器用于1 × 1卷积,由于在拥挤的场景中检测行人头部是一个检测许多小型相邻放置物体的问题,我们在所有金字塔层的特征上使用转置卷积来提高每个特征图的空间分辨率,最后,我们使用带有区域建议网络(RPN)的快速rcnn头生成目标建议,而回归和分类头分别提供位置偏移和置信度评分,我们提出的网络体系结构如图4所示。

5.2. HeadHunter-T

我们用两个运动模型和一个基于颜色直方图的头部跟踪再识别模块扩展了HeadHunter,我们的运动模型包括粒子滤波预测目标运动和增强相关系数最大化补偿相机在序列中的运动,粒子滤波是一种递归估计动态系统状态的顺序蒙特卡罗(SMC)方法,在我们的实现中,我们表示后验密度函数由一组边界框建议为每个目标,称为粒子,粒子滤波的使用使我们能够同时模拟由于头部的快速运动和行人在帧间的位移而产生的非线性运动。

Notation 给定一个视频序列I,我们将其中的有序帧集表示为{I0,···,it−1},其中T为序列中的帧总数,在本文中,我们使用下标表示法来表示视频序列中的时间实例,在t时刻的帧It中,活动轨迹用Tt = {b1t, b2t,…表示, bNt},其中bkt为第k个活动轨迹的边界框,记为bkt =(XKT, ykt, WKT, HKT )在时间t时,第k个轨迹对应的第i个粒子用pk,i t表示,它们各自的重要权重用wk,i t表示,Lt和Nt分别表示未激活的轨迹和新初始化的轨迹的集合。

粒子初始化 新的轨迹在序列开始时初始化,从HeadHunter提供的检测I0开始,在帧It处初始化,用于无法与现有轨迹关联的检测,非最大抑制(NMS)方法解决了新检测与现有轨迹之间的合理关联,每个粒子的重要性权重在初始化时设置为相等,每个粒子表示4维状态空间,每个目标的状态建模为(xc, yc, w, h,˙xc,˙yc,˙w, h),其中,(xc, yc, w, h)表示边界框的质心、宽度和高度。

预测及更新 在时间t > 0时,我们对当前帧的特征映射Ft执行RoI池化,使用活动轨迹对应的粒子边界框,然后使用HeadHunter的回归头调整当前帧中的每个粒子的位置,给定它们在前一帧中的位置,从HeadHunter的分类头中将每个粒子的重要权重设置为各自的前景分类分数,我们的预测步骤类似于Tracktor,应用于粒子而不是轨迹,给定每个粒子的新位置和重要权重,将第k个轨迹的估计位置计算为粒子的加权平均值,

重采样 粒子过滤框架已知遭受简并问题,因此我们重新采样以替换低重要权重的粒子,当对每个头部位置的概率分布有意义贡献的粒子数量,ˆNkef超过阈值时,对第k个轨迹对应的M个粒子进行重新采样,其中,

Cost Matching 当轨迹的估计状态Sat的分数低于阈值,λregnms时,轨迹被设置为不活动。这些航迹的位置根据恒V速度假设(CVA)进行预测,如果它们与新探测到的轨迹具有令人信服的相似性,则恢复跟踪。相似性,C被定义为

其中Lit和Nj t分别是第i个丢失的轨迹和第j个新轨迹,d1为HSV空间中各自颜色直方图之间的Bhattacharyya距离,一旦轨迹被重新识别,我们就在它的新位置周围重新初始化粒子。

6. 实验

6.1. HeadHunter

我们首先详细介绍了实验设置,并分析了HeadHunter在SCUTHEAD和CroHD两个数据集上的性能,对于HeadHunter的Faster-RCNN头部,我们使用了8个锚,其大小是通过在训练集中的真实边界框上执行K-means获得的,为了避免锚点重叠,锚点在四个金字塔层中被平均分割,锚点的步幅为max(16, s/d),其中s为锚框面积的平方根,d为比例因子,对于所有的实验,我们使用在线难例挖掘,有1000个建议框,批大小为512。

SCUT-Head 是一个大规模的头部检测数据集,由4405张图像和111,251个标注头部组成,分布在a部分和b部分,我们训练HeadHunter 20个周期,输入分辨率为训练集的中值图像分辨率(1000x600像素),初始学习率分别为第5、第10和第15个周期的0.01减半,为了进行公平的比较,我们只在这个数据集的训练集上训练HeadHunter,而不使用任何训练集pre-trained模型,我们在表2中总结了该数据集与其他头部检测器的定量比较,HeadHunter在精确度、召回率和F1分数上优于其他最先进的头部探测器。

CroHD 首先,我们以0.001的学习率对来自SCUT-HEAD数据集和CrowdHuman数据集的训练集图像组合进行了20个epoch的训练,对大规模图像数据集进行预训练,可以很好地描述变化,提高头部检测的鲁棒性,然后,我们使用ADAM优化器对CroHD训练集上的HeadHunter进行微调,共25个阶段,初始学习率为0.0001,学习率在第10和第20期分别下降了0.1倍。

消融 我们检查了HeadHunter的设计选择,即通过删除上下文模块和锚点选择策略的使用,表3总结了HeadHunter及其在CroHD上的变体的头部检测性能,我们将检测的最小置信度阈值设为0.5进行评估,W/O contt是指没有上下文模块的HeadHunter,我们进一步取消了中值锚点采样策略,并将其称为W/O Cont, mAn,我们还提供了基于CroHD上Resnet-50骨干的Faster-RCNN的基线性能,CroHD是我们构建HeadHunter的对象检测器,我们采用了与HeadHunter相同的训练策略,HeadHunter的所有变种都明显优于fast-rcnn,包含上下文模块和锚点初始化策略对头部检测也有显著影响。

6.2. HeadHunter-T

对于粒子过滤框架,我们对每个对象使用最多N=100个粒子,N个粒子均匀地放置在初始边界框周围,为了确保粒子不是不均匀地扩散并且足够清晰,我们从均匀分布中采样,其下限和上限分别为((x−1.5w, y−1.5h), (x + 1.5w, y +−1.5h),式中,x, y, w, h为初始边界框的质心、宽度和高度。对于基于颜色的重新识别,我们分别为H、S和V通道使用16、16和8个容器,其中使用亮度不变的Hue代替标准的Hue。表示IoU和颜色直方图匹配的重要性的α、β分别设为0.8和0.2,分别对应于公式7,如果轨迹在λage = 25帧的时间内保持不活跃,或者它的运动预测落在图像坐标之外,我们就会禁用它。

我们评估了CroHD上的三种最先进的跟踪器,即SORT, V-IOU和Tracktor,以与HeadHunter-T进行比较,我们选择了不需要任何跟踪特定训练的方法,这些方法的实现已经公开,并且在拥挤的MOTChallenge CVPR19基准测试上表现最好。

为了进行公平的比较,我们使用HeadHunter提供的头部检测进行所有实验,阈值设置为最小置信度0.6,SORT是一种利用卡尔曼滤波运动模型,将基于iou匹配的检测与匈牙利算法进行时间关联的在线跟踪器。VIOU将基于IOU匹配的IOU检测关联起来,利用可视化信息减少因漏检而导致的跟踪不一致,VIOU和SORT的参数设置是基于对CroHD训练集的微调,我们评估了Tracktor的两种变体,有和没有运动模型,Tracktor+MM表示带有摄像机运动补偿和CVA的非活动轨迹扩展的Tracktor,对于两个版本的Tracktor,我们设置了类似于HeadHunter的跟踪参数。

表6.2总结了上述方法在CroHD测试集上的性能,HeadHunter-T方法的性能优于其他所有方法,并且在身份识别保持跟踪方面表现出了优势,虽然Tracktor类似于HeadHunter-T,但在头部跟踪性能上有明显的区别,我们假设使用粒子过滤框架,它可以处理任意后验,作为改进的原因,这一主张将在下一节中得到证明。

6.3. 消融实验

HeadHunter-T:在本节中,我们分析了设计选择,特别是HeadHunter-T的再识别模块和粒子滤波在CroHD训练集上的应用,结果汇总在表5中,对于运动模型的变化,我们删除了粒子滤波器,并使用简单的相机运动补偿,记为HT w/o PF,我们还试验了头部周围初始化粒子数量的减少,n=10,记为HT + 10F,引入粒子滤波器显著提高了HT + 10F的身份保留分数(IDF1和IDEucl)。

将过滤器的数量进一步增加到100个可以获得最佳性能,然而,使用超过100个过滤器导致重复或不适度的传播,这是不可取的,我们去掉了重新识别模块,以了解其影响,表示为w/o ReID。

尽管颜色直方图是一个普通的图像描述符,但它大幅减少了身份切换的数量,并在身份保留度量(IDEucl, IDF1)中显示了优越的性能,我们还对对应IoU重要性和直方图匹配的α和β值进行了实验(公式7),我们设β为0.8,α为0.2,该构型记为HT + sReID,令人惊讶的是,我们观察到更多的身份切换和其他跟踪指标的性能略有下降,HeadHunter-T是我们的最终模型,它的表现超过了所有其他变体。

滤波器的选择:为了进一步证实我们对多模态滤波器的选择,我们用卡尔曼滤波运动模型替换了HeadHunter-T的粒子滤波器。卡尔曼滤波和粒子滤波都是递归状态估计算法,其中卡尔曼滤波假设系统是高斯噪声的线性系统,而粒子滤波的多模态后验分布使其能够对非线性系统的状态进行建模,我们用四态卡尔曼滤波器代替粒子滤波器来建模具有CVA的边界框的帧间位移。

这四种状态分别是x、y质心坐标、边界框的高度和纵横比,类似于SORT,表5总结了该跟踪器的性能,表示为HT + KF,在报告的所有跟踪指标方面,带有粒子滤波器的HeadHunter-T表现出优于其卡尔曼滤波器变体的性能,特别是,我们观察到IDEucl指标方面的重大改进。头部随行人位移的运动导致边界盒位置的非线性,虽然行人的运动通常是非线性的,但由于头部边界框的尺寸较小,这一问题更加严重,因此,使用多模态后验状态估计是必要的,以解决可感知的非线性运动的影响,我们认为这是使用粒子滤波器与卡尔曼滤波器相比性能提高的原因。

跨范式比较:我们比较了CroHD和MOTChallenge CVPR19数据集的公共序列上的行人和头部跟踪性能,相同的序列确保跟踪器在全身和头部边界框上进行评估和现场的行人一样。为了进行比较,我们在上述数据集上选择了已发表的最新方法,即Tracktor++、VIOU、DDTMA和HAM HI。我们根据MOTA、IDF1、MT(主要跟踪百分比)指标进行了比较,由于我们使用的对象检测器与其他方法不同,所以在性能指标之间进行直接比较是不公平的。

因此,对于每个序列,我们测量上述性能指标与其对象检测器的MODA评分的比例,得到缩放分数-s-MOTA, s-IDF1和s-MT。图5显示了五个常见序列的平均分数,我们的方法明显优于其他方法,表明头部检测跟踪更适合于在行人密度高的环境中进行跟踪,在这种环境中保持身份非常重要,同样值得注意的是,HeadHunter使用的是ResNet-50骨干,而不是其他方法使用的Resnet-101骨干,此外,Tracktor++、HAM HI和DD TMA都使用深度网络提取外观特征,而HeadHunter-T使用基于颜色直方图的外观特征,通过折衷我们的跟踪空间(包围框的大小)来避免相互遮挡,我们观察到显著的性能提升,并显著降低了计算成本,这表明,在关注身份保持的实时跟踪应用中,头部检测的跟踪模式更可取。

7. 结论

为了改进在密集人群中跟踪行人的算法,我们引入了一个新的数据集CroHD,用于头部检测跟踪,为了进一步量化跟踪器在描述行人运动方面的效果,我们引入了一个新的度量,IDEucl。我们开发了两种新的基线方法,HeadHunter, HeadHunter-t分别用于CroHD上的头部检测和头部跟踪,我们证明,HeadHunter-T在身份保存跟踪应用方面比现有的用于头部跟踪的先进跟踪器更可靠,此外,HeadHunter-T在计算复杂度适中的情况下性能良好,为未来专注于低计算复杂度和实时应用的跟踪方法的研究提供了机会,我们也希望CroHD能够在连续的领域中发挥作用,比如人群计数和人群运动分析。

标签: #行人跟踪算法原理