龙空技术网

密集目标检测的相互监督

小小cv笔记 1562

前言:

此时各位老铁们对“阈值系数”大致比较关注,你们都想要分析一些“阈值系数”的相关文章。那么小编也在网络上收集了一些对于“阈值系数””的相关知识,希望我们能喜欢,各位老铁们快快来了解一下吧!

论文收录于ICCV 2021,看到这篇论文想起了DDOD和ATSS,这篇文章提出了分类和回归的样本要分开选取,一个位置铺设多个anchor能够提高性能,DDOD也提出了分类和回归样本分离,ATSS提出一个位置铺设多个anchor是无效的,很多目标检测的默认设置可能不是最优的,值得仔细探究。

论文题目:

Mutual Supervision for Dense Object Detection

论文地址:

摘要

分类头和回归头都是构建密集目标检测器不可缺少的组成部分,它们通常由相同的训练样本监督,从而期望彼此之间具有一致性,以便在检测管道中准确地检测到目标,在本文中,我们打破了密集检测器中这两个头部训练样本相同的惯例,探索了一种新的监督范式,称为相互监督(MuSu),分别为分类头和回归头分配训练样本并相互分配训练样本,以确保一致性,MuSu主要根据分类预测分数定义回归头的训练样本,然后根据回归头的回归分数定义分类头的样本。

实验结果表明,该方法保证了相互监督训练的检测器的收敛性,并在具有挑战性的MS COCO基准测试上验证了该方法的有效性,我们还发现,在同一位置平铺更多的锚有利于检测器,并导致该训练方案下的进一步改进,我们希望这项工作能够启发对检测中分类和回归任务的交互作用和检测器的监督范式的进一步研究,特别是对这两个头分开。

1. 简介

目标检测作为计算机视觉领域的基本视觉任务之一,几十年来一直吸引着研究人员的兴趣,特别是随着卷积神经网络(CNNs)的兴起,社区见证了检测器的方法和性能的快速发展,从基于区域的检测器,到单级密集检测器,再到基于端到端transformer的检测器,在这些方法中,一级检测器,也称为密集检测器,是最受欢迎的,因为它的速度和准确性,以及由于它们的平铺锚密集覆盖各种尺度和宽宽比的对象和直接预测带标签的边界框的快速收敛。

由于检测任务是同时进行分类和定位的任务,目标检测器期望产生的边界框既具有正确的分类标签又具有良好的定位,当然密集检测器也不例外,对于密集检测器,这两项任务通常通过专门的分类和回归头来完成。

对于来自骨干网的同一输入特征图,这两个头的功能预期是不同的:分类头将其转换为具有小位移的分类分数,而回归头将其转换为从锚点到边界框的位移等效的回归偏移,这导致这两个任务之间存在内在的不一致。

一个精确的密集物体检测器应该产生具有正确标签的高质量边界框,这就需要这两个不同功能的头部在最终输出的同一空间位置进行合作,换句话说,收敛检测器应该确保在对象的最大分类和回归分数出现的位置上的空间一致性,然而,即使是收敛检测器,这一目标也很难实现,训练图像作为图1所示的输入图像,往往在不同的位置出现最大的分类分数和对对象最精确的定位框,这种不一致性影响了当前检测管道中最终模型的性能,特别是在常见的后处理非最大抑制(NMS)过程中,它只保留重叠框中分类分数最大的框,而不考虑定位精度,结果,局部定位较好但分类分数较低的边界框被抑制,这种检测器的性能较差。

为了解决这一问题,以往的工作主要关注这些头的输入特征和网络结构,并从特征或结构的角度对分类头和回归头进行分离,不同的是,我们从这两个头的监督的角度来研究这个问题,具体来说,分别定义了两个头的训练样本,并提出了密集检测器的相互监督(MuSu)来缓解这种不一致。

MuSu将训练样本的定义分离出来,分别用于分类头和回归头,然后使它们相互依赖,如图2所示,两个头部之间不共享训练样本,分类的训练目标由回归头中预测框和真实框之间的IoU(交集over联合)分数自适应确定。

同样,回归头的训练样本是通过分类头中的分数来定义的,接下来,MuSu通过将每个空间位置的损失关联权重,将这两个头部的训练样本的分数转换为软目标,通过这种方式,MuSu的目的是通过训练阶段的相互分配,迫使这两个头部之间保持一致,在这种相互监督的方案下,MuSu还享有训练样本自适应地从网络本身产生的优势,而不是由专家知识手工制作的。

此外,MuSu免除了任何手工制作的几何先验,也摆脱了不同金字塔层次的微妙处理。从这个意义上说,MuSu在完全自适应样本分配方面又向前迈进了一大步,更全面地释放了检测器的力量。

我们在MS COCO数据集上进行了大量的消融实验,以验证我们提出的MuSu方法的有效性,特别是,MuSu将具有ResNet-50骨干网的FCOS检测器在普通90k训练方案下的COCO验证集中提高到40.6 AP,而不牺牲推理速度,此外,我们还研究了在同一时间平铺更多锚将有利于探测器在这种相互监督方案下,推动到40.9 AP比竞争的一个锚对应,我们认为,我们的分类和回归头的相互监督方法更充分地利用了多个锚点设置,从而提高了性能,我们还利用MuSu训练具有大主干的模型来比较先进的模型,我们的模型在COCO测试集上取得了很好的结果。

作为兄弟头的分类头和回归头是一般目标检测器的基本组件,其中骨干网的输入特征分别转换为分类分数和预测框,区域CNN (R-CNN)检测器通常在区域网络中部署共享头(2fc),根据特征图外汇集的感兴趣区域(RoI)进行分类和更精细的定位,有研究提出了R-CNN检测器的不同头部,并通过个体网络将其分离,以达到分类与回归输出的一致性,TSD认为分类头和回归头需要不同的空间特征,共享RoI池算子是导致错位的原因之一。

对于密集的物体探测器来说,由于没有RoI操作符,不同头部的特征很难分离,所以处理起来就不那么直接了,常见的做法,分类头和定位头分别由几个卷积层组成,希望在输入特征相同的情况下实现不同的功能。

与以往研究的特征或结构不同,我们提出的方法从为每个头部分别设计训练样本的角度解决了不一致的问题,以往的监管方法只涉及从回归到分类或从回归到分类的单向监督,相比之下,我们提出的MuSu通过对应头输出定义的训练样本来监督每个头,并以双向的方式确保一致性。

2.2. 在训练样本选择的背景下

选择训练样本最流行的策略是使用IoU作为锚点和groundtruth box之间的标准,近年来,人们提出了各种基于几何关系、分类分数、IoU或二者结合的训练样本选择策略,以确定候选锚点在训练阶段属于哪个对象,并进一步挖掘检测器的潜力,FreeAnchor是第一个根据分类分数和iou的自定义似然自适应训练样本,ATSS利用与对象锚相关的iou统计信息来确定阳性样本,PAA在训练样本的选择中引入了概率过程,并通过期望最大化算法确定样本,所有这些工作都带来了性能上的改进,并表明了设计更好的训练样本的重要性。

我们的方法遵循这一研究思路,但与上述方法不同。我们通过将不同的样本分配给不同的头来进一步改进自适应训练样本,我们提出的方法从IoU中自动挖掘分类样本,从分类分数中自动挖掘回归样本,幸运的是,有了这种相互监督,我们的MuSu方法也摆脱了这些自适应方法中每个金字塔层次的几何先验和微妙处理,从这个意义上说,我们提出的MuSu方法是目前为止最整洁的自适应分配训练样本的方法,同时获得了有前景的结果。

3.提出的方法

为了进行准确的检测,期望密集检测器在分类头和回归头之间保持一致,因为后处理NMS只在有多个重叠检测时保留最大分类置信度的检测,在像RetinaNet这样的检测器中,分类头是由预测和真实框重叠高于一定值的监督信号来训练的,而没有进一步考虑真实框的局域化程度。

事实上,当前的管道期望分类置信不仅代表检测器分类的好坏,还代表检测器回归的好坏,因此,分类头监督的空间分布应依赖回归头的回归表现,即iou评分越大,分类监督越强,反过来,对分类分数高的也要加强对回归的监督,迫使分类好的也要进行准确的回归,图2描述了它们之间的依赖关系和相互监督。

我们介绍了密集目标检测器的相互监督(MuSu)算法,作为这种相互哲学的一个简单实例,具体来说,MuSu通过从这两个头部和为这两个头部相互和相互分配训练样本,来确保训练过程中分类和回归之间的一致性。

MuSu通过排序机制对锚点的损失进行加权,以软目标形式处理训练样本,MuSu可以描述为三个步骤:1)通过分类头和回归头联合构造自适应候选袋,选择概率最大的候选锚;(2)分别从候选包内部的分类和回归的角度计算候选排名;3)将这些排名转换为权重,计算出每个点的损失,并监督分类和回归头,MuSu算法如算法1中描述

其中α是一个超参数,从0到1不等,它通过考虑头部本身的输出来正则化,我们的相互监督方案可以是一个广义的训练样本框架,其中α = 1给出了最近研究的基于这两个头部的联合似然的训练样本策略,α = 0给出了直接的相互监督,而不需要监督头本身的正则化。

3.3. 损失权重范式

当我们获得正则化标准vclsi和vreg i时,MuSu在每个候选包中分别对这些值进行降序排序,用于分类和回归头,以获得排名的Rclsi和Rreg i(从0开始,以步长1增加,即0,1,2,···),MuSu通过对每个候选的损失进行加权,并将这些加权损失相加为总损失,从而在软目标表单中监督这两个头部,候选的权重wclsi和wreg i分别由每个候选人的排名决定,MuSu采用负指数的方式将排名转化为权重:

其中τ CLS和τ reg是分类和回归头的温度系数,表示为一个对象分配多少个样本权重,当排序R(·)i增大(v(·)i变小)时,权重以与温度τ(·)相关的速度呈指数下降,由于相互监督方案,我们可以分别控制每个头的正训练样本的数量,我们发现,如果给回归头分配较少的权重,性能会更好。

图像中每个头部的总损失可以概括为:

其中归一化项N =Σi wi和li是关于为每个锚点i分配的预测和真实框的损失函数,l可以是每个头的任意损失函数,例如,分类的focal loss和回归的GIoU损失,关于focal loss的未指定类的细节在4.1节中讨论。

值得注意的是,MuSu不是分类或回归的特定损失函数,事实上它是建立在这些基本损失之上的超损失公式,实际上,MuSu的重点是从两个方面来讨论每个头的样本分配:第一,位置i的ground-truth分配,表示哪个对象是位置i的监督目标;第二,分配的训练样本的权重,wi,表明我应该被监督多少,此外,我们将分配策略与潜在损失函数选择分离,并将注意力放在候选包内锚点的相对排名上,保证损失的绝对振幅对分配没有影响。

我们总结提出相互监督方法MuSu作为几个关键点:首先,MuSu利用来自对应头的分数的空间分布,以各自的方式自适应地确定分类头和回归头的训练样本,这个范例既避免了任何手工制作的训练样本,也避免了几何线索。因此,MuSu作为一种简单而通用的训练样本选择方法出现;其次,MuSu允许检测器将分类分数与iou分数对齐,使检测器对NMS程序和最终的检测评估友好;第三,MuSu解决了相互监督中训练样本的分配和基础损失函数的选择问题,利用相对排序来确定与这些锚点相关的损失权重,可扩展到未来的任何损失函数改进中;最后,MuSu通过为回归头分配较少的正样本,专注于分类分数较高的位置,缓解了回归头的回归难度,实验表明,经过musu训练的探测器具有良好的性能。

4. 实验

为了验证我们提出的分类和回归头相互监督方案的有效性,我们在本节中对MS COCO检测数据集进行了实验,按照之前工作的常用做法,我们使用由115K图像组成的trainval35k子集来训练我们的模型,并使用5K图像的minival子集作为验证集,我们还将测试子集上的最终模型结果(其标签不公开可见)提交给MS COCO评估服务器,以便与最先进的模型进行比较,我们在mmdetection代码库中实现了我们的MuSu方法。

4.1. 实现细节

网络结构 理论上,我们的相互监督方法对于高密度物体探测器是通用的,在本文中,我们采用最近提出的密集检测器FCOS作为网络架构,FCOS体系结构通过将组归一化用于分类和回归检测头,为FPN上的每个金字塔级别添加可训练的标量,并使用回归头的最后一个特征图的中心层过滤掉许多不准确的检测,从而作为密集检测器的强基线,由于我们提出的方法自适应地选择训练样本,并且不依赖于固定的中心度估计,我们将FCOS体系结构中的中心度层的输出重定向到分类的输出头部,并将其通过乘法合并得到最终的分类分数。

Initializations 在我们的实验中,所有检测器的骨干都是从ImageNet数据集上预训练的模型初始化的,为了在早期训练期间保持稳定,我们将回归头中最后一个卷积层的权重初始化为零,我们还在FPN的每个特征金字塔级别上设置一个恒定的步幅因子来缩放回归框,从最优金字塔级别P3的步幅s=8到级别P7的s=128,这些设置使得从回归分支预测每个位置初始化为相同大小的2s×2s的FPN级别的框,在早期迭代中作为几何先验,以更稳定的相互监督。

相互监督实例化 我们将温度τcls(它控制分配给对象的正样本数量)设置为候选包大小的平方根,然后将回归分支的温度设置为分类温度的一半(τcls: τreg = 2: 1)作为默认值,也就是说,

温度τcls和τreg特定于一个真实框j的候选包,当候选包大小变化很大时,平方根算子使温度在不同对象之间适度变化,从而导致更稳定的训练,我们将式2中的阈值系数b设为0.1作为我们的默认值。

我们采用focal loss作为分类的基础损失,采用GIoU损失作为回归的基础损失,focal loss失将检测中的分类任务处理成多类二元分类问题,对于一个锚点,既存在对非目标类的消极分类,又存在对目标类的积极分类。

另外,对于被分配的有软目标的类别,也应该采用否定分类,因此,我们仔细地处理它,并将focal loss分为三个部分:已分配类别标签的积极术语,已分配类别标签的消极惩罚术语,以及所有其他未分配类别标签的背景术语,我们将损失形式扩展到式5:

优化和推理 在整个实验过程中,我们使用学习率0.01,动量因子0.9,权重衰减0.0001的SGD优化模型,训练共使用16张图像,每个GPU2张图像,主干中批归一层的统计量和仿射参数被冻结为,对于消融研究,我们在90K迭代中使用ResNet-50骨干训练模型,在前500次迭代中进行学习率预热,学习率分别在60K和80K迭代时除以10。

90K训练方案中的所有图像都被调整为短尺寸为800,长尺寸不大于1333,并随机水平翻转作为唯一的数据增强,在推理阶段,我们将输入图像的大小调整到训练过程中的相同大小,而不进行随机翻转,在检测管道中,分类评分的阈值设置为0.05,NMS阈值设置为0.6,同样遵循最近的常见做法,优化和推理细节在整个实验中保持一致,除非另有说明。

4.2. 相互监督的训练

相互监督研究 我们从FCOS探测器作为基线开始实验,FCOS由密集的信号和服务监督作为密集检测器的竞争基线,在表1中得到36.5 AP,表1中的fcos++模型表示改进的体系结构,更重要的是,它是高度手工制作的精炼训练样本,只在对象的中心区域内分配正样本,相比之下,我们的MuSu是一种针对密集目标检测器的自适应训练样本分配方法,MuSu的关键组件是公式3中的准则值,因为它决定了我们的方法对每个头部采用哪种训练样本选择策略,在表1中,我们对公式3中的判据值进行了不同设置的实验。

两个头的权重完全由单个头的输出(分类pi或回归qi)决定的设置,对两个头分配相同的标准值,也就是说,在没有相互方案的情况下,只进行单向监督,导致结果分别为38.3和31.8 AP。

没有正则化项(设α = 0.0)的朴素相互监督达到38.5 AP,与高度手工制作的fcos++模型相当,当我们加入正则化因子时,即使从α = 1/6,模型的性能也显著提高到40.4 AP,当正则化因子α = 1/3时,相互监督训练的模型的性能达到了最佳的40.6 AP,比fcos++模型提高了2.0 AP,我们认为,正则化项对于分配是必要的,因为它也意识到每个头本身在训练过程中学习得如何好,并充分利用每个头预测来避免分配波动,值得注意的是,为两个头部分配相同的训练样本选择标准值的α = 1.0的MuSu也是一个相互监督的情况,其中一个头部的监督也知道对方头部的预测,在这个意义上,我们包含了基于联合的训练样本,在我们提出的MuSu方法中,最近的方法探索了可能性,然而,当平铺更多锚时,同样的标准策略(α = 1)遭受停滞甚至退化的性能,而α = 1/3的MuSu受益于更多锚,如下所述。

适应性候选袋与温度的研究 如我们在3.1节所讨论的,候选包设计用于通过分类和回归的联合似然自适应过滤大量背景锚点,候选包仅作为防止下一个相互分配过程中出现明显不合适的锚点的初步步骤,因此阈值系数b优选于一个相对较低的值,在表2中,我们改变系数来看看它的影响。系数b = 0.10得到的结果最好。

一个候选包也可以适应它的大小,因此,MuSu可以将更多的焦点放在分类和回归之间不一致程度较强的对象上,根据式4和式6的关系,为这些对象分配更多的正样本,我们通过禁用自适应温度w.r.t包大小并将τcls和τreg设置为固定数字来验证自适应候选包在最终探测器上的有效性。

在使用自适应候选包时,借用平均温度τcls和τreg,将分类τ cls的温度设置为跨对象的固定常数5.0,并保持τcls: τreg = 2:1,对于更多的消融,我们在表3中添加了情况τcls = 10.0。

我们发现,自适应温度作为袋子大小的函数有利于我们的方法,从不一致的角度自适应挖掘困难目标,我们还给出了在表4中锚定袋尺寸的自适应温度设置下,应用不同的温度比率为每个头部分配样本(τ cls:τ reg)的结果,这表明适度减少回归样本有利于精细定位和整体性能。

软目标与硬目标 由于我们的方法通过加权损失将两个头部的训练样本定义为软目标,一个自然的问题是,我们是否可以使用硬目标而不是软目标来实现类似的性能。我们通过将公式4修改为w(·)i = i [R(·)i < τ(·)]来训练硬目标模型,其中i[·]为指示函数,得到了40.0 AP模型,比软目标方案低0.6 AP,我们方法中的软目标与灵活分类以对齐回归评分的思路相同。

铺设多锚 在输出检测图的每个空间位置放置多个锚点是在密集目标检测器中尽可能多地覆盖不同比例尺和纵横比的图像框的常用方法,该策略在一级检测器和二级检测器的建议网络中都很受欢迎,以获得更好的性能,然而,最近的研究通过改变样本分配策略,挑战了平铺更多锚的必要性,并表明在其设置下放置更多锚并没有性能提升。

为了讨论多个锚点的情况,我们通过初始化最后一个卷积层的偏移参数来设置锚点的初始尺度和长宽比,从而产生边界框,锚的比例因子和纵横比分别从区间[1,2]和[1,2]中均匀随机抽取。

令人惊讶的是,我们发现,在我们的相互监督方案下,即使没有精心设计的尺度和纵横比设置,平铺更多的锚对竞争结果的检测性能有促进作用,如表5所示,这些结果表明,MuSu使检测器能够充分利用更多锚的设置,当每个位置增加锚点到3或4时,探测器的性能可以提高到大约40.9 AP,相比之下,对于α=1.0的两个头像分配相同的标准值的对应结果,在增加更多的锚点时并不会更好,甚至会出现这种情况,最终的MuSu模型比fcos++模型高2.3 AP,比普通FCOS模型高4.1 AP,比我们的竞争基线(α=1.0, #A = 1)高0.5 AP,这一经验证据验证了我们的MuSu方法在单锚情况下的有效性。

4.3. 与最先进技术的比较

为了与其他最先进的训练样本选择检测方法进行比较,我们使用更深的骨干和可变形卷积与我们的MuSu训练,为了与之前的工作保持一致并进行公平的比较,我们扩展了训练计划180K迭代,并将120K和160K迭代的学习率降低0.1倍,对于输入图像,我们将较短的一侧调整为随机选择的比例值[640,800],我们用每个位置3个锚点训练我们的MuSu检测器(#A=3),对于DCN变体,我们还在每个头部的最后一层应用可变形卷积层,如表6所示,ResNet-101检测器和MuSu训练的DCN变种在总体AP上都超过了以前的竞争型号,同时在推理阶段实现了新的最先进的AP75,没有花里胡哨的东西,此外,MuSu训练的模型与以评分投票作为推理阶段改进的PAA模型相当。

值得注意的是,我们的MuSu提供了我们所提议的相互监督的一个简单实例,该方案通常也与特定的训练样本选择方法兼容,如每个头部的PAA算法,以期望更好的结果。

5. 结论

在本文中,我们提出了一种训练精确密集目标检测器的相互监督(MuSu)方案,该方案打破了分类头和回归头训练样本相同的惯例,以软目标的方式对这两个头进行基于彼此输出的监督,MuSu在完全自适应训练样本选择上又向前迈进了一大步,它不需要进行微妙的几何设计,而是将不同的样本相互分配到这两个头部,此外,我们讨论了在我们提出的相互监督下的多个锚点设置,发现这对我们的方法是有益的,在具有挑战性的MS COCO基准测试上的实验结果验证了我们提出的MuSu训练方案在检测器上的有效性。

标签: #阈值系数