龙空技术网

ICCV论文:全卷积单阶段目标检测FCOS

拉斐尔在读论文 83

前言:

目前咱们对“目标检测 fcos”可能比较重视,咱们都想要了解一些“目标检测 fcos”的相关资讯。那么小编也在网上网罗了一些对于“目标检测 fcos””的相关内容,希望姐妹们能喜欢,你们快快来了解一下吧!

这篇论文的标题是“FCOS: Fully Convolutional One-Stage Object Detection”,作者是 Zhi Tian, Chunhua Shen, Hao Chen 和 Tong He。他们来自澳大利亚的阿德莱德大学。代码链接是:tinyurl.com/FCOSv1 。作者们首次证明了更简单、更灵活的检测框架可以实现更好的检测精度。他们希望所提出的 FCOS 框架能够成为许多其他实例级任务的简单而强大的替代方案。

目标检测是计算机视觉中一个基础而具有挑战性的任务。它要求算法为图像中每个感兴趣的实例预测一个带有类别标签的边界框。所有当前主流的检测器,如 Faster R-CNN、SSD 和 YOLOv2、v3,都依赖于一组预定义的锚框,长期以来一直认为使用锚框是检测器成功的关键。

尽管取得了巨大的成功,但值得注意的是,基于锚框的检测器存在一些缺点:

如 [15, 24] 所示,检测性能对锚框的大小、长宽比和数量敏感。例如,在 RetinaNet [15] 中,改变这些超参数会影响 COCO 基准测试 [16] 中 AP 的性能高达 4%。因此,这些超参数需要在基于锚点的检测器中仔细调整。即使经过精心设计,由于锚框的尺度和长宽比保持固定,检测器在处理具有大形状变化的对象候选时也会遇到困难,特别是对于小对象。预定义的锚框也阻碍了检测器的泛化能力,因为它们需要在具有不同对象大小或长宽比的新检测任务上重新设计。为了达到高召回率,基于锚点的检测器需要在输入图像上密集地放置锚框(例如,在特征金字塔网络(FPN)[14] 中,对于短边为 800 的图像,锚框数量超过 180K)。这些锚框中的大多数在训练期间被标记为负样本。过多的负样本加剧了训练中正负样本之间的不平衡。锚框还涉及复杂的计算,例如计算与 ground-truth 边界框之间的交集-并集分数(IoU)。

这篇论文提出了一种全卷积单阶段目标检测器(FCOS),用于以每像素预测的方式解决目标检测问题,类似于语义分割。与 RetinaNet、SSD、YOLOv3 和 Faster R-CNN 等几乎所有最先进的目标检测器不同,所提出的检测器 FCOS 没有锚框。通过消除预定义的锚框集,FCOS 完全避免了与锚框相关的复杂计算,例如在训练期间计算重叠。更重要的是,该工作还避免了与锚框相关的所有超参数,这些超参数通常对最终检测性能非常敏感。

图1

具体来说,对于特征图 Fi 上的每个位置(x,y),我们可以将其映射回输入图像,作为该位置感受野中心附近的点。与基于锚点的检测器不同,它们将输入图像上的位置视为多个锚框的中心,并以这些锚框为参考回归目标边界框,作者直接在该位置回归目标边界框。换句话说,该检测器直接将位置视为训练样本,而不是基于锚点的检测器中的锚框,这与语义分割中使用的 FCN 相同。

如果位置(x,y)落入任何 ground-truth 框内,则将其视为正样本,并且该位置的类别标签 c 是 ground-truth 框的类别标签。否则它是一个负样本,并且 c = 0(背景类)。除了分类标签外,我们还有一个 4D 实数向量 t = (l,t,r,b) 作为该位置的回归目标。这里 l、t、r 和 b 是该位置到边界框四边的距离,如图 1(左)所示。如果一个位置落入多个边界框,则将其视为模糊样本。我们简单地选择面积最小的边界框作为其回归目标。如图2所示,作者使用多级预测大大减少模糊样本数量。

根据论文中的描述,FCOS 在 MS-COCO 数据集上取得了很好的性能。仅使用非最大抑制(NMS)作为后处理,ResNeXt-64x4d-101 的 FCOS 在单模型和单尺度测试中实现了 44.7% 的 AP,超过了以前的单阶段检测器,并且具有更简单的优势。

标签: #目标检测 fcos