龙空技术网

使用全卷积网络来解析直线的实时直线检测器

AI公园 47

前言:

现时大家对“神经网络实验报告心得体会总结”大概比较重视,小伙伴们都需要学习一些“神经网络实验报告心得体会总结”的相关资讯。那么小编在网摘上网罗了一些有关“神经网络实验报告心得体会总结””的相关资讯,希望姐妹们能喜欢,咱们一起来了解一下吧!

导读

我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。

摘要

我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。F-Clip通过预测每条线的中心位置、长度和角度来端到端地检测线条段。此外,我们定制了全卷积网络中的卷积核设计,以有效地利用实际图像数据集中线条角度分布的统计先验知识。我们进行了大量实验,表明我们的方法在效率与精度之间实现了显著更好的平衡,使得该方法能够在单个GPU上达到最高73 FPS的速度,成为一个实时线条检测器。这种推理速度使我们的方法能够无需牺牲之前方法的任何准确性即可应用于实时任务。此外,当配备有性能增强的骨干网络时,F-Clip在相同甚至更高的帧率下,其准确性显著优于所有最先进的线条检测器。换句话说,在相同的推理速度下,F-Clip相比其他方法总是能达到最佳的准确性。源代码位于 .

1. 引言

整体三维表示旨在使用高级几何原语/结构(如线条、平面和布局)建模和重建场景。不同于通常嘈杂且不完整的基于局部特征的表示,整体表示被认为更加紧凑、鲁棒且易于使用。这一信念激发了一系列最近的工作,旨在从图像观测中识别几何结构。在上述提到的所有几何原语中,线条被认为是最重要的基本元素之一。一个准确的线条检测系统对于诸如消失点检测、相机姿态估计、相机校准、立体匹配乃至完整的三维重等下游视觉任务至关重要。

近年来,由于大规模数据集的引入、有效的学习方法以及社区不断努力开发更好的算法,线条检测领域取得了显著进展。然而,大多数现有方法主要关注准确性,如果为了提高效率而对其进行修改,则性能会显著下降。

在本工作中,我们的目标是开发一种灵活的算法,实现最佳的速度-精度权衡(见图1)。我们认为现有方法不尽人意的速度-精度权衡主要是由于典型的“两阶段”模型设计所致。在第一阶段,提取数千个线条候选。之后,基于这些候选线条,提取相应的图像特征,并训练一个小子网络来确定每个候选线条是否正确。此方法已被证明有效并达到了目前最先进的精度水平。然而,这种两阶段的方法牺牲了效率,因为它需要通过一个额外的小子网络处理大量的线条候选。从结构上看,如果需要改变网络以实现速度与精度之间的优雅权衡,这种两阶段模型也缺乏灵活性。

正如开创性工作中所述,“两阶段”的线条检测方法受到物体检测中“两阶段”方法的启发。除了流行的两阶段方法外,物体检测中还有一类称为“单阶段”方法的工作。单阶段物体检测通过完全卷积网络实现密集滑动窗口的方式完成。这类单阶段方法被认为在某些任务中更灵活高效,并且可以达到超过200 FPS的帧率同时保持不错的精度。因此,在本工作中,我们提出了以下问题:

我们能否通过借鉴物体检测中单阶段方法的成功理念,在线条检测中实现更好的速度-精度权衡?

本文贡献 推动这项工作的关键观察是:大多数现有方法使用的初始阶段的广泛线条提议并非完全必要。相反,可以将线条段视为一个对象,并可通过其中心、长度和角度方便地表示。因此,我们可以将每个参数的预测公式化为像素级分类/回归问题。为此,我们提出了一种全卷积线条解析(F-Clip)网络,通过完全卷积网络实现了上述理念。除此之外,本文的关键贡献在于实现了最佳的速度-精度权衡(见图1)。换句话说,在相似的速度下,我们始终能获得比其他方法更好的性能。

F-Clip具有令人惊讶的简单架构,如图2所示。它不需要任何复杂的网络工程或精心设计的训练采样器。为了检测一条线,我们的系统仅需应用卷积神经网络提取图像特征,并使用两个附加的卷积层回归中心、长度和角度得分图。然后,对于每一个高分的线条中心,我们直接输出一个线条段,关联同一位置的长度和角度值。由于其简单的单阶段设计,该网络易于根据不同速度-精度权衡进行变体和修改,我们将在第3.2节中详细讨论这一点。

通过对大型真实世界图像数据集进行广泛的实验,我们将看到所提出的简单方法/网络实现了出乎意料的好速度-精度权衡。在对延迟敏感的设置中,采用简单hour-glass骨干网络的F-Clip可以在73 FPS的速度下达到52.7 sAP5的成绩,几乎是之前方法在相似精度下的五倍速度。配备性能增强的骨干网络后,F-Clip可以在17.4 FPS的速度下达到64.3 sAP5的成绩,优于最先进的方法。

2. 相关工作

线条检测 线条检测的经典方法可以追溯到上世纪70年代。霍夫变换通过在线条参数空间中聚合像素强度并通过投票过程输出检测到的直线来检测线条。现代方法基于局部边缘滤波来进行线条检测。最近,利用深度神经网络改进了传统LSD线条检测算法的性能。在我们的实验中,我们将与这种增强的LSD算法进行比较。

线框架解析 线框架解析任务首先由提出。该工作提供了一个带有线框标注的大规模数据集、基线方法及一套评估指标。之后,提出了端到端的解决方案,并显著提高了性能。Deep hough-transform设计了一种基于霍夫变换的卷积算子用于线条检测任务。为了处理线条和节点的拓扑关系,基于图神经网络的方法被提出以解决线框架任务。最近,LETR提出了一种基于Transformer的方法,无需启发式驱动的中间阶段即可生成边缘和节点提案。此外,又提出了一个从二维图像重构三维线框的流程。严格来说,线条检测并不等同于线框架解析,因为后者涉及多条线段交汇点的检测。尽管如此,我们仍将使用为线框架设计的相同度量标准来评估线条段的质量,将端点视为交汇点。特别地,我们在实验中将会与该类别中的最先进方法进行对比。

物体检测 近年来,线条检测和线框解析的性能提升得益于物体检测方法的进步。值得注意的是,物体检测社区已经从两阶段检测器发展到了单阶段检测器或无锚点检测器。受这些工作的启发,本文提出了F-Clip网络,能够在单阶段内从图像中检测线条段(见图2),旨在实现速度与精度之间更好的平衡。

在准备本文期间,我们注意到一项非常近的研究Tp-lsd将线条检测问题表述为一种类似的学习问题,即预测每条线条段的三个参数。然而,他们采用了与我们不同的参数化和网络设计。我们将在下一节讨论这些差异,并在实验中将其算法与我们的算法进行对比。

此外,线框架解析与物体检测之间的关系可总结如下:如果我们把线条和交汇点视为物体,则线框架检测可以看作是一种特殊的物体检测。即便如此,线框架检测仍与物体检测存在两个基本差异。首先,图像中物体的变形和变化远大于线框架的变化;其次,图像中线框架的密度远高于物体的密度。因此,较少的变形或变化使得线框更容易识别,但更高的密度则容易导致遗漏线条。

3. 方法

所提出的网络的整体结构如图2所示。给定一张输入图像,我们首先使用卷积神经网络提取共享特征图。然后,该特征图被送入独立的子网络以预测三条线条表示图:线条中心图、线条长度图以及线条角度图。这三张图通过预测值与真实值之间的像素级损失进行监督。网络通过随机梯度下降法进行端到端优化。下面我们将对每个组件进行详细的描述和解释。

3.1 线条表示

我们通过线条的中心、长度和角度来表示一条线段。设 表示图像坐标系中线条的中心,和分别表示线条的左右端点。我们有以下关系:

其中是长度,是线条与水平方向之间的角度。

以上五个量中的任意三个可以唯一确定一条线段。这导致了线段有许多数学上等价的表示方法。例如,最近的工作使用中心和一个端点的 x 和 y 偏移量来参数化一条线段。

在不同的选择中,本工作中我们选择使用中心,长度,以及角度,原因如下:首先,角度是最容易预测的一个属性,因为它即使在一个局部区域也能被准确识别。此外,角度具有强烈的统计先验(见图3),我们可以利用这些先验来设计更有效的滤波器,具体内容将在下一小节进一步阐述。相比之下,对于长度、中心以及端点(偏移量)的准确预测,网络需要感知整条线。其次,由于线条角度与线条端点之间的关系不是一一对应的(一个端点可能被多个线段共享),我们选择使用线条中心和线条长度而不是端点来简化推理过程。由此产生的线条表示方法具有几个优点:

它自然地将线条解析问题转化为像素级分类/回归问题。这种转换使我们能够为这项任务构建全卷积结构,既准确又高效(第3.2节)。由于像素级公式化,不需要采样不同种类的线条,这显著减少了需要调整的超参数数量(第3.3节)。推理算法非常直接。给定一个预测的中心位置,我们可以直接使用相应的预测长度和角度来获取一条线段(第3.4节)。

3.2 全卷积线条解析网络的设计

骨干网络的设计。我们的单阶段网络有许多优点。首先,单阶段网络通常可以提高效率。其次,简单的架构允许轻松定制。线条检测常用于对速度和精度有不同的需求的应用中:例如实时定位或从图像中离线三维建模。一些应用每次处理一张图像,而其他应用则批量处理图像。因此,在这项工作中,我们提供了两种改进方向的定制版本的 F-Clip。首先,为了加快网络速度,我们在不牺牲太多性能的情况下简化了骨干网络。其次,我们在不牺牲太多速度的情况下(至少在批量处理模式下)展示了如何提高整体精度。

首先,我们采用带有两个堆叠模块的hourglass网络作为默认版本的 F-Clip(HG2)。我们简化了带有单个堆叠模块的hourglass网络以获得快速版本的 F-Clip(HG1),然后通过减少hourglass块中的层次结构数量(从4层减少到3层和2层),获得了另外两个更快的版本 F-Clip(HG1-D3)和 F-Clip(HG1-D2)。

第二种改进方式是在不牺牲太多速度的前提下提高准确性。我们从数据集中观察到,在人造环境中大多数线条接近垂直或水平(见图3(c),(d),(e))。实际上,这在大多数现实世界的线条检测任务中通常是这种情况。其原因可以归纳为两点。第一,在大多数人造环境中,经常使用平行和垂直的设计原则。第二,大多数人拍照时姿势是直立的,可能带有一些“俯仰角”,但没有“翻滚角”。上述两个原因使得所有线条中0度和90度线条的数量占主导地位。基于这种角度分布的强大统计先验,我们定制了线条检测块的设计(见图3(b)),以利用这些先验,并且计算成本相似(与图3(a)相比)。这导致了一个更准确的 F-Clip 版本(HG2-LB),其中LB代表线条块。此外,为了进一步提高性能,我们利用类似高分辨率(HR)网络中的并行结构来利用输入的多分辨率,该网络在许多视觉任务(如图像分割、检测和识别)中表现出色。这导致了一个高性能版本的 F-Clip(HR)。

因此总体来说,我们有六个不同版本的 F-Clip:1) F-Clip(HG1-D2);2) F-Clip(HG1-D3);3) F-Clip(HG1);4) F-Clip(HG2);5) F-Clip(HG2-LB);以及6) F-Clip(HR)。它们的相对准确性和速度如图1所示,定量和定性评估将在实验部分的表4和图5中给出。

线条得分图。我们将网络输出的大小设计为与特征图大小相同(128×128),以提高推理效率。然而,这样的设计不可避免地会引入量化误差。我们通过引入与每个线条中心相关联的局部偏移参数来解决这个问题。具体来说,对于原始图像中的GT线条中心,线条中心得分图C在坐标处为1。对于每个中心位置,我们也预测一个偏移值,一个线条长度值,以及一个线条角度值。

预测头。不同的网络结构用于不同的任务,对于每个分支,给定通道维度为 c 的共享特征图,我们使用两个输出通道数为256的3×3卷积来细化特征。然后我们使用输出通道数为任务特定数量的1×1卷积来预测每个量。中心、偏移、长度和角度预测的热图输出通道数分别为2、2、1、1。

3.3 训练

损失函数。我们将预测C的问题视为一个分类问题,并使用Focal Loss来应对正负样本不平衡的问题:

其中是Focal Loss的超参数,N是得分图中的像素数量,是经过softmax操作后每个区间的概率。我们使用L2回归来预测偏移图O。在O上的损失是按照得分图中的线中心点数量来平均的:

对于线长和线角的预测,得分图通过sigmoid激活函数进行归一化。然后我们使用预测值与真实值之间的L1损失(因为我们经验上发现L1损失优于L2损失):

最终用来训练的损失为:

其中表示各项的权重。我们对它们的值进行了网格搜索,最佳组合为。具体细节见第4.3节。

数据增强。为了使模型对不同视角和尺度更加鲁棒,我们执行了以下数据增强操作。首先,以等概率对图像进行如下处理之一:

保持原始输入图像不变;进行水平翻转、垂直翻转或同时翻转;按顺时针或逆时针方向旋转90度。

之后,我们采用了之前方法中的随机扩展增强方法。具体来说,我们在512×512的零输入中选择一个区域,并调整图像大小以适应该区域内。我们从[256; 512]范围内随机选取k值。这种增强是为了提高短线条的检测精度。

3.4. 推理

在推理过程中,我们首先对线中心得分图应用非极大值抑制(NMS)以去除重复的线检测结果。我们借鉴了目标检测中的SoftNMS来提升性能。具体来说,

其中N(i, j)表示位置(i, j)周围的8个邻近区间。这种非极大值抑制可以通过最大池化操作符来实现。使用SoftNMS之后,我们根据分类得分选取前K个线中心。我们使用对应的预测长度和角度值,根据公式2来形成一条线。

上一步仅在点级别上执行非极大值抑制NMS,而没有考虑线的长度和角度的影响。因此,我们提出了一种新的结构化非极大值抑制StructNMS,该方法通过整个线结构来移除重复的线。从线中心得分最高的线开始(假设其索引为 i),我们计算其两个端点与另一条线 j 的两个端点之间的 l2 距离:

然后,我们移除所有与之距离d小于预定义阈值的线。这一过程应用于所有剩余的线候选。

4. 实验

在本节中,我们展示了实验结果以分析 F-Clip 的性能,并将其与其他最先进的线条检测或框架解析方法进行了比较。

4.1 实现细节

骨干网络的细节。为了使我们的神经网络能够适应各种时间效率要求,F-Clip 使用了两种不同的骨干网络框架:一种是为了效率而设计的堆叠式hourglass网络,另一种是为了性能而设计的 HRNet。堆叠式hourglass网络是一种简单且优雅的U形网络,之前用于框架解析,例如在 L-CNN和 HAWP中。我们的堆叠式沙漏骨干网络配置与L-CNN中的相似。主要区别在于我们提供了五种不同的设置以满足不同的效率需求:1)具有2层层次结构的沙漏块中的一个堆叠的hourglass网络(F-Clip (HG1-D2));2)具有3层层次结构的沙漏块中的一个堆叠的hourglass网络(F-Clip (HG1-D3));3)具有4层层次结构的沙漏块中的一个堆叠的hourglass网络(F-Clip (HG1));4)具有4层层次结构的沙漏块中的两个堆叠的hourglass网络,而 L-CNN只提供包含4层层次结构的两个堆叠的hourglass网络模型(F-Clip (HG2));5)具有4层层次结构的沙漏块中的两个堆叠的hourglass网络,并将所有的残差块替换为线条块(见图3(b),F-Clip (HG2-LB))。

为了进一步提升 F-Clip 的性能,我们也采用了最近的 HRNet作为我们的骨干特征提取器(F-Clip (HR))。HRNet 最初是为人体姿态估计任务设计的。HRNet 使用了更为复杂的架构设计。它从初始阶段的一个高分辨率子网络(在高分辨率特征图上进行卷积运算)开始,逐渐添加一些低分辨率子网络。

HRNet 被设计用来保留更多的高分辨率细节。我们使用 HRNet-W32 变体并发现其在精度方面对 F-Clip 表现更好,但在批量大小等于一时,其速度远慢于两堆叠hourglass网络。

预测头。预测头将来自骨干网络的特征图转换为最终表示形式。我们简单地使用两个 3×3 的卷积层后跟一个 1×1 的卷积来匹配输出维度。所有卷积层均采用 ReLU 非线性激活函数。中间 3×3 卷积层的通道大小为 128。

训练。对于堆叠hourglass网络和高分辨率网络,我们分别设置了不同的初始学习率 和 。同时,Focal Loss中的参数 β 对两个骨干网络也有所不同(堆叠沙漏网络的 β = 5,高分辨率网络的 β = 4)。我们选择方程 (6) 中四个损失项的权重 λα = {1, 0.25, 3, 1}。我们在 300 个周期内训练神经网络,并在第 240 和第 280 个周期时将学习率衰减 10 倍。所有实验均在一个 NVIDIA GTX 2080Ti GPU 上进行。我们使用 ADAM 优化器,并将权重衰减设置为 。我们使用的批量大小最大化可用 GPU 内存的利用率。

推理。在推理阶段有两个需要确定的超参数(方程 (7) 中的 δ 和方程 (8) 中的 τ)。对于 δ,我们尝试了从 0 到 1 范围内的 10 个数值(步长为 0.1),并选择最佳值 δ = 0.8。对于 τ,我们尝试了 6 个值(1, 2, 4, 8, 16, 32),最终选择 τ = 2。

4.2 实验设置

数据集。我们在上海科技大学框架数据集上训练和测试 F-Clip,该数据集包含 5,000 张训练图像和 462 张测试图像,均为人造场景。此外,我们将 York Urban 数据集作为测试数据集纳入评估范围,该数据集包含 102 张图像,用于评估不同方法的泛化能力。

基线模型。我们将 F-Clip 与六种基线方法进行比较:LSD、DWP、AFM、L-CNN、HAWP和TP-LSD。其中五种方法是基于监督深度学习的方法。据我们所知,它们各自在其方法类别中代表了最先进水平。为了评估,我们使用每篇论文作者提供的预训练模型,这些模型同样是在上海科技大学框架数据集上训练的。

评估指标。结构平均精度sAP是用于评估框架检测准确性的指标,它使用预测端点与其真实值之间的平方误差之和作为评估标准。当预测的线段的平方误差之和低于某个阈值(例如 ε = 5, 10, 15)时,该预测会被视为正确的检测。在框架解析中使用了 APH 指标。不同于直接使用线段的矢量化表示,我们通过光栅化线段生成热力图来进行解析结果和真实值的对比。

4.3 消融研究

在本节中,我们通过广泛的实验验证了所提出方法的有效性。所有实验均在上海科技大学数据集上进行,并报告了结构平均精度AP的结果。

在表1中,我们对不同训练设计的选择进行了分析。首先,我们展示了使用focal loss对所有指标性能提升约1个百分点的效果,如表1第(a)行和第(c)行所示。这是因为线条中心仅占图像的一小部分,因此正样本与负样本的比例非常小。在这种情况下,focal loss有效地解决了这一问题。其次,我们展示了所提出的旋转和扩展数据增强的有效性。如表1从(b)到(g)行所示,添加旋转和扩展增强分别带来了大约1个和3个百分点的提升。这些结果表明,通过对数据进行不同的几何变换增强,可以获得更有效的线条检测器,其泛化能力更强。

接下来,我们展示了不同推理策略的影响。结果如表2所示。在第(a)项中,我们的方法使用原始的硬非极大抑制(hard NMS)达到了61.5 sAP5。接着,我们应用公式(7)中的SoftNMS,结果提高了2个百分点至63.5。这是因为在这一阶段,仅利用了点信息,因此可能会误删掉具有接近中心位置的不同线条。设置较低的置信度而不是完全删除这些线条保留了纠正错误的潜力。接下来,我们展示了使用StructNMS可以进一步提高性能1个百分点,因为这种机制考虑了整条线。结合这两种新的非极大抑制机制后,相对于原始流程性能提升了3个百分点。

最后,我们对损失函数中各权重进行了消融研究。首先,将权重默认设为1, 0.25, 1, 1,其中λ的值0.25继承自LCNN。由于Focal Loss中的α可以起到与 = 1相同的作用,我们固定 = 1。对于和α,我们固定α = 1并研究的值。表3显示,的最佳值为3。同时,我们固定 = 1并研究α的值,结果表明α = 1是最好的。

4.4 与其他方法的比较

为了确保与先前最先进的方法HAWP进行公平比较,我们对其方法进行了重新实现,并获得了略好的结果。我们采用了与表现最佳的模型F-Clip (HR)相同的超参数设置,包括Focal Loss、骨干网络、更长的训练周期以及数据增强等。实验细节可在第4.5节找到。我们还重新实现了另一种单阶段方法TP-LSD,使用与表现最佳的模型F-Clip (HR)相同的设置,结果见表4中的“TP-LSD (retrained)”。

为了公平比较速度,我们使用单个GPU(RTX 2080Ti)计算了不同方法的每秒帧数FPS。大多数以前的方法关注的是算法延迟(batch-size=1时的FPS),而忽略了吞吐量(batch-size=max时的FPS),后者对于离线批量处理更为重要。我们在表4的最后一列展示了吞吐量指标,这说明了单阶段方法相比两阶段方法更好的并行性能。

表4总结了我们的结果。我们的F-Clip在效率和准确性方面均取得了最先进水平的表现。在极具挑战性的sAP5指标下,使用相同的骨干网络,我们的F-Clip (HG2)实现了与以前最先进方法相当的性能,当batch size等于1时速度快1.4倍。通过将骨干网络从HG2改为HG2-LB,我们可以在不牺牲太多速度的情况下获得额外1.5个百分点的提升。此外,我们的F-Clip (HR)以合理的速度(17.4 FPS)实现了最先进水平的表现,并且吞吐量比HAWP高1.8倍。具体而言,我们的F-Clip (HG1)比另一种单阶段方法TP-LSD高出1个百分点,而速度则快1.8倍。重新实现版本TP-LSD (retrained)显示了我们框架的巨大优势(相比TP-LSD (Res34)大约提高了5个百分点)。当我们减少hourglass块中的层次结构至2时,速度进一步提高到73 FPS。我们的方法不仅在速度上与LSD相当,在sAP5方面的准确率也高出了8倍以上。最终,F-Clip还在YorkUrban数据集上取得了最先进的成果,显示了其良好的泛化能力。

图4展示了sAP10和APH的精确度和召回率曲线。对于上海科技大学数据集,我们的方法在更高召回率的情况下表现出更高的召回率;对于YorkUrban数据集也是如此。

4.5 与最先进方法的比较

为了与之前的最先进方法HAWP进行公平比较,我们采用了以下超参数设置:1) 骨干网络,2) 更长的训练周期,3) 数据增强,4) Focal Loss,这些设置与我们表现最佳的模型F-Clip (HR)相同。

骨干网络:我们的方法采用了一个强大的骨干网络HRnet(在表5中简称为HR)。如表5所示,HRnet并没有给HAWP带来显著的性能提升。

训练周期:由于我们使用了一个强大的骨干网络,因此我们的方法需要更多的训练迭代才能收敛。如表5所示,额外的训练周期并未显著提升最先进的两阶段方法HAWP的性能。

数据增强:正如单阶段目标检测方法中所展示的那样,应用更复杂的数据增强并不会提升两阶段网络的性能。我们也观察到了同样的现象,如表5所示。

Focal Loss:Focal Loss设计用于平衡正样本和负样本。我们将Focal Loss应用于HAWP的节点检测器。如表5所示,Focal Loss对HAWP的性能产生了负面影响。

分析:两个两阶段线框检测方法LCNN和HAWP都是基于节点的方法。节点检测的性能将主导整体线框检测的性能。我们的F-Clip是一种单阶段方法,跳过了节点检测直接预测线条。相比于线条检测,局部特征足以用于节点检测。因此,带有较短训练周期(30个epoch)的hourglass骨干网络就足以收敛到一个好的结果,而带有较长训练周期(300个epoch)的强大骨干网络HRnet并未给HAWP带来显著的性能提升。同时,节点检测器上的Focal Loss甚至对HAWP的性能产生了负面影响。

4.6 可视化

我们在图5中展示了我们的F-Clip以及其他三种方法L-CNN、HAWP和TP-LSD的输出结果。节点标记为青色,线条标记为橙色。由于TP-LSD和F-Clip没有显式输出节点,我们将线条的端点视为节点。最后一列“GT”代表真实值(Ground Truth)。

L-CNN和HAWP高度依赖于节点检测和线条特征采样,这可能导致节点丢失或纹理变化。相比之下,TP-LSD和F-Clip能够在复杂的甚至是低对比度的环境中检测线条段(见图5的第三行)。TP-LSD的一个明显缺点是它捕获了许多冗余线条(详见图5)。

5. 结论

在这项工作中,我们介绍了一种单阶段全卷积线条检测网络F-Clip,该网络可以直接从图像中输出所有线条段的参数。我们将线条段检测表述为对每个线条段的中心点、长度和角度的端到端预测。通过简单调整骨干网络,我们能够获得一系列线条检测网络,这些网络在准确性和速度之间实现了最先进的权衡。我们在大型真实世界数据集上进行了广泛的实验,并证明这种方法在相同帧率下大幅提高了准确性,或者在相同准确性下提高了多倍的速度,从而超越了之前最先进的线框解析和线条检测方法。

—END—

论文链接:

标签: #神经网络实验报告心得体会总结