强化SuperPoint & SiLK！使用NeRF增强特征点检测+描述！

3D视觉工坊 07-24 146

前言：

今天咱们对“特征检测器”可能比较关怀，大家都需要知道一些“特征检测器”的相关资讯。那么小编在网摘上汇集了一些有关“特征检测器””的相关文章，希望各位老铁们能喜欢，大家一起来了解一下吧！

来源：3D视觉工坊

添加小助理：dddvision，备注：NeRF，拉你入群。文末附行业细分群

不同场景视角下的特征点检测和描述是许多多视图问题的第一步，包括SfM（Structure-from-Motion）、视觉SLAM或视觉地点识别。基于学习的模型中的大多数可以在任何单视图数据集上以自监督方式进行微调。这是通过将不同的单应性变换应用于训练数据来实现的，从而模拟具有已知点对点"地面真值"映射的相同场景的不同视角。虽然这种训练方案简单且灵活，但生成的单应性变换是对多视角透视的粗略简化，可能导致模型的泛化能力有限。

因此，这篇文章旨在利用神经辐射场（NeRFs）进行图像合成，作为生成特征检测和描述模型的多视图训练数据的更现实的方式。由于 NeRFs 需要多视图数据来合成新视图，不能再依赖于通常用于训练上述基于单应性的方法的单一图像数据集。因此，作者创建了自己的数据集，包括围绕静态场景的室内和室外图像序列，并使用 NeRFacto对它们进行重建。这使得可以生成每个场景的任意视角，与通过点重新投影进行已知点对点映射的针孔投影模型保持一致。作者提出了一种通用方法，将最先进的基于单应性的方法升级为使用从 NeRF 类型算法合成的投影视图进行训练。

下面一起来阅读一下这项工作~

标题：NeRF-Supervised Feature Point Detection and Description

作者：Ali Youssef, Francisco Vasconcelos

机构：伦敦大学学院

原文链接：

特征点检测和描述是各种计算机视觉应用的支柱，如运动结构、视觉SLAM和视觉地点识别。虽然基于学习的方法已经超越了传统的手工制作技术，但它们的训练通常依赖于简单的基于单应性的多视角模拟，从而限制了模型的泛化能力。本文介绍了一种利用神经辐射场（NeRFs）进行真实多视角训练数据生成的新方法。我们使用NeRFs创建了一个多样化的多视角数据集，包括室内和室外场景。我们提出的方法采用了最先进的特征检测器和描述符，通过透视投影几何进行NeRF合成视图的训练。我们的实验证明，与现有方法相比，所提出的方法在相对姿态估计、点云配准和单应性估计的标准基准上取得了竞争性或优越性能，同时需要的训练数据明显较少。

多视图数据的可视化表示。基于学习的检测器和描述符通过对输入图像进行同态变换来模拟不同的视点，从而实现对单视点数据集的监督，得到I′(中间图)。而这篇文章通过直接从不同视点(右图)对NeRF渲染图像进行采样来实现监督。

定制相机运动轨迹。NeRF Studio中自定义相机轨迹的可视化表示交互式实时查看器。图b展示了图a中相机2的视点。

深度窗口估计。在图a中，用红色和紫色描绘的兴趣点位于绘画的框架中，在没有深度窗口估计方法的情况下，显示出对图像I′的错误投影。然而，通过使用如图c所示的深度窗口估计方法，有效地减轻了误投影误差。

（1）创建了一个新的多视图数据集，包括来自10个不同室内和室外场景的图像，以及从这些场景中合成的总共10000个 NeRF 视图，具有相应的深度图、内参和外参参数。

（2）提出了两种通用方法（端到端和投影适应）来使用基于 NeRF 重新投影误差的损失函数来训练最先进的点检测和描述方法。

（3）使用合成的 NeRF 数据重新训练了 SuperPoint和 SiLK的改进版本，并将它们与在规模更大的 MS-COCO 数据集上训练的原始基线进行比较。在 ScanNet 和 YFCC100M 数据集上的相对姿态估计方面优于原始基线，在成对点云注册方面表现相似，而在 HPatches 单应性估计基准测试中仅略微表现不佳。

SiLK-PrP

自监督的点检测方法可以轻松地适应利用 NeRF 训练数据。作者提出了一个基于 SiLK 的改进版本，该版本在训练期间简单地用 NeRF 渲染和点重投影替换了单应性变换，同时保持了其余的训练流程和损失函数不变。

在原始的 SiLK 方法中，训练期间会通过单应性变换动态生成具有地面真实双向对应关系的图像对。作者依靠预渲染的 NeRF 数据集，避免了由于动态图像渲染导致的重大计算开销。在训练期间，随机采样相同场景的图像对 I 和 I'，然后在训练过程中生成像素级别的密集地面真实点对应关系。

SuperPoint-PrP

SuperPoint 是一个经过多阶段训练的自监督方法。首先，通过完全监督的方式在一个包含简单几何形状的合成数据集上训练一个具有检测头的编码器以检测角点。预训练的检测器 MagicPoint 被用来在真实数据集（例如 MS-COCO）上使用一种称为单应性适应的过程生成伪地面真实兴趣点。这涉及生成训练图像的多个单应性变换的副本，将它们通过训练好的检测器，将所有预测结果反向解除变换回原始训练图像，并最终聚合所有解除变换的预测结果以生成伪标签。该过程可以重复多次，在每轮单应性适应之后，检测器头部会进一步训练，更新伪地面真实标签，同时改善检测器头部的泛化能力。在最后一轮单应性适应之后，将描述器头部添加到模型中，并在真实数据集上使用附加描述器损失项与整个模型一起进行联合训练，从而得到 SuperPoint 模型。

采用 NeRF 训练数据方法时，使用了原始 SuperPoint 模型的相同架构。但是，修改了单应性适应过程以及描述器损失，以处理NeRF 训练数据和点重投影过程。

如表1所示，PrP训练的模型在所有HPatches指标上均被它们的基准对应物超越。尽管如此，这个结果是可以预期的，因为SiLK-PrP和SuperPoint-PrP都不具备旋转或尺度不变性，与它们对应的基准模型相比。另一方面，尽管SiLK-PrP-Aug试图整合就地增强以实现旋转和尺度不变性（见图4），但与SiLK模型相比还是不足。

表2进一步探讨了SiLK-PrP-Aug的单应性估计性能，揭示了其单应性估计与SiLK在视点变化的场景中保持一致。然而，在光照条件变化的场景中观察到了性能下降。这种差异导致了表1中SiLK-PrP-Aug和SiLK之间的性能差距。作者选择在训练SiLK-PrP和SiLK-PrP-Aug时使用与SiLK相同的光度增强，然而，在NeRF数据集上优化SiLK-PrP和SiLK-PrP-Aug的光度增强参数可能会带来改进的结果。

正如表3所示，PrP模型在所有角度姿态误差阈值下始终优于各自的基准模型。尽管相较于SuperPoint，SuperPoint-PrP和SuperPoint-PrP-Hyb的性能提升较小，但与SiLK相比，SiLK-PrP和SiLK-PrP-Aug的改进明显，特别是在角度阈值增加时。

不幸的是，相对姿态估计将平移误差计算为地面真实和估计平移向量之间的角度平移误差。由于计算的角度平移误差只能达到某个比例因子，因此该计算存在不稳定性。这种不稳定性可以在图5中看到，当地面真实相对平移向量的范数(||tGT||)约为0.2或更低时，角度平移误差是不稳定的。

为了解决这个问题，作者对室内相对姿态估计进行了改进评估。对于||tGT||低于设定为0.15的阈值的场景，仅报告基于角度旋转误差的姿态误差AUC。此外，对于阈值ϵ超过0.15的场景，报告姿态误差AUC为角度旋转误差和角度平移误差之间的最大值。正如表4所示，所有模型在估计具有视点之间最小平移的场景中都表现出色。值得注意的是，在这种特定情况下，PrP模型在性能上略有优势。此外，在地面真实相对平移超过定义阈值的场景中，与表3中报告的结果相比，PrP模型的进一步改进也是可观的。

与表3中获得的结果类似，PrP模型在户外场景的相对姿态估计中超过了相应的基准模型，正如表5所示的结果所观察到的。表3至5中报告的结果共同突显了在训练过程中受到PrP监督的模型在相对姿态估计能力方面的显着改进。

如表6所示，SuperPoint-PrP和SuperPoint-PrP-Hyb在所有指标上始终略优于基准SuperPoint模型，除了在5厘米阈值的平移上。此外，SilK通常比SiLK-PrP和SiLK-PrP-Aug保持1-3%的优势，除了在5厘米平移阈值上，其中为5%；然而，SiLK PrP训练的模型与基准SiLK模型保持竞争力。

值得强调的是，SiLK是在相对较小的图像尺寸[164x164]上训练的，而NeRF数据集包含更大的图像[640x480]。由于点云注册是在图像尺寸[128x128]上进行的，预期SiLK在较低图像尺寸下表现优于SiLK-PrP，然而，结果还表明，SiLK PrP训练的模型可以在低分辨率下检测到高质量的兴趣点。

这篇文章介绍了一种新的方法，以合成的NeRF数据为基础，利用透视投影几何来监督基于学习的特征点检测器和描述符。尽管提出的数据集仅由合成图像组成，而不是真实的RGB图像，并且相对于大型开源数据集来说比较小，但结果表明，没有观察到泛化能力或特征点检测质量的下降。正如预期的那样，模型通常在具有高度非平面场景的多视角基准上优于同质性训练的基线，而在同质性估计基准上略有不足。进一步提高训练数据的质量的潜力在于，利用神经渲染的进步可以生成更高质量的合成图像，避免误投影错误的更精确的深度图。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「3D视觉工坊」后台，回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理：dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。