最新工业3D异常检测革新！LSFA自监督特征适应框架

3D视觉工坊 03-22 165

前言：

而今看官们对“立体视觉自测图检查”大体比较讲究，我们都想要学习一些“立体视觉自测图检查”的相关文章。那么小编在网络上搜集了一些有关“立体视觉自测图检查””的相关内容，希望各位老铁们能喜欢，姐妹们一起来学习一下吧！

来源：3D视觉工坊

添加小助理：dddvision，备注：缺陷检测，拉你入群。文末附行业细分群

论文题目：Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection

作者：Yuanpeng Tu1, Boshen Zhang等

作者机构：Dept. of Electronic and Information Engineering, Tongji Univeristy, Shanghai等

论文链接：

本研究致力于解决工业异常检测中2D数据输入不足以识别微小几何表面异常的问题。我们研究了早期多模态方法，尝试利用在ImageNet等大规模视觉数据集上预训练的模型构建特征数据库。经验表明，直接使用这些预训练模型存在问题，因为可能无法检测到细微缺陷或将异常特征误认为正常。为解决领域差异问题，我们提出了一种本地到全局的自监督特征适应方法（LSFA），用于微调适配器并学习面向异常检测的任务导向表示。LSFA从局部到全局的角度优化了模态内适应和模态间对齐，以确保推断阶段的表示质量和一致性。实验证明，我们的方法不仅显著提升了基于特征嵌入的方法的性能，而且在MVTec-3D AD和Eyecandies数据集上明显优于先前的最先进方法，例如，在MVTec-3D上，LSFA的I-AUROC达到97.1％，超过先前最先进方法3.4％。

读者理解：

本文提出了一种名为LSFA的自监督多模态特征适应框架，旨在解决3D异常检测中的特征学习问题。通过局部到全局的模态对应关系监督，以及Intra-modal Feature Compactness optimization和Cross-modal Local-to-global Consistency alignment方法的引入，LSFA在主流基准测试上表现出色，取得了新的最优成绩，方法值得参考。

本文的主要贡献为：

提出了LSFA框架，这是一个创新且有效的用于3D异常检测的框架。LSFA通过在模态之间建立局部到全局的对应关系作为监督来适应预训练特征，在主流基准测试中展现了显著的优势，并取得了新的最优成绩（SOTA）。

引入了Intra-modal Feature Compactness optimization（IFC）方法，通过动态更新的内存库从局部和原型的角度改善特征的紧凑性。这有助于提高对异常模式的敏感性。

提出了Cross-modal Local-to-global Consistency alignment（CLC）方法，利用多粒度对比信号减轻跨模态不一致性。这有助于解决跨模态特征错位的问题。

1 引言

本文探讨了工业异常检测这一计算机视觉任务，其目标是在工业产品中检测异常的图像级和像素级模式。鉴于实际场景中缺乏足够的异常样本，当前异常检测方法主要采用无监督范式，即通过使用正常样本进行训练，但在测试时涉及正常和异常样本的混合。先前的2D异常检测方法在工业检验场景中取得了显著的成功，但由于缺乏深度信息，使用RGB数据难以区分微小的表面缺陷和正常纹理。

为了解决这一问题，最近的异常检测基准引入了多模态视图，其中对象同时用2D图像和3D点云表示。在2D异常检测方法中，基于重建和基于特征嵌入的两个方法家族被广泛研究。尽管特征嵌入方法在2D RGB异常检测任务上表现出了良好的性能，将其范式应用于3D领域并不简单。本文引入了一个新颖的本地到全局的自监督多模态特征适应框架（LSFA），以更好地将预训练的知识应用于3D异常检测任务。

LSFA通过模态内和模态间适应来提高预训练模型的能力，并学习面向任务的特征描述符。为了克服模态适应中的挑战，LSFA提出了两种适应策略：模态内特征紧凑性优化（IFC）和跨模态本地到全局一致性对齐（CLC）。IFC通过多颗粒度的存储库学习正常特征的紧凑分布，而CLC则在不同模态的特征上引入了一致性对齐。LSFA调整后的模型能够在3D空间中捕捉小的异常，并避免误报。

最终，LSFA在主流基准上验证了其有效性，包括MVTec-3D和Eyecandies。在MVTec-3D上，LSFA相对于先前的SOTA取得了显著的性能优势，即在I-AUROC上达到了97.1%（+3.4%）。总体而言，本研究提出了一种创新的框架LSFA，该框架在3D异常检测任务中取得了显著的优势，并引入了两种关键的适应优化策略，为该领域的进一步研究提供了有价值的贡献。

2 方法

本文提出了一种名为Local-to-global Self-supervised Feature Adaptation（LSFA）的框架，旨在解决工业领域中由于2D数据输入而难以识别微小几何表面异常的问题。

框架概览：LSFA框架接收点云和RGB图像作为输入，通过预训练的特征提取器获得模态特定的表示。为了适应这些表示到下游检测任务，引入了一个适应器，采用了基于transformer的编码层。适应器用于两个模态。LSFA通过两个途径进行任务导向的特征适应：模态内特征紧凑性优化（IFC）和跨模态本地到全局一致性对齐（CLC）。

IFC（Intra-modal Feature Compactness Optimization）：通过构建动态更新的本地和全局存储库，实现了对RGB和点云模态的特征的本地和全局紧凑性优化。本地紧凑性通过最小化同一模态中不同patch之间的特征差异来实现，全局紧凑性通过对全局特征进行最近邻搜索来实现。这有助于使正常样本的表示更加紧凑，使模型对异常模式更为敏感。

CLC（Cross-modal Local-to-global Consistency Alignment）：通过将两个模态的特征映射到相同维度，然后通过局部对比损失和全局对齐损失来进行局部到全局的交叉模态一致性对齐。这有助于增强特征质量，减轻两个模态之间的特征不一致性，利用自监督信号增强多模态信息的交互。

推断阶段：在适应过程之后，仅利用适应器的局部特征进行最终推断。通过PatchCore算法计算每个像素/体素的异常分数，最后将两个模态的异常分数平均，作为最终的异常估计。

训练过程：使用LSFA框架的训练过程包括对IFC和CLC两个适应优化策略的损失进行最小化。LSFA通过动态更新的存储库进行本地和全局的适应。整个训练过程通过联合考虑模态内的特征紧凑性和跨模态的一致性对齐来提高特征的质量。

该方法在MVTec-3D和Eyecandies等主流基准上进行了广泛实验证明，相对于先前的SOTA方法取得了显著的性能提升，例如在MVTec-3D上达到了97.1%（+3.4%）的I-AUROC。总体而言，LSFA框架为3D异常检测任务带来了显著的优势，并引入了两种关键的适应优化策略，IFC和CLC，为该领域的进一步研究提供了有价值的贡献。

3 实验

数据集和实现细节

数据集选择：在MVTec-3D AD和Eyecandies这两个3D工业异常检测数据集上进行实验。

实现细节：使用ViT-B/8和点变换器进行RGB和3D模态的特征提取，采用动态更新的记忆库，消除背景影响。适配器的大小设置为224×224。AdamW优化器，余弦热身，适应的批量大小设为8。

3D AD基准比较

实验指标：使用I-AUROC，AUPRO，P-AUROC对3D/RGB/3D+RGB模态进行全面评估。

结果：LSFA在所有指标上都明显优于先前方法，对所有类别的平均性能提升显著。

消融研究

IFC的影响：使用动态更新的记忆库进行IFC，显著提高I-AUROC和AUPRO。

CLC的影响：CLC通过多尺度跨模态对比学习取得类似的准确性，进一步提高性能。

定性结果：定性实验显示RGB和3D模态分布的差异，两种模态的组合有助于精确定位缺陷。

参数敏感性：LSFA对参数敏感性较低，对记忆库大小和平衡因子的变化性能保持稳定。

适配器结构的影响：单个基础变压器编码器层在适配器结构中表现最佳。

少样本异常检测

实验设计：在极端情况下，从每个类别中抽取少量样本进行训练。

结果：即使在少样本设置下，LSFA仍然表现出色，相较于完整训练的方法也表现优异。

与微调方法的比较

微调对比：移除适配器并与LoRA和AdaLoRA结合进行对比。

4 总结

LSFA框架通过自监督多模态特征适应，在模态内和模态间均取得了显著的优势。通过动态更新的记忆库，优化了特征的紧凑性，提高了对异常模式的敏感性。局部到全局的一致性对齐策略实现了多尺度模态间信息的有效交互。实验证明，LSFA在多模态异常检测任务中明显超过了先前的方法，并显著提升了现有特征嵌入基线的性能。

下载

在公众号「3D视觉工坊」后台，回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理：dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

本文地址：http://www.longkongtuishu.com/ca87aDGsFDFoBCA.html