前言:
眼前我们对“unet网络结构”大概比较注意,兄弟们都想要分析一些“unet网络结构”的相关内容。那么小编同时在网络上汇集了一些有关“unet网络结构””的相关内容,希望看官们能喜欢,同学们快快来学习一下吧!文丨奇怪的玛丽莲
编辑丨奇怪的玛丽莲
前言
冲压是一个对多种参数敏感的过程,零件和冲头质量的估计通常基于专家知识和试错方法,大多作为单独的离线过程分析进行。
但在之前的一项研究中,研究人员开发了一种具有后续图像处理功能的光学在线监控系统,该系统在捕获每个制造零件方面显示出良好的结果,但受到图像处理速度慢的限制。
而在这次的研究中,研究人员提出了一种基于神经网络的更有效的图像处理技术,对于这种方法,根据专家调查建立的标准手动识别图像中的抛光部分,以生成训练数据集。
抛光表面
而研究人员的目的,即在线质量控制,精确测量抛光表面(特别是其高度)至关重要,所以分割不仅必须准确地反映覆盖区域,而且还必须准确地反映抛光表面的形状。
但需要注意的是,必须准确识别边界,即抛光部分和断裂之间的过渡部分,可在表面视图中确定抛光高度不仅是一个技术难题,而且是一个概念难题。
因为抛光表面没有标准化的定义,为了证明缺乏普遍接受的定义,他们进行了一项调查,要求12位行业专家根据他们的理解。
在冲压零件的表面视图中标记抛光表面和断裂表面之间的过渡,但研究结果表明没有明确的共识,相反抛光部件的单独定义高度依赖于所生产的部件及其应用。
通过研究不同专家分割的重叠主要特征,用于训练、验证和测试的图像是在冲压过程中通过监控系统捕获的,灰度分辨率为1280x1024像素。
它们是在材料测试期间拍摄的,图像的左侧发生了冲孔失败,但此次测试总共捕获了17000张图像。
在图像中,抛光表面被明亮地照亮,具有垂直凹槽的纹理以及到其他切割表面部分的不均匀过渡,由于参数波动或冲头故障,抛光表面也会出现撕裂。
数据集
选择这些图像的不相交子集作为训练和测试数据,为了表示冲头使用寿命内的持续磨损,从数据集中的不同阶段拍摄了图像。
第一阶段包含除自然波动之外具有均匀磨损率和一致抛光高度的图像,而第二阶段包含具有均匀磨损率和一致抛光高度的图像。
到了第二阶段包含具有渐进磨损率的图像,所以要减少和增加抛光高度,直到最后,第三阶段包含用损坏的冲头生产的零件的图像,并显示抛光高度内的撕裂。
总共为数据集选择了415张图像,通过根据上述指定的标准手动分割抛光表面的每个部分,为数据集的每个图像创建地面实况掩模图像。
需要注意的是,标签将每个图像按像素划分为不同的类别根据专业知识抛光表面和背景,由于所有零件(以及所有图像)都是使用相同的工具和相同的参数生成的。
所以当然存在过度拟合此特定过程中的特征的高风险,但由于分割理想情况下应该适用于来自不同过程的图像,而无需重新训练。
研究人员尝试通过增强方法扩展数据集来避免这种影响:每个图像和相应的地面真实掩模都通过不同的操作进行复制和更改。
但这些包括改变亮度值以代表不同的材料组合,垂直镜像以改变撕裂或缺陷的位置,以及缩放图像以代表不同的材料厚度。
为了模拟较薄的材料,图像沿高度轴压缩并插入到具有相同背景噪声的图像中以保留尺寸,而对于较厚的材料,按1.5和3的比例缩放并沿切割表面随机剪切。
这样它们的下方和上方的像素比率就相同,这也像监控系统图像所预期的那样,但要请注意,每种增强技术都模拟材料属性的差异,因此研究人员将单独考虑每个子类别进行评估。
而图像增强将数据集扩展至10086张图像,分为训练(6052张图像)、验证(2017张图像)和测试(2017张图像),为了减少训练时间,所有图像都重新缩放为像素。
尽管更高分辨率可能更适合精确测量任务,但仍然可以通过减小的图像尺寸来分析分割功能,图像数据集中背景(BG)和前景(FG)之间的比例对于网络和损失函数的选择很重要,
在显示出轻微的不平衡后,比例为9:1,在以下情况下可能会增加到20:1应用取决于监控系统的规格。
评估指标和损失函数
为了评估基于神经网络的图像处理方法的质量,选择适当的评估指标来测量由神经网络识别为抛光表面的区域的准确性对于地面真实标签(即实际抛光)至关重要。
根据专家知识在图像中的表面,创建了一个组合度量(CM)来根据我们的定义评估预测,总尺寸,特别是抛光部分的高度是重要的质量指标。
但为了量化抛光高度,获得边界的精确分割非常重要,这种指标应允许根据发现的撕裂部分的尺寸和数量进行加权,这对于评估零件质量也发挥着重要作用。
在针对给定超参数的神经网络的实际训练期间,修改网络参数以最小化训练数据集上的损失函数,所以选择合适的损失函数对于确保神经网络的预测准确对应真实情况至关重要。
在之前的分析中,比较了四个分割任务的多个损失函数,对于包含肝脏和肝脏肿瘤图像的数据集,可以认为它与我们基于BG:FG比率的数据集相似。
与Dice相关的化合物的组合损失被证明适合分割任务,Dice损失是一种基于区域的损失函数,它会惩罚真实值与预测之间的不匹配区域,类似于Dice相似系数。
网络架构
出于研究人员的目的,使用专门为处理单色图像而开发的神经网络架构似乎是合理的,研究人员考虑了以前用于医学图像分割任务甚至最初开发的几种网络结构。
首先,在给定的数据集上对来自三种选定类型的架构的神经网络进行训练、分析和比较。然后,进一步分析和开发提供最佳性能的网络。
而所选的架构是SegNet、UNet++、MedT 和nnU-Net,而SegNet最初是为道路场景开发的,重点是低内存消耗和高效的计算时间。
正因如此,这种架构包含比UNet++或MedT更少的可训练参数,SegNet的主要新颖之处在于解码器上采样,即在相应编码器的最大池化步骤中计算的索引池化以执行非线性上采样。
反观UNet++是U-Net的扩展,它是为包含数据增强而构建的,以便有效地从具有很少标记图像的数据集中学习。
经典的UNet++网络由五层组成,编码器称为主干,与U-Net相比,以金字塔结构的形式包含到解码器的额外跳跃连接,这应该克服U-Net中简单跳跃连接的输出为种类太不同了。
MedT由两层全局子网和五层局部子网组成,全局子网络处理完整的输入,而局部子网络将输入图像分为16个部分,分别处理然后重新组合。
研究人员明确选择MedT作为经典CNN方法的替代方案,因为该架构不仅仅由卷积组成,还包括门控轴向注意力层作为主要处理单元。
除此之外,全局和局部分支的组合确保了局部子网络能够使用更多图像进行有效训练,这对于较小的数据集是有利的。
最后,nnU-Net是一种用于医学图像分割的自配置方法,它自动生成架构布局,并基于相互依赖的规则和经验下降进行训练和后处理。
它是公开可用的,并且在多个生物医学分割竞赛中得分最高,但训练和评估是在PyTorch中以混合精度实现的,并在NVIDIAQuadroRTX5000上执行。
由于网络之间内存消耗的差异,必须使用不同的批量大小,所以每个网络都训练了100个epoch。
学习率从3e-4开始,每当训练的移动平均值停滞20个周期时,学习率就乘以0.2,直到达到最小学习率1e-6。nnU-Net的训练是在它自己的框架中进行的。
不同架构的比较
在训练每种架构类型的实例后,计算测试数据集的每个增强子类别,训练过程中损失函数的过程表明训练成功。
由于实时分割对于该过程至关重要,还需要考虑推理时间,就综合指标而言,UNet++的表现比SegNet好17.94个百分点,比MedT好5.67个百分点,比nnU-Net好3.25个百分点。
对于其他分数,UNet++也表现得比较好,对每个子类别的指标进行分析表明与nnU-Net、MedT和SegNet相比,UNet++对三倍放大图像的响应最佳。
特别是后两者,往往会错误地识别多个撕裂部分,而不是单个主要部分,正因为这些结果,UNet++被选为最适合识别抛光表面的网络架构。
UNet++优化
为了进一步研究UNet++的属性和超参数,首先通过使用默认参数训练网络总共五次来建立参考分数,使用不同的超参数设置训练模型,并将各个指标得分与这些参考值进行比较。
只有与参考值相差超过标准差的分数才被认为是显着变化,但对于某些指标,改进由较低的分数表示,而对于其他指标,较高的分数对应于更多的指标。
之后是分析的超参数是网络层数、每层特征图和每个块的卷积层数,研究人员的参考UNet++使用5层和块深度2,第一层有32个特征图。
每一层这个数字都会加倍,因此最后一层使用512个特征图,为了分析特征图数量与预测之间的关系,比较了第一层具有8、16和64个特征图的网络,保留每层的重复项。
研究结果在将第一层特征图的数量增加到64后,组合指标虽小但显着提高了0.67个百分点,所有其他指标也通过此配置得到了改善。
正如预期的那样,从特征图较少的图像中提取的细节较少,网络对图像结构的变化不太敏感,并且在分布范围更广的情况下往往会获得更差的结果,放大三倍的图像证实了这一点。
他们还考虑了每个块具有一层和三层的网络,但由于每层处理的数据量发生变化,深度为1的网络显示推理时间减少,总体得分稍差。
除此之外,每个块的层数较多,会带来微小的改进:与参考架构相比,可以分配更多的撕裂部分,并且综合指标得分略高,而且这些优点伴随着推理时间的增加。
之后研究证明还验证了不同层数网络之间的比较,虽然较少的层在组合指标方面提供较差的结果,但通过增加层数。
分配的撕裂部分和孔比率的分数明显提高,这表明深层可以帮助处理更复杂的特征。
超参数之间的协同作用
考虑到结果,他们选择了一个具有64个特征图、每块3层、6层的网络进行进一步比较,这种模型可以看作是最佳性能超参数之间的综合。
在组合指标方面比默认模型提高了0.66个百分点,同时在除孔比之外的所有其他指标上都表现更好,但研究人员注意到,由于结构更加复杂,推理时间显着增加。
所以研究人员考虑采用每层增加块深度且总共6层的架构,他们使用增量块深度修改UNet++结构,使得第一(顶部)层中的块包含一个卷积层,第二层中的块包含两个层等。
这种架构修改背后的基本假设是,简单属性的处理发生在上层中,而下层处理更复杂的特征,比如说,像素是否位于更大的一组中明亮的像素,该组有多大。
增加较低层的块深度并不会在不同的度量分数方面带来更好的结果,而由于更复杂的结构,推理时间增加了一倍以上。
之后他们考虑用DenseNet替换UNet++结构中的主干,类似于的工作,但扩展到UNet++结构,遵循这样的基本假设:这种修改通过密集连接将每一层与前一层连接起来。
通过丰富了深层中复杂特征的信息,但由于反复影响,这应该会导致边界细节的 整体改进的功能。
密集主干架构确实在不同指标分数方面带来了可比或更好的结果,并且推理时间略有增加,所以根据组合指标,密集骨干网的性能仍然优于超参数优化网络。
结论
快速准确的图像分割对于冲压过程中质量参数的循环处理至关重要,但由于先前的抛光表面分割方法对于实时应用来说太慢,机器学习提供了一种有前途的替代方法。
由于众所周知相关任务可以在生物医学环境中通过神经网络来解决,因此研究人员比较了用于抛光部分分割的网络架构SegNet、UNet++、MedT和nnU-Net。
这种评估是通过新开发的指标进行的,该指标可以同时评估边界和区域重叠方面的分割精度,用于优化网络参数的损失函数考虑相同的目标。
正因如此,可以在训练和评估期间优先考虑特征,附加指标分数的模块化选择允许对结果进行更具体的评估,比如预测和真实情况之间的撕裂部分或孔洞的比率可能被认为特别重要。
标签: #unet网络结构