龙空技术网

昆明理工大学胡明洪:结合多路径的高分辨率遥感影像建筑物提取SER-UNet算法 |《测绘学报》2023年52卷第5期

测绘学报 498

前言:

眼前你们对“最大生成树算法有哪些”大约比较着重,兄弟们都需要了解一些“最大生成树算法有哪些”的相关文章。那么小编同时在网上搜集了一些对于“最大生成树算法有哪些””的相关文章,希望兄弟们能喜欢,咱们一起来了解一下吧!

本文内容来源于《测绘学报》2023年第5期(审图号GS京(2023)0967号)

结合多路径的高分辨率遥感影像建筑物提取SER-UNet算法

胡明洪, 李佳田, 姚彦吉, 阿晓荟, 陆美, 李文 昆明理工大学国土资源工程学院,云南 昆明 650093基金项目:国家自然科学基金(41561082)摘要:针对深层卷积较难兼顾全局特征与局部特征从而导致提取建筑物边缘不准确和微小建筑物丢失的问题,以注意力机制和跳跃连接为基础提出SER-UNet算法。SER-UNet算法在编码器阶段耦合SE-ResNet和最大池化层,在解码器阶段关联SE-ResNet与反卷积层,通过跳跃连接将编码器提取的浅层特征和解码器提取的深层特征进行融合后输出特征图。验证SER-UNet算法的有效性,在MAP-Net网络并行多路径特征提取阶段使用SER-UNet算法替换原网络中的特征提取结构,分别在WHU数据集和Inria数据集上进行评估,IoU与精度分别达91.46%、82.61%和95.67%、92.75%,对比UNet、PSPNet、ResNet101、MAP-Net网络,IoU分别提高0.49%、0.14%、1.89%、1.57%,精度分别提高0.14%、1.06%、2.42%、1.09%。分析SER-UNet算法的泛化能力,将级联SER-UNet的MAP-Net网络在AerialImage数据集上进行提取验证,IoU与精度分别达85.32%和94.13%。结果表明,结合SER-UNet算法的MAP-Net并行多路径网络表现出较好的提取精度与泛化能力。此外,SER-UNet算法可以有效地嵌入PSPNet、ResNet101、HRNetv2等网络中,提升网络特征表示能力。关键词高分辨率遥感影像 建筑物提取 并行多路径 注意力机制 跳跃连接

引文格式:胡明洪, 李佳田, 姚彦吉, 等. 结合多路径的高分辨率遥感影像建筑物提取SER-UNet算法[J]. 测绘学报,2023,52(5):808-817. DOI: 10.11947/j.AGCS.2023.20210691HU Minghong, LI Jiatian, YAO Yanji, et al. SER-UNet algorithm for building extraction from high-resolution remote sensing image combined with multipath[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(5): 808-817. DOI: 10.11947/j.AGCS.2023.20210691 阅读全文引 言

高分辨率遥感影像建筑物提取主要分为传统和深度学习两种类型方法。传统方法[1-4]通过设计特定算法表达建筑物的影像特征以实现检测目的。文献[5]设计线性化和全局正则化算法从大规模点云中绘制住宅轮廓,实现建筑物的提取。文献[6]通过将Top-hat滤波和K-means算法相结合实现对建筑物屋顶的提取。文献[7]将LiDAR数据和航空影像融合以有效地提高建筑物提取精度。文献[8]使用最小生成树与矩形指数控制分割尺度,提取的建筑物完整性较好。文献[9]提出自适应池化模型,采用主成分变换非监督方法,通过轮廓变换提取建筑物的纹理特征。传统建筑物提取方法需要根据建筑物影像的光谱、纹理、几何与阴影特征设计特征提取算法,因此,容易受到建筑物复杂多变的结构及成像条件等影响。神经网络方法在建筑物提取方面表现出较好的学习能力和泛化能力。文献[10]综述神经网络在路网提取、建筑物检测及作物分类等方面的语义表征能力。文献[11]提出全卷积神经网络(fully convolutional network,FCN),使用完全卷积层替换AlexNet[12]、VGGNet[13]和GoogLeNet[14]等神经网络的全连接层,实现端到端、像素到像素的语义分割。基于FCN文献[15—17]提出特征提取网络取得较好的结果,常被用于建筑物语义分割。文献[18]中UNet网络以编码-解码器为基础提出跳跃连接思想,将深浅特征进行融合以提升语义分割精度,相比于FCN网络,UNet网络能够提取更加完整的特征。文献[19]使用SegNet[20]上采样层代替VGGNet16全连接层并将网络设计为U形结构,使提取建筑物边缘完整性得到一定提升。文献[21]提出ResNet网络通过引入残差层(Residual)解决梯度消失问题,有效加深了网络深度,在特征提取过程中能够获取更大感受野,使提取的多尺度特征更加丰富。文献[22]提出PSPNet网络通过金字塔池化模块和金字塔场景解析模块聚合不同区域多尺度特征,实现更高精度的特征提取。文献[23]给出特征金字塔对象感知网络,其通过结合自上而下和自下而上的特征框架并引入对象感知多尺度注意力机制,有效地解决建筑物遮挡问题。文献[24]提出SE-Net结构通过显式地建模通道之间的相互依赖性,自适应地重新校准通道特征响应,使网络自适应地选择重要特征,抑制不重要特征,有效地提高特征提取精度。文献[25]提出并行路径神经网络(MAP-Net),首先通过并行多路径学习空间定位保留的多尺度特征,然后将这些多尺度特征融合,使提取建筑物全局特征同时保留局部特征,进一步提高特征提取精度。尽管以上特征提取网络达到较高的精度,但随着卷积与池化加深容易丢失空间信息,较难准确地提取微小建筑物及大型建筑物边缘。鉴于以上网络所提特征完整性不高,提出基于注意力机制的SER-UNet算法,并用其替换MAP-Net网络多路径特征提取阶段,使网络在提取特征时能够有效地保留重要特征,抑制不重要特征。此外,SER-UNet算法利用跳跃连接将浅层和深层多尺度特征融合,在保持深层语义信息的同时融入局部特征,进一步改善所提特征图边缘不完整、漏检微小建筑物的问题。

1 多路径遥感影像建筑物提取网络1.1 SER-UNet算法深层卷积容易丢失浅层全局特征导致较难兼顾全局特征与深层局部特征,但利用注意力机制具有划分特征重要程度的特点却能有效改善这一问题。SE结构[25]由压缩模块(Squeze)和激励模块(Exciation)构成,如图 1所示,Fsq表示压缩模块,Fex表示激励模块,FC1表示Fex中第1个全连接层,Relu为激活层,FC2表示Fex中第2个全连接层。压缩模块用平均池化(Avg-Pooling)将Inputc(H,W)压缩为具有全局感受野且通道数不变的特征图。图 1 SE结构Fig. 1 SE structure图选项

由图 1可知,SE结构具有筛选重要特征丢弃不重要特征的作用,但SE中的两个全连接层容易丢失特征空间位置信息而导致特征提取效率降低,而深度残差结构[21]采用一个简单的有向曲线和卷积在输入和输出之间建立恒等映射却能有效地解决这一问题。因此,SER-UNet算法中采用在深度残差结构中嵌入注意力机制的SE-ResNet结构来提高特征提取效率。SE-ResNet结构有助于提高特征提取效率,但会导致网络层数加深而丢失部分浅层全局特征,而UNet网络[18]提出的跳跃连接结构将深层和浅层特征融合,能够克服浅层全局特征的丢失,且丰富从影像中提取的语义特征,已在目标检测、语义分割、目标提取等领域得到验证。因此,SER-UNet整体结构借鉴UNet的解码-编码与跳跃连接,具有Ln和nC两个超参数,分别表示结构的尺度和特征图通道数,其中:2C、4C、8C表示输入通道数的2、4、8倍;L4表示SER-UNet算法的编码、解码器各有4层。结构描述如图 2所示,图中蓝色箭头表示跳跃连接,Pooling表示最大池化,Deconv表示反卷积,其包含一个1×1卷积用于恢复通道数。图 2 SER-UNet算法Fig. 2 SER-UNet algorithm图选项

SER-UNet算法中,通道数为C,尺寸为H×W的输入特征图Input先通过SE-ResNet进行一次特征提取,保持通道数为C,之后使用最大池化层将特征图尺寸压缩为输入特征图的H/2×W/2,编码阶段的第2个SE-ResNet结构在进行特征提取时将最大池化输出特征图通道数改变为2C,再使用第2个池化层将提取到的特征图压缩为输入特征图的H/4×W/4,第3个SE-ResNet和最大池化层输出的特征图通道数和尺寸分别为4C、H/8×W/8,最后使用SE-ResNet进行一次特征提取,使解码器输出的特征图通道数和尺寸分别为8C、H/8×W/8;解码器中先使用一个反卷积将编码器阶段最后一个SE-ResNet提取的特征图尺寸恢复为H/4×W/4,然后使用一个1×1卷积将通道数恢复为4C,接着,利用跳跃连接将编码器和解码器阶段的特征图相加,后面的反卷积和SE-ResNet重复这一过程,最终输出通道数和大小分别为C、H×W的特征图Output。1.2 结合SER-UNet算法的MAP-Net多路径网络相较于编码-解码器网络,并行多路径结构的MAP-Net网络提取的多尺度特征更加完整,较有效地改善丢失细节信息的问题。但MAP-Net网络中每条路径上级联由简单卷积构成的Gen block及Conv block,缺乏抑制不相关特征的能力,在特征提取时容易出现错分的情况,从而导致提取大型建筑物时边缘不完整以及提取微小建筑物时出现错漏检的现象。因此,将Gen Block和Conv Block替换为SER-UNet算法。如图 3所示,红色虚线框内表示改进后的并行多路径特征提取阶段,其中,像素为H×W的原图下采样到通道数为64、像素为128×128后,输入到第1条路径上级联尺度大小为L4和通道数为64的SER-UNet算法中,且每个结构提取的特征图像素为128×128。在第1条路径与第1条路径分支处将特征图像素和通道数降采样为原来的1/2后通过尺度为L3的SER-UNet算法进行特征提取,输出特征图通道数为128、像素为64×64;第3条路径接收第2条路径下采样为1/2后的特征图,输出特征图通道数为256、像素为32×32。之后将3条路径提取的特征图在多尺度特征融合模块中合并,并在通道注意力压缩模块和空间池化增强模块中执行通道自适应优化并获取全局相关性以实现提取连续的建筑物,最后通过上采样输出特征图。图 3 结合SER-UNet的MAP-Net网络结构Fig. 3 MAP-Net network structure combined with SER-UNet图选项

2 试验与分析2.1 试验数据将结合不同尺度SER-UNet算法的MAP-Net网络分别在WHU[26]数据集、Inria[27]数据集和AerialImage[28]数据集进行对比试验,在进行训练之前均进行旋转、水平翻转、仿射变换等试验数据增强,试验数据集详细信息如下。(1) WHU数据集由武汉大学季顺平教授及其团队提供,共有8189幅,分辨率0.3 m、大小512×512像素,其中训练集4736幅,验证集1036幅、测试集2416幅,样本如图 4(a)所示。图 4 数据集样例Fig. 4 Samples of datasets图选项

(2) Inria数据集建筑物复杂度较WHU数据集高,包含分辨率为0.3 m、大小5000×5000像素,其中训练集、测试集分别为36幅。在预处理阶段,裁剪为512×512像素的14 580幅正射影像,训练集、验证集与测试集划分与WHU数据集相同,样本如图 4(b)所示。(3) AerialImage数据集包含64 000幅分辨率为0.3 m、大小256×256像素的正射影像,样本如图 4第3行所示。在预处理阶段先将影像上采样为512×512像素,为验证模型的泛化能力,训练过程中将训练集、验证集和测试集扩大为WHU数据集的2倍,分别为9472、2072和4832幅。2.2 评价指标采用像素评价建筑物提取精度,包括精度(Precision)、召回率(Recall)、F1值和IoU作为评价指标。其中精度是指模型能够正确预测建筑物与真实建筑物的像素百分比;召回率是指真实建筑物中被正确预测的百分比;F1值综合考虑精度和召回率的影响;IoU指预测建筑物像素数量与真实建筑物像素的交集和并集的百分比。如式(1)—式(4)所示 (1) (2) (3) (4)式中,TP表示将建筑物像素预测为真值数量;TN表示将非建筑物像素预测为假值数量;FP表示将非建筑物像素预测为建筑物像素数量;FN表示将建筑物像素预测为非建筑物像素数量。涉及建筑物提取像素的二值分类,主要区分建筑和非建筑,采用文献[20]中的损失函数来评价训练过程中真实值和样本之间的差异,如式(5)、式(6)所示 (5) (6)式中,(i,j)为样本点坐标;yij表示样本点的真值;pij表示样本点真值的概率;logits表示预测结果。试验在Intel(R)Xeon(R)Gold 6130 CPU、125 GB RAM、GPU Tesla V100-32 GB的硬件环境下进行,操作系统为Ubuntu18.04,程序运行环境为基于Python3.6的Tensorflow-gpu1.5。在训练过程中采用Adam优化器,初始学习率为0.000 1,一次训练样本数为4,所有试验网络均迭代80次。2.3 结果分析验证SER-UNet算法不同尺度对MAP-Net网络泛化能力的影响,接着分别在WHU、Inria数据集上与UNet、PSPNet、ResNet101、MAP-Net 5种网络进行可视化结果和精度对比分析,在AerialImage数据集上验证边缘完整性及微小建筑物提取。(1) 不同尺度SER-UNet算法对MAP-Net网络的影响。将SER-UNet算法的尺度分别设置为L=5、L=4、L=3、L=2、L=1,并且在WHU数据集上进行两种试验:在每条路径上级联相同尺度的SER-UNet算法;根据建筑物特征图分辨率的不同,在不同路径上级联尺度不同的SER-UNet算法。试验结果见表 1,在每条路径上级联相同尺度的SER-UNet算法时,IoU、精度、召回率和F1值均有一定的提升,当L=5时,IoU和Precision分别达到90.46%和94.68%,当L=6时,网络出现过拟合现象;相比每条路径上级联相同尺度的SER-UNet算法,不同路径上级联的模块尺度分别为L=2、L=3、L=4时,IoU和精度均比级联尺度相同的SER-UNet算法高,IoU为91.46%,精度为95.67%,当模块尺度调整为L=3、L=4、L=5时,IoU和精度均出现下降,网络出现过拟合现象。结果表明在每条路径上级联尺度不同的SER-UNet算法能够有效地提升网络的泛化能力,验证了在不同路径上级联尺度不同SER-UNet的有效性。

表 1 不同尺度的SER-UNet对本文方法精度的影响Tab. 1 The influence of SER-UNet of different scales on the precision of the proposed method (%)

表选项

(2) WHU数据集试验分析。WHU建筑物数据集上5种网络的可视化对比结果如图 5所示,其中,第1列为原图,最后1列为标签。由1、3、5行红色框和绿色框可以看出,UNet、PSPNet、ResNet101网络提取的大型建筑物和小型建筑物的边缘完整性较差,此外,由绿色框中可以看出UNet、PSPNet、ResNet101网络容易丢失微小建筑物,MAP-Net在提取背景颜色相似的建筑物时会出现分类错误的情况。由图 5的2、4行红色框可以看出颜色明显不一致的建筑物,对比方法提取的建筑物尺寸较标签明显减小,而结合SER-UNet算法的MAP-Net提取的建筑物尺度较标签变化不大,完整性更好。从可视化结果可以看出,结合SER-UNet算法的MAP-Net网络能够更好地区分背景和目标,提取的大型建筑物边缘完整性较对比网络好且微小建筑物漏检更少,更好地保留微小建筑物。从建筑物提取可视化结果对比分析,结合不同尺度SER-UNet算法的MAP-Net网络提取结果优于其他几种对比网络。图 5 WHU数据集不同网络可视化结果对比Fig. 5 Comparison of different network visualization results in the WHU dataset图选项

精度定性分析见表 2,结合SER-UNet算法的MAP-Net网络各项精度评定指标均优于对比网络。其中IoU达91.46%,精度达95.67%,召回率达95.87%,F1值达95.65%。与UNet、PSPNet、ResNet101、MAP-Net相比,IoU分别提高0.49%、2.14%、2.61%、3.10%,精度分别提高0.14%、1.06%、2.42%、1.09%。由表 2中可以看出,结合不同尺度SER-UNet算法的MAP-Net网络的IoU和精度相较于所有对比网络均有所提升,验证了SER-UNet算法的有效性。

表 2 WHU数据集精度比较Tab. 2 WHU dataset precision comparison (%)

表选项

(3) Inria数据集试验分析。Inria数据集上5种方法的可视化对比结果如图 6所示,其中,第1列为原图,最后1列为标签。由图 6可以看出,结合不同尺度SER-UNet算法的MAP-Net结果相较于WHU建筑物数据集差,这是由于Inria数据集中包含多种建筑物风格,建筑物成像时间及建筑物的光谱特征、阴影特征多样导致。此外,建筑物被树木和阴影遮挡较多,相对WHU数据集更复杂,使网络在Inria数据集上的泛化能力有所降低。然而,尽管泛化能力降低,但由图 6可以看出,5个地区提取建筑物的边缘较对比网络更加完整,保留细节的能力更强,面对复杂的建筑物和多变的环境表现出更强的稳健性,验证了SER-UNet算法的有效性。图 6 Inria数据集不同网络可视化结果对比Fig. 6 Comparison of different Network visualization results in the Inria dataset图选项

提取精度见表 3,可以看出,结合SER-UNet算法的MAP-Net网络各项精度评定指标均取得最优值。其中IoU达82.61%,精度达92.75%,召回率达91.68%,F1值达92.42%,较UNet、PSPNet、ResNet101、MAP-Net,IoU分别提高1.89%、2.26%、3.39%、4.50%,精度分别提高1.57%、2.31%、4.49%、4.91%。

表 3 Inria数据集精度比较Tab. 3 Inria dataset precision comparison

表选项

由表 3可以看出,Inria数据集上结合不同尺度SER-UNet算法的MAP-Net网络提取精度较WHU建筑物数据集低,是由于数据集中建筑物被遮挡的较多且小型建筑物较多。但在Inria建筑物数据集上的各项精度评定指标均优于其他对比方法,相比MAP-Net、ResNet101、PSPNet、UNet网络,结合SER-UNet算法的MAP-Net网络的IoU及精度均有提升。结果表明,在多路径上级联不同尺度SER-UNet算法有效提升网络的提取精度。(4) AerialImage数据集试验分析。由图 7中第2行和第4行的建筑物可视化提取结果可以看出,当建筑物被树木遮挡时,对比网络提取的建筑物容易丢失微小建筑物,从第1、3、5行可以看出提取的建筑物边缘完整性较差,而结合SER-UNet算法的MAP-Net网络提取的建筑物边缘较对比网络完整性更好,且能较好的保留微小建筑物,验证了较强的泛化能力。图 7 AerialImage数据集不同方法可视化结果对比Fig. 7 Comparison of visualization results of different methods on the AerialImage dataset图选项

AerialImage数据集提取精度见表 4。AerialImage数据集上各项指标均较WHU数据集低,这是因为该数据集中的建筑物较多被树木遮挡,并且树木颜色同建筑物颜色相近,对提取建筑物时边缘完整性和微小建筑物来说是较好的验证,IoU和精度较Inria数据集分别提升2.71%和1.37%。其中IoU达85.32%,精度达94.13%,召回率达93.85%,F1值达94.05%。本文方法较UNet、PSPNet、ResNet101、MAP-Net,IoU分别提高0.35%、1.18%、1.96%、2.79%,精度分别提高0.26%、0.81%、1.36%、2.55%。SER-UNet算法能够提升网络在复杂数据集上提取边缘完整性并且能够更好地保留微小建筑物。

表 4 AerialImage数据集精度比较Tab. 4 AerialImage dataset precision comparison (%)

表选项

(5) SER-UNet算法的普适性。探讨SER-UNet算法的普适性,将尺度为L=5的模块级联到PSPNet和ResNet101网络中,将尺度为L=1、L=2、L=3、L=4级联到4条路径的HRNetv2网络。试验中,HRNetv2网络为4条路径,当L=2、L=3、L=4、L=5时,网络出现过拟合现象,因此,在HRNetv2网络中级联尺度为L=1、L=2、L=3、L=4的SER-UNet算法。由表 4的结果可以看出,除PSPNet网络的召回率有所下降以外,4个网络中的其他指标均有所提升,进一步验证了SER-UNet算法的普适性。(6) 级联SER-UNet算法的MAP-Net网络复杂度分析。对UNet、PSPNet、ResNet101、MAP-Net以及结合SER-UNet算法的MAP-Net的5种网络进行了模型复杂度及效率比较,结果见表 5。模型的计算量和参数使用profiler工具包进行统计,模型计算量GFLOPs与输入尺寸相关,试验中在计算GFLOPs时输入尺寸均设置为1×512×512×3。训练时间为迭代一次WHU训练集所需要的时间。由表 5可以看出,结合SER-UNet算法的MAPNet在GFLOPs、参数及训练时间增加不大的情况下IoU的值提升较大,综合SER-UNet算法对不同网络的影响来看,SER-UNet算法在花费较小代价的情况下具有较高的应用价值。

表 5 SER-UNet算法对不同网络的影响Tab. 5 The impact of SER-UNet algorithm on different Networks (%)

表选项

表 6 级联SER-UNet算法的MAP-Net网络复杂度分析Tab. 6 MAP-Net Network complexity analysis of cascaded SER-UNet modules

表选项

3 结论提出SER-UNet算法用于改善高分辨率遥感影像建筑物提取中易丢失微小建筑物、大型建筑物边缘完整性较低等问题,SER-UNet算法关注建筑物提取中重要特征、过滤非重要特征,且能够将浅、深层特征融合以兼顾全局特征与局部特征,减少语义信息丢失。在WHU、Inria和AerialImage数据集上的试验结果表明,结合SER-UNet算法的多路径网络具有更好的泛化能力与普适性。后续将进一步探索SER-UNet算法尺度选择方法,用于降低模型参数和运行时间。作者简介第一作者简介:胡明洪(1997—),男,硕士生,研究方向为摄影测量与模式识别。E-mail:1918842089@qq.com通信作者:李佳田, E-mail:ljtwcx@163.com

初审:张艳玲复审:宋启凡
终审:金 君

资讯


标签: #最大生成树算法有哪些