龙空技术网

长沙理工大学计算机与通信工程学院王威教授:面向遥感图像场景分类的GLFFNet模型 |《测绘学报》2023年52卷第10期

测绘学报 49

前言:

现时朋友们对“王威java”大概比较看重,各位老铁们都想要知道一些“王威java”的相关知识。那么小编也在网上搜集了一些关于“王威java””的相关内容,希望朋友们能喜欢,咱们一起来了解一下吧!

本文内容来源于《测绘学报》2023年第10期(审图号GS京(2023)1931号)

面向遥感图像场景分类的GLFFNet模型王威1, 邓纪伟1, 王新1, 李智勇2, 袁平31. 长沙理工大学计算机与通信工程学院, 湖南 长沙 410114;

2. 湖南神帆科技有限公司, 湖南 长沙 410011;

3. 长沙市竟网信息科技有限公司, 湖南 长沙 410010基金项目:湖南省重点研究开发项目(2020SK2134);湖南省自然科学基金项目(2019JJ80105;2022JJ30625);长沙市科技计划项目(kq2004071)摘要:传统场景分类模型不能轻量高效地完成遥感图像中多尺度的关键特征提取, 深度学习方法普遍存在计算量大、收敛速度慢等缺点。针对以上问题, 本文充分利用CNN结构和Transformer结构对不同尺度特征的提取能力, 提出了一种全局-局部特征提取模块(global and local features fused block, GLFF), 并基于此模块设计了一个轻量级遥感图像场景分类模型(GLFFNet), 该模型具有较好的局部信息和全局信息提取能力。为了验证GLFFNet的有效性, 本文使用开源遥感图像数据集RSSCN7与SIRI-WHU测试GLFFNet与其他深度学习网络的复杂度和识别能力。最终, GLFFNet在RSSCN7与SIRI-WHU数据集上分别取得了高达94.82%和95.83%的识别准确率, 优于其他先进的模型。关键词遥感图像 场景分类 卷积神经网络 Transformer GLFFNet模型 引文格式:王威, 邓纪伟, 王新, 等. 面向遥感图像场景分类的GLFFNet模型[J]. 测绘学报,2023,52(10):1693-1702. DOI: 10.11947/j.AGCS.2023.20220286WANG Wei, DENG Jiwei, WANG Xin, et al. GLFFNet model for remote sensing image scene classification[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(10): 1693-1702. DOI: 10.11947/j.AGCS.2023.20220286 阅读全文引 言图像分类的目的是针对给定的一个图像,计算机能够正确地判断该图像所属类别。随着高分辨率遥感技术的发展,遥感技术在各个领域的应用逐渐广泛,遥感图像中包含的数据量和信息量日益增多,人们需要处理的遥感信息也正急剧增加[1]。在遥感图像分类任务中,遥感图像所涵盖的纹理特征、颜色特征和空间特征都是计算机预测图像类别的重要依据[2]。然而,这些特征信息往往不能被充分利用。针对遥感图像空间特征等容易被忽略的问题,在模型设计过程中可以考虑分别提取特征图中的全局信息与局部信息,并将两者进行联系,从而实现特征融合。此外,对提取的多类特征进行多尺度充分利用,并将其共同作为分类依据,结合深度神经网络的训练模型来提高遥感图像分类精度,是目前该领域的研究热点。近年来,卷积神经网络(convolutional neural networks,CNN)在图像识别和计算机视觉方面取得了显著的成绩[3]。其中,文献[4]通过在残差网络的卷积层后嵌入注意力图来加权CNN特征图,从而提取特征图中的关键信息。文献[5]采用多尺度变换的方法对遥感图像进行分解,利用CNN学习特征,并使用多核支持向量机实现遥感图像场景分类。文献[6]结合迁移学习[7]策略,提出了基于Inception-v3[8]模型的遥感图像场景分类算法框架,有效提高了遥感图像分类的精度。与CNN局部性建模不同的是,由于Transformer[9]采用了自注意力机制,能够高效地处理上下文信息,因而具有较强的全局建模能力。文献[10]基于Transformer提出了一种多模态融合网络,用于遥感图像分类任务。文献[11]设计了一种跨层跳转连接,通过自适应学习融合其“软”残差,将类似特征的组件从浅层逐步传递到深层。文献[12]提出了一种基于视觉变压器(ViTs)的遥感场景分类方法,使用多头注意力机制作为主要的构建块来推导图像中像素之间的长程上下文关系。目前,部分基于特征融合的网络方法在遥感图像场景分类任务中也有着出色的表现。文献[13]提出利用主动旋转聚合来融合不同尺度的特征, 并通过双向门控提高底层特征与顶层特征互补性的特征融合补偿卷积神经网络。文献[14]提出了一种融合全局和局部深度特征(GLDFB)的视觉词袋模型,将多个层次的高层特征进行重组编码并融合。文献[15]建立了一个具有3个不同尺度通道的端对端多尺度联合卷积网络模型, 在有限的遥感数据集上获得高识别精度。本文提出一种同时具备全局建模能力和局部建模能力的解决方案,并设计了一种基于全局-局部特征提取的遥感图像场景分类模型(global and local features fused net,GLFFNet)。本文的主要贡献为:①为了增强网络的特征提取能力,将全局特征和局部特征信息进行了有效的融合,提出了一种特征提取模块GLFF Block;②为了保留网络浅层、中层、深层的特征信息,引入了不同大小的辅助分类器,加强网络的收敛能力;③基于全局-局部特征提取模块GLFF Block提出了轻量级遥感图像场景分类模型GLFFNet。

1 网络结构设计对于不同遥感图像数据存在的差异性,本文从提取图像全局特征信息和局部特征信息的角度出发,提出了全局-局部特征提取模块GLFF Block。为了保留浅层、中层、深层特征信息,采用了特定的辅助分类器块。在此基础上,搭建了轻量级遥感图像场景分类网络GLFFNet。

1.1 GLFF Block目前,常用的场景分类网络中能够同时捕获全局特征信息和局部特征信息的CV模型尚少。(1) 局部特征提取策略。传统的卷积神经网络往往通过将一系列卷积层与下采样层进行堆叠得到,当堆叠到一定深度时,就会出现梯度消失和梯度爆炸等问题。ResNet提出Residual结构(残差结构)来减轻网络退化问题。残差网络与普通网络最大的不同就是引入了跳跃连接, 这可以使上一个残差块的信息没有阻碍地流入下一个残差块, 提高了信息流通, 并且避免了由于网络过深所引起的梯度消失问题和退化问题。(2) 全局特征提取策略。Swin-Transformer提出了一种带移动窗口的自注意力模型。通过串联窗口自注意力运算(W-MSA)以及滑动窗口自注意力运算(SW-MSA),使得Swin-Transformer在获得近乎全局注意力能力的同时,又将计算量从图像大小的平方关系降为线性关系,大幅减少了运算量,提高了模型推理速度。在每一个模块(Swin-Transformer Block)中,Swin-Transformer通过特征融合的方式(PatchMerging,可参考卷积网络里的池化操作),每次特征提取之后都进行一次下采样,增加了下一次窗口注意力运算在原始图像上的感受野,从而对输入图像进行了多尺度的特征提取。由于视觉Transformer结构缺少CNN结构平移不变性和局部相关性等特性,导致通常需要大量数据才能超越CNN的表现。然而CNN结构的感受野有限导致其很难捕获到全局信息,而Transformer机制中每个像素都可以和全局信息进行交互,具备捕获长距离依赖关系的特性。基于此,为了使模型能够同时捕获到全局特征和局部特征,本文提出了GLFF Block。GLFF Block是一种高效的并行结构模块,两条支路分别采用了自注意力模块和卷积神经模块作为主干,将特征提取效果较为突出的模块作为网络结构,一种是残差模块(Residual Bottleneck)[16],一种是Swin-Transformer Block[17]。基于这两种模块,设计出了GLFF Block,如图 1所示。

图 1 GLFF BlockFig. 1 GLFF Block图选项

GLFF Block的核心思想是通过通道切分的方式,使模型能够同时获得全局信息和局部信息的捕捉能力。其整体设计理念是“切分-变换-融合”(Split-Transform-Merge),这一概念最早由文献[18]提出。通道切分是指将特征图按通道域拆分成多个部分,并不会带来空间信息的损失。GLFF Block利用通道切分的方式将特征图分成两部分,通过多通道网络的变换进行特征提取:在支路1中,运用Transformer结构能够捕获特征信息的长距离依赖关系,最大程度保留了图像的全局特征;在支路2中,残差结构得益于CNN的平移不变性和局部相关性,较好地保留了图像的局部特征。最后通过通道拼接进行特征合并。事实上,GLFF Block中采用的通道切分能够实现多种感受野下的特征提取,以增强网络的表达能力。在支路1中,首先经过Patch Embedding层,再通过若干个连续的Swin-Transformer Block进行特征处理。Patch Embedding层对图片进行分块,同时在通道方向上展平并进行线性变换,然后进入Swin-Transformer Block做特征提取。在支路2中,由若干个连续的残差模块和点卷积组成,残差模块主要完成该支路特征提取操作,再利用点卷积实现降维,目的是方便更好的特征融合,为网络增加非线性。假设当前GLFF Block模块的输入特征向量为X ∈ RC×H×W,其中H、W分别代表特征图的高度和宽度,C代表通道数。输入序列首先会经过通道切分得到两个特征映射B1、B2∈ R(C/2)×H×W (1)式中,Sp(·)代表一个通道切分操作。在支路1中,由于Transformer网络的输入是一组一维向量,通过Patch Embedding对输入图像进行维度的调整。对于输入图像B1,先按照长宽将其分割成N个长宽相等的图像块Bpatch∈ RN×(L2×C),其中L代表分割的宽度,而。然后将N个图像块按照长宽展开,并进行线性变换得到N个长度为L2×d的一维向量构成序列Bflat∈ RN×K,其中K代表向量长度,d代表变换后的通道数。再经转置后,通过深度为l层的Swin-Transformer Block进行特征提取。具体公式如下 (2) (3) (4)式中,P(·)把图像切割成不重叠序列的操作;F(·)是进行输出扁平化;T(·)代表一个转置函数;S(·)是自注意力机制的学习操作;Re(·) 代表对张量的维度进行重新变换排序;Bout1∈ Rd×(H/2)×(W/2)。在支路2中,对于输入图像B2,首先通过若干个Residual Bottleneck提取特征图信息。在本文模型中,残差模块中的扩展因子默认为2,进行2倍下采样,采用Relu[19]激活函数。因此,经残差模块得到输出特征映射BR∈ RC×(H/2)×(W/2)。最后经过一层点卷积进行维度处理得到Bout2∈ Rd×(H/2)×(W/2)。具体公式如下 (5) (6) (7) (8)式中,Rs(·)为对特征信息的残差映射。GLFF Block的核心思想是对多尺度特征信息的融合。因此,将两条支路的输出特征在空间维度上进行特征拼接得到融合后的特征Y ∈ R2d×(H/2)×(W/2),作为当前GLFF Block模块的输出特征 (9)

1.2 GLFFNet网络设计

本文所提出的轻量级全局-局部特征提取遥感图像场景分类模型GLFFNet,首先经过多个不同尺寸的卷积层和最大池化层进行下采样和提升通道维度等处理,然后经过3个GLFF Block进行多尺度的特征提取,最后利用分类器输出标签。GLFFNet的网络结构如图 2所示。图 2 GLFFNet结构Fig. 2 GLFFNet structure图选项

GLFFNet中采用了3个GLFF Block作为网络的特征提取主干,分别学习特征图的浅层、中层、深层信息,通过多个分类器保留特征图信息,从而进一步提升模型整体的性能。GLFFNet采用并行连接的方式增加网络宽度,从不同尺度学习特征信息。在3个GLFF Block中,Swin-Transformer Block的深度分别为[2, 8, 2],Residual Bottleneck的深度分别为[3, 10, 3],较深的网络深度确保了网络可以学习到深层信息。由于网络越深,就会伴随梯度越往后越容易消失的问题。因此,在GLFFNet网络中,中间层采用了辅助分类器,即在每一个Block后都会进行一次Output值输出,来解决梯度消失的现象。通过辅助分类器,保留了浅层网络提取的特征,并加快了网络的收敛速度。两个辅助分类器由平均池化层、卷积层和全连接层组成,其结构如图 2所示。为了减少全连接层的参数量和计算量,通过平均池化层和卷积层将特征图大小调整为(4,4,128),最后通过两层全连接层进行输出。3个Output值输出(分别用O0、O1、O2表示)的加权系数依次为0.4、0.4、1.0,网络中预测值(P)的计算公式为 (10)在深度学习网络中,网络结构越大,计算复杂度就越大,越难以应用。GLFFNet从以下两个方面实现了网络的轻量化。(1) 图片尺寸:该模型为了减少GLFF Block模块中的参数量与计算量,在特征图输入到GLFF Block之前,经过一系列卷积、池化等操作将原始图像下采样了8倍。(2) 通道数:该模型中3个GLFF Block的输入通道数和输出通道数分别是[128, 160, 192]和[160, 192, 192],少于经典网络。

2 试验与结果分析2.1 数据集为了验证本文算法所提方法的有效性,本文采用RSSCN7 dataset[20]、SIRI-WHU dataset[21]作为试验数据集。RSSCN7 dataset作为遥感图像场景分类任务公开的常用数据集之一,包含了来自7个典型的场景类别:草地、农田、工业区、河湖、森林、住宅区、停车场,其中有代表着自然因素的草地、农田、河湖、森林,也有代表了人类生产生活场景的工业区、住宅区和停车场的类别,覆盖范围十分广泛。该数据集中每张图像的尺寸大小为400×400像素,每个类别有400张图像,分别基于4个不同尺度进行采样,共有2800张。该数据集样本如图 3所示。

图 3 RSSCN7 dataset展示Fig. 3 RSSCN7 dataset display图选项

SIRI-WHU dataset是由武汉大学张良培教授团队于2016年发布的遥感影像数据集。主要涵盖中国城市地区,其包含12个类别的场景图像:农业区、商业区、港口、闲置土地、工业区、草地、立交桥、公园、池塘、住宅、河流、水域,共计2400张图像。每张图像的像素尺寸为200×200像素,空间分辨率为2 m。本文试验将两个数据集的图像按照4∶1的比例划分为训练集和测试集。该数据集样本如图 4所示。图 4 SIRI-WHU dataset展示Fig. 4 SIRI-WHU dataset display图选项

2.2 试验设置试验中,为了增强有关信息的可检测性和最大限度地简化数据,对数据进行了一系列数据增强处理。首先通过随机裁剪将图片大小固定为256×256像素,然后进行随机水平旋转,最后进行归一化[22]处理等操作。通过数据增强提高模型的泛化能力,增加噪声数据,提升模型的稳健性。所有试验均在相同试验环境配置下进行,试验环境配置见表 1。在试验过程中,采用了AdamW[23]作为优化器,初始学习率设置为0.000 1,权重衰减系数(weight decay)设置为0.05。损失函数采用交叉熵损失函数,训练集和测试集的批尺寸(batch size)设置为16,每组试验训练批次(epoch)设置为500。该试验采用计算机图像分类任务中常用的评估标准,即采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、特异性(Specifity)、F1 score作为模型的评判标准。

表 1 试验平台配置Tab. 1 Experimental platform configuration

表选项

2.3 消融试验为了验证网络结构的合理性,分别从并联结构、特征融合、浅层特征提取等角度设置了多组消融试验,在RSSCN7数据集上的试验结果见表 2。其中,保留GLFF Block支路1得到GLFF_ Swin,保留GLFF Block支路2得到GLFF_Bottleneck,GLFF_Swin、GLFF_Bottleneck中均采用单一的特征提取模式。对比其在RSSCN 7 dataset上的分类性能,GLFF_Swin和GLFF_Bottleneck的分类准确率分别低于GLFFNet模型1.25%和2.86%。应注意,GLFF_ Swin、GLFF_Bottleneck的宽度(即通道数)与GLFFNet相同,因此排除网络宽度差异带来的误差。该试验证明同时采用局部和全局特征提取模式比仅采用其中一种特征提取模式更有利于提高模型的性能。GLFF-Aux则取消了辅助分类器,其准确率及各项评判指标均低于GLFFNet,减少了浅层特征信息的提取,同时降低了网络的收敛能力。GLFF+Shuffle和GLFF+ SE分别在每两个GLFF Block之间加入了通道混洗模块[24]和SE[25]注意力机制,二者旨在将拼接后的特征信息进行打乱,让不同通道的数据建立联系。从试验结果可以发现,在特征信息被打乱后,网络分类效果不及GLFFNet。

表 2 消融方法评判指标对比Tab. 2 Comparison of evaluation indicators of ablation methods (%)

表选项

2.4 对比试验为了验证GLFFNet网络在解决遥感图像场景分类任务中的有效性,对比试验在相同数据集及相同环境配置下进行。对照组包含了CNN结构中经典的网络结构,如VGG16[26]、GoogLenet[27]、ResNet50[16],以及近两年来最为火热的EfficientNetV2[28]、ConvNext[29]。对照组还包含了Transformer结构中分类表现较为突出的ViT[30]、Swin-Transformer[17]。各分类网络参数量与计算量如表 3所示。

表 3 各分类网络参数量与计算量对比Tab. 3 Comparison of network parameters and computation for each classification

表选项

试验中,通过加权平均求和的方法求得各网络在RSSCN7 dataset的评判结果见表 4。相对而言,GLFFNet在各评判指标中都获得了最好的效果,意味着本文网络分类器对数据集中相关实例的识别能力最强,表现最为突出。从表 3和表 4可以看出,GLFFNet在计算量和参数量大幅低于其他网络的情况下,准确率均高于其他网络,达到最高的94.82%。其中,计算量和参数量大约是分类效果较好的ResNet50网络的9.4%和6.4%,是Swin-Transformer网络的7.19%和5.81%,准确率分别提高了1.25%和0.71%,更加轻量及高效。这说明GLFFNet在全局信息和局部信息提取能力上有着较强的提升。

表 4 比较模型在RSSCN7 dataset上的试验结果对比Tab. 4 Comparison of experimental results of models on RSSCN7 dataset (%)

表选项

表 5列出了本文方法与对照组其他比较模型在SIRI-WHU dataset上的试验结果。如表 5所示,基于本文所提出的方法在类别更多的场景数据集SIRI-WHU上获得了最佳的分类表现95.83%。与ResNet50和Swin-Transformer试验结果相比较,本文方法GLFFNet的准确率仍分别提高了1.46%和1.87%。在更具有挑战性的数据集上,本文方法获得了更明显的优势。综上所述,本文的网络在分类性能上显著优于其他网络,具有高效性的特点。

表 5 比较模型在SIRI-WHU dataset上的试验结果对比Tab. 5 Comparison of experimental results of models on SIRI-WHU dataset (%)

表选项

本文试验模型GLFFNet在RSSCN7测试集上试验得到混淆矩阵如图 5所示,除工业区和停车场类别之间容易混淆外,还存在田地类别的错分现象。这是因为工业区类别与住宅区、停车场类别有着众多相似性,容易产生混淆。其次,草地类别中包含农田类别的局部语义信息,两者容易误分。除此之外,本文试验模型对于其他场景类别都能够较好地识别,获得了较高的识别准确率。GLFFNet在SIRI-WHU测试集上试验结果如图 6所示,分类准确率小于95%的只有商业区和公园类别,部分商业区数据错分成了住宅,两者在密度、空间分布等方面有着较大相似性,是场景分类的一个难点。在公园类别的测试样本中,部分样本夹杂着其他类别信息,例如公园里的草地、湖泊等,导致了该类别分类准确率不高。与试验中其他方法相比,GLFFNet取得了最高的总体分类准确率。

图 5 GLFFNet方法在RSSCN7数据集上的混淆矩阵Fig. 5 Confusion matrix of GLFFNet method on RSSCN7 dataset图选项

图 6 GLFFNet方法在SIRI-WHU数据集上的混淆矩阵Fig. 6 Confusion matrix of GLFFNet method on SIRI-WHU dataset图选项

此外,为了进一步验证本文模型特征融合的有效性,将GLFFNet模型与近两年一些基于全局信息和局部信息相融合的模型进行了比较,见表 6。在5个比较模型中,均利用Transformer来捕捉长距离的特征依赖关系,并利用CNN来获取局部特征,综合考虑了全局特征与局部特征的融合。其中,MobileFormer[31]与Conformer[32]模型结构采用并行设计实现局部和全局特征的双向融合,CMT[33]与VAN[34]提出了串行混合模型。如表 6所示,GLFFNet是试验中参数量和计算量最少的模型,与计算成本较低的MobileFormer[31]相比,准确率提高了1.25%;与轻量级网络VAN[34]相比,在计算量与参数量均不到其一半的情况下,准确率提高了1.78%。GLFFNet在特征融合网络模型比较中获得了最佳的分类表现。

表 6 特征融合网络在RSSCN7数据集上试验结果对比Tab. 6 Comparison of experimental results of feature fusion network on RSSCN7 dataset

表选项

对于给定的类别,为了更清楚地显示网络到底关注的是哪部分区域,首先通过Grad-CAM[35]绘制热力图,在视觉上进行可视化解释。然后,引用了Guided Backpropagation[36]与Grad-CAM结合的方法Guided Grad-CAM,用来捕获特征图的细粒度细节。图 7展示了GLFFNet与对比试验中分类效果较好的ResNet50及Swin-Transformer可视化分析。图 7 热力图可视化分析Fig. 7 Visual analysis of thermogram图选项

由图 7可以看出,图 7(b)对于对应类别的关注点更多集中于局部信息,而图 7(c)的关注点则更加宽泛,这与二者所采用的不同网络结构有关。CNN结构对于局部信息的捕捉能力更强,Transformer则可以更好地捕捉到全局信息。相对而言,GLFFNet实现的效果要更好,更加全面和准确,效果如图 7(d)所示。通过图 7(e)可以十分清晰地看到GLFFNet针对目标类别捕获的细粒度细节。

3 结语本文研究的主要内容是基于全局-局部特征提取的遥感图像场景分类。CNN和Transformer结构在计算机视觉领域中各有优势,本文将Transformer中自注意力机制的动态上下文信息与卷积的静态上下文信息进行融合,提出了全局-局部特征提取模块GLFF Block,并基于此设计了一个轻量化分类网络GLFFNet,使得网络同时具备了全局信息和局部信息提取能力,利用辅助分类器,解决了较深网络反向传播梯度消失的问题,提高了网络收敛能力。通过试验验证,本文所提出的网络模型在RSSCN7与SIRI-WHU数据集上取得了较高的分类效果,准确率分别达到了94.82%和95.83%。在计算量和参数量均大幅减少的情况下,准确率及各项评判指标均优于试验中其他模型。由此可见,本文模型的图像分类效果更好、更高效。作者简介第一作者简介:王威(1974-), 男, 博士, 教授, 博士生导师, 研究方向为计算机视觉和模式识别。E-mail: wangwei@csust.edu.cn通信作者:王新, E-mail:wangxin@csust.edu.cn

初审:张艳玲复审:宋启凡
终审:金 君

资讯


标签: #王威java