前言:
如今兄弟们对“unet网络结构”可能比较看重,大家都需要剖析一些“unet网络结构”的相关文章。那么小编在网上网罗了一些关于“unet网络结构””的相关内容,希望小伙伴们能喜欢,小伙伴们快快来了解一下吧!引言
颜色校正是遥感影像中常用的技术,用于移除大气对辐射波段的影响,该技术根据参考影像色彩风格对待校正影像进行颜色变换,主要在消除图像拼接过程中,相邻图像间的颜色差异;遥感影像的色彩受到很多因素的影响,包括太阳高度、大气条件、曝光时间和传感器特性等。
由于影响色彩色调的因素很多,因此在遥感图像处理任务中,颜色校正就成了普遍存在的问题,目前研究者们已经提出了许多颜色校正的方法,这些方法大多用于处理图像的拼接问题,在需要拼接的图像中,相邻的图像间存在一些重叠区域,这些区域可以作为图像之间的关联信息来进行颜色传递。
利用颜色关联信息建立颜色映射关系的方法很多,该方法进行单张图像颜色变换时效果较好,但是扩展到多张图像后,在相邻图像之间进行颜色传递时会出现误差累积的问题,在实际的应用中,这种颜色校正任务通常被作为全局颜色处理问题,换言之,局部的相邻图像之间进行颜色传递的方法不适用于待校正影像较多的情况。
因此很多科研工作者通过全局的颜色迁移的方式处理多幅图像的颜色校正问题,此类方法使用一张影像作为参考影像,利用颜色的统计信息如均值、方差和直方图等进行信息迁移,以此降低影像间的差异性达到颜色校正的目的。
1.遥感影像颜色校正的模型框架
跨分辨率的遥感影像颜色校正是一个极具挑战性的任务,在源图像和参考图像中不仅没有重叠的区域用于提取颜色之间的关联信息,并且在分辨率上存在着巨大的差异性,因此无法使用直方图等统计信息。如图1,内容模块是由编码器和解码器组合而成,用于提取基于语义内容的分层特征,用于帮助风格模块进行语义内容的颜色校正,此外,该模块可复用,无需重复训练,因此可以减少计算量。
编/解码器网络
在这部分,将首先探讨一些广泛使用的编/解码器模型,然后分析现有的相关编/解码模型在遥感影像颜色校正任务上的局限性,最后对本文提出的编/解码模型进行详细介绍。
编/解码器模型分析
编/解码器模型也被称为自编码器,是一种无监督学习模型,能使用卷积神经网络进行 ,稀疏自编码通过仅允许小部分神经元激活的这种正则化方式,获取到一个具有稀疏性特征编码的模型,去噪自编码是一个在引入噪声后,可以重构原始输入图像的去噪模型,压缩自编码能够获取鲁棒性很好的特征,该模型是使用一个有趣正则项雅可比矩阵的范数训练出来的,变分自编码则可以使用特定分布变量来表示特征,便于使用于各种图像处理任务中。
从图2中可以看出信息主要沿着1z流动,当阻断1z后,重构图像就丢失了输入图像的大部分信息,如第一行到第四行所示,因此Unet网络结构虽然补充了低层的特征信息,但是在自编码网络中会存在明显的截断效应,造成网络无法获取高层的语义内容。
因此直接引入低层跳跃连接并不能有效的解决问题,该方法难以在提升重构图像质量的情况下,同时学习到丰富的高层语义特征,问了解决这一问题,本文引入了正则化对这种信息截断现象进行抑制,具体的正则化方法将进行详细介绍。
图4显示的是正则化后的可视化结果,实验设置和图3相同,对比图4和图3可以看出,在使用正则化后模型的高层特征具有更丰富的语义信息。
风格网络模型
在上一小节设计了一个正则项,帮助自编码网络提取分层得语义特征,以便后续进行关于图像内容得自适应颜色校正,这一部分,将讨论如何设计一组可学习得风格参数,生成指定风格的目标图像。
如图5,对于解码器的每一个中间层数据,为每一个通道的特征学习一组变换系数,在中间层的特征中,每个通道可能表征着一种语义信息,根据参考图像为每个通道的特征学习一组风格变换系数,就能在进行颜色校正时,关于图像语义内容也就具有一定自适应性。
网络模型的详细设置
根据先前的模型设计,这一部分将详细介绍网络的结构,编码器和解码器网络的结构如图6所示,在这个自编码模型中,编码器和解码器以无监督学习的方式进行训练,编码器用于提取分层的特征,并将此作为解码器的输入,在编解码器训练过程中,解码器根据分层特征重新生成输入图像,要求生成的图像和原始的输入图像保持完全一致。
图7显示了生成器和鉴别器的网络结构,生成器用于生成和参考图像颜色风格一致的目标图像,而鉴别器用于评估生成的图像和参考图像在颜色风格上是否一致。
生成器的监督信息来自于鉴别器的反馈,致力于让鉴别器认为生成的图像和参考图像的风格一致,而鉴别器则致力于提取区分度高的颜色风格特征,将生成的图像从参考图像中区分出来,通过对抗学习,鉴别器最终训练成一个风格相似度评估网络,而生成器则能生成个参考图像颜色风格相似的目标图像。
简单来说,整个模型框架训练分为两个阶段:内容模型训练(编/解码器网络)和风格模型训练(生成/鉴别器网络);首先使用大量的图像数据(包括源图像,参考图像和其它的遥感图像)内容模型,该模型在改变源图像时仍可复用。
此方式能节省大量的时间,然后以对抗生成网络的方式,自适应的学习一组用于源图像的风格变换参数w和b,由于w和b的参数量很小,训练速度也很快,需要注意的是,在风格模型的训练过程中,内容模型的参数是固定的,并不会进行更新,仅通过更新风格变换参数w和b来修正生成图像的风格。
损失函数分析
在自编码器内容模型的训练过程中,两个损失函数用于优化模型:正则化损失和重构损失;正则化损失函数可以定义为:
重构损失函数可以定义为:
总共的损失可以表示为:
这里β是用于控制正则化损失和重构损失相对强弱的参数。生成对抗网络总的损失为:
因为生成器要使得鉴别器认为其生成的图像颜色风格和参考图像相似,因此对抗损失定义为:
虽然目前已有很多颜色校正的方法,将多张图像的颜色变换为一致的颜色,但是,对于跨分辨率的遥感图像颜色校正任务来说无法使用,
为了验证本文算法的有效性,在实验中使用了多张不同分辨率的遥感图像。
相关的信息如表A所示,表中的空间分辨率单位m/pix表示每个像素在实际地理上所占的长度,源图像和参考图像的分辨率分别为2m/pix和40m/pix,相差20倍,表中最后一行表示卫星编号。
实验中使用的三幅源图像来自于高分一号(GF-1)和资源三号卫星(ZY-3),而参考图像使用的是一幅由多幅图像拼接成的低分辨率模板图像,该图像虽然由多幅图像构成,但是颜色是统一的,这是先前校正过的图像,所有图像的缩略图如图9所示,图(a)到(f)依次是源图像、UNIT、CycleGAN和本文方法的实验结果、人工校正的图像和参考图像。
在网络训练过程中,内容模型和风格模型采用不同的配置,由于内容模型是无监督的,且训练数据与源图像不需要很强的相关性,数据获取简单,并且该模型在后续的风格模型训练预测过程中是可以复用的,不需要为每幅源图像都训练一个对应的内容模型。
因此在训练过程中,将所有的源图像参考图像都作为训练集,裁剪成512×512的图像块,而在风格模型的训练中,仅使用了相应的源图像和参考图像,分割成256×256的图像块。
7、定性分析
图10显示了部分典型区域的细节信息,图像(a)-(e)分别是源图像,UNIT、CycleGAN和本文方法的校正结果,以及人工校正结果,图像块尺寸为512*512,相比于其它的校正方法,本方法生成的结果更自然更清晰,和人工校正的结果也更相似。
UNIT方法生成地图像丢失了很多细节信息,结果不太理想,但惊喜的是在最后一行中人工校正的结果对比度不高,而本文方法生成的结果感知质量更好。
从图中结果来看,CycleGAN的效果粗略来看较满意,但是存在很多地方图像发生了扭曲,如图11所示,细节图像是从图 11中的图像中裁剪出来的小区域,(a)-(c)分别是源图像、CycleGAN 和本文方法的校正结果,可以看出CycleGAN的结果在多个区域存在颜色扭曲。
出现这些问题的原因可能是源图像和参考图像之间的巨大差异性造成的,由于参考图像和源图像的空间分辨率相差20倍,源图像中的很多物体在参考图像上丢失了。
UNIT和Cycle GAN网络的内容和颜色风格是同时学习的,这种困难可能又干扰了网络关于图像内容的学习,而本文的模型在内容和颜色风格上是分离学习的,内容网络是一个自编码网络,输入和输出具有严格的内容一致性对应关系,虽然源图像和参考图像存在巨大的空间分辨率差异,但是对本文算法并没有影响,本文的方法在内容学习时不存在跨风格的变换。
此外,本文的方法在图像的颜色饱和度方面表现得很好,在有些区域甚至比人工校正得更好,比如图12中的云朵区域,人工校正的图像出现了部分过饱和的显现,破环了图像的纹理,而本文的方法视觉感知效果更好。
出现这种现象,可能是因为在增加图像的全局亮度时,导致在高亮度的云朵区域,亮度超过了图像的数值表示范围,而本文的方法则较好地做到了基于内容感知的颜色校正,避免了全局变化引起的问题。
在以上的实验中,参考图像使用的是低分辨率的模板图像,接下来将使用高 分辨率的图像作为模板,检测不同分辨率的模板对本文方法的影响。图13中(a)和(b)显示的分别是使用低分辨率和高分辨率图像作参考图像的校正结果,从图中的结果可以看出,(a)和(b)的结果无明显的差异,这说明本文的方法对源图像域参考图像之间的分辨率差异性并不敏感。
定量分析
除了主管的实验效果,我们还进行了定量分析以客观评估算法效果,由于在颜色校正之后图像的亮度发生了变化,通过对应像素间值之间的差异性来衡量源图像和目标图像之间的差异性是不准确的,考虑到SIFT图像的局部特征对图像亮度不敏感,因此使用匹配的SIFT特征对数来描述源图像和参考图像间的内容一致性。
图14显示了部分图像的SIFT特征匹配结果,(a)-(c)分别是UNIT、CycleGAN和本文方法的校正结果,最后一列是人工校正的结果,为了更直观地比较各个方法之间的差异性,表B显示了源图像和目标图像之间SIFT特征关键点的匹配对数,比较结果显示,本文的匹配对数更接近人工校正的结果,分别大约是UNIT和CycleGAN方法的2倍和10倍。
梯度损失(GL )也是用于衡量源图像和参考图像内容一致性的一个指标,梯度损失用于衡量图像梯度之间的差异性,定义如下:
R、C、K分别表示图像高、宽以及颜色的通道数,操作Go用于计算图像中像素的梯度方向。表C显示了梯度损失的结果比较,结果显示本文的方法比其他方法效果更好。
图像的颜色风格比较是一个比较困难的问题,当目标图像和参考图像的分辨率相差很大,且并没有重叠区域时,可能图像内容差异性很大,这种情况下把颜色直方图相似性作为颜色风格的一致性并没有很高的可靠性。
考虑到目前并没有更好的评价指标,因此将Wasserstein距离作为一种参考指标,实验结果如表E所示:
总结
本章提出了一种卷积神经网络框架,用于解决跨分辨率的遥感影像颜色一致性校正问题,当待校正图像和参考图像没有重叠区域或者分辨率相差很大时,无法提取到像素级对应的颜色关联信息制作训练数据。因此,在这种没有成对的数据进行强监督学习时,通过弱监督学习的方式训练卷积神经网络模型,将颜色一致性校正问题作为颜色迁移任务进行解决。
首先,通过无监督学习训练了一个变分自编码网络模型,该模型能提取内容感知的分层特征;然后,以对抗生成网络的方式训练了一组作用于分层特征的风格参数,该参数能基于图像的语义内容对特征进行修正,使得最终的生成图像和参考图像的颜色一致;最后进行了多组实验进行验证。结果表明,本文的方法相比UNIT,CycleGAN的方法效果更好,在SIFT特征关键点匹配对数、梯度方向损失和EM距离这三个指标上取得了更好的结果。
标签: #unet网络结构