龙空技术网

CVPR2023:具有参数多损失优化的可调卷积

小小cv笔记 1007

前言:

今天大家对“池化操作有几种”都比较关切,同学们都想要剖析一些“池化操作有几种”的相关资讯。那么小编在网上汇集了一些有关“池化操作有几种””的相关知识,希望你们能喜欢,我们快快来了解一下吧!

和DCN、动态模型以及FPN有异曲同工之妙,每个任务的影响因素都有很多,需要分而治之

论文题目:

Tunable Convolutions with Parametric Multi-Loss Optimization

摘要

神经网络的行为是由训练过程中使用的特定损失和数据决定的。然而,通常希望在推断时基于诸如用户的偏好或数据的动态特性之类的外部因素来调整模型。这对于平衡不适定图像到图像翻译任务的感知失真权衡尤为重要。在这项工作中,我们建议使用参数多损失来优化参数可调卷积层,该层包括多个不同的核,该参数多损失包括相等数量的目标。我们的关键见解是使用一组共享的参数来动态插值目标和内核。在训练过程中,这些参数被随机采样,以明确优化所有可能的目标组合,从而将其效果分解为相应的内核。在推理过程中,这些参数成为模型的交互式输入,从而能够对模型行为进行可靠和一致的控制。大量的实验结果表明,我们的可调谐卷积有效地取代了现有神经网络中的传统卷积,几乎没有额外的计算成本,在广泛的应用中优于最先进的控制策略;包括图像去噪、去模糊、超分辨率和风格转换。

1.简介

神经网络通常是通过针对预定义的损失函数优化一组可学习的权重来训练的,该损失函数通常由多个相互竞争的目标组成,这些目标被微妙地平衡在一起,以从数据中捕捉复杂的行为。具体而言,在视觉中,尤其是在图像恢复中,许多问题都是不适定的,即允许潜在的无限数量的有效解决方案。因此,选择适当的损失函数对于将神经网络约束到特定的推理行为是必要的。

然而,在训练之前根据经验定义的任何个体和固定损失本质上都无法为任何可能的输入产生最佳结果。一个经典的例子是难以找到感知失真权衡的良好平衡,如图1的示例所示,这个问题的解决方案是设计一种在推理时可靠地控制(即调谐)神经网络的机制。这带来了几个优点,即提供了一种灵活的行为,而无需重新训练模型,实时纠正故障案例,并根据用户偏好平衡竞争目标。

现有的控制神经网络的方法,通常基于权重或特征调制,从根本上局限于只考虑两个目标,并且还需要为所考虑的每一个额外损失添加一组新的层或参数。针对图像恢复任务的不同方法,首先训练以图像的真实退化参数为条件的网络,例如噪声标准差或模糊大小,然后在推理时,建议与这些参数相互作用,以调节恢复的效果。然而,当被要求在与训练期间看不见的输入和参数的组合相对应的状态下操作时,这会导致网络进入未定义状态。

在这项工作中,我们引入了一种新的框架,以在推理时可靠且一致地调整模型行为。我们提出了一个参数动态层,称为可调卷积,由p个单独的核(和偏差)组成,我们使用参数动态多损失在p个单独目标中进行优化。通过线性插值,可以使用不同的参数来获得内核和目标的不同组合。我们工作的关键见解是使用一组共享的p参数在p内核和目标之间建立明确的联系。具体而言,在训练期间,对这些参数进行随机采样,以明确优化由p个目标的所有组合识别的完全损失场景。因此,在推理过程中,每个单独的目标都被分解成不同的核,因此可以通过与可调卷积的相应参数相互作用来控制其影响。与以前的方法相比,我们的策略能够处理任意数量的目标,并通过显式优化它们的所有中间组合,它允许以可预测和直观的方式调整整个网络行为。此外,我们的可调层可以作为现有神经网络中标准层的替代品,计算成本差异可以忽略不计。

总之,我们工作的主要贡献是:

•一种新型即插即用可调谐卷积,能够通过使用交互参数可靠地控制神经网络;

•一种独特的参数多损失优化策略,规定了应如何优化可调谐卷积,以将不同的目标分解为不同的可调谐内核;

•在几个图像到图像的翻译任务中进行了广泛的实验验证,展示了可调推理的最先进性能。

2.相关工作

在本节中,我们对我们的贡献进行了定位,并回顾了相关工作。我们特别强调图像到图像的平移和逆成像(例如去噪和超分辨率),因为这些问题由于其不适定性而成为动态和可控网络的明确用例。

动态非交互式网络 动态模型的例子通过在推理时根据输入自适应地调整模型结构或参数来引入动态特征。实现动态网络的常见策略使用注意力或辅助可学习模块来调制卷积权重,重新校准特征,甚至直接预测特定于给定输入的权重。这些方法通过构建动态和判别特征来增强网络的表现力,但不能对其动态性进行交互式控制。

参数化非交互式网络 辅助输入信息的使用是一种常用于调节神经网络行为和提高其性能的策略。在图像恢复的背景下,该信息通常表示输入图像中的一个或多个退化参数,例如噪声标准差、模糊大小或JPEG压缩级别,然后将其作为附加输入信道或作为调制卷积权重的参数提供给网络。该方法被证明是提高各种图像恢复任务性能的有效方法,包括图像去噪、超分辨率、联合去噪和去马赛克以及JPEG去块,但它并没有明确设计用于在推理时控制底层网络。

交互式单目标网络 最近,许多工作已经探索了外部退化参数的使用,不仅作为网络的条件信息,而且作为实现交互式图像恢复的一种方式。最近的一个例子是基于受挤压和激励启发的特征调制,其中激励权重由全连接层生成,其输入是外部退化参数。在这些工作中,使用固定损失对网络进行优化,以最大限度地提高基于真实参数的恢复性能。然后,在推理时,作者建议使用这些参数来改变模型行为,例如使用低于实际值的噪声标准差来降低去噪强度。然而,在这些情况下,网络被要求在其训练分布之外运行,并且不出所料可能会产生次优结果,这些结果通常包含显著的伪影,正如所观察到的那样,替代方法使用外部参数来调制噪声标准差,或者通过信道修剪或动态拓扑来构建特定任务的网络。

交互式多目标网络 为多个目标构建交互式网络的经典策略是基于权重/网络插值。其主要思想在于使用不同的损失多次训练具有相同拓扑的网络。在训练之后,作者提出通过使用由一组交互式插值参数驱动的凸线性组合来插值相应的网络权重来产生所有中间行为。这种方法允许使用任意数量的目标,并且计算成本可以忽略不计,然而,由于插值权重没有被明确监督,结果往往容易出现伪影。其他方法使用特征调制来控制网络行为。这些方法建议使用在每一层通过局部残差连接连接的两个单独的分支。每个分支在一个单独的阶段针对不同的目标进行训练,同时保持另一个分支冻结。尽管这种方法很有效,但它有几个缺点:它仅限于两个目标,中间行为再次没有得到优化,并且复杂性实际上增加了一倍。

与所有现有的工作相比,我们的策略更灵活、更稳健,因为我们可以处理任意数量的目标,并明确优化它们的所有组合。除此之外,我们的策略也易于训练,对模型架构不可知,并且在推理时的计算开销可以忽略不计。

3.方法

在本节中,我们正式介绍了我们的框架,以实现可调的网络行为。作为我们讨论的起点,我们回顾了传统和动态卷积的一般形式(第3.1节)。接下来,我们提供了可调谐卷积的正式定义,并讨论了如何使用所提出的参数多损失优化来训练这些层(第3.2节)。

3.1背景

传统卷积 让我们将传统卷积层的基本形式定义为

其中~是核k∈Rk×k×c×d和偏置b∈Rd的卷积,它将输入x∈Rh×w×c转换为输出y∈Rhx w×d,其中h×w是空间分辨率,k是空间核支持,c是输入通道,d是输出通道。

动态卷积 动态卷积形式

通过动态内核进行参数化,并生成偏差

通过使用从输入动态生成的p个聚合权重α={αi}p i=1来聚合固定p个核和偏差{ki,bi}p i=1的底层集合。注意,这种输入依赖性在(2)中通过下标x突出显示。形式上,聚合权重可以定义为

为φd:Rh×w×c→ Rp是将输入x映射到p个聚合权重的函数。该功能通常被实现为挤压和激励(SE)层,全局池化操作,随后是多个完全连接的层和最终的softmax激活,以确保凸性(即Pp i=1αi=1)。虽然该层能够动态调整其响应,但它仍然缺乏以可预测的方式控制其行为的机制。

3.2可调网络

在本节中,我们将讨论这项工作中提出的两个核心组件,即一个新的参数层,称为可调卷积,以及一个参数优化策略,以实现备受追捧的可调行为。我们的框架示意图见图2。

可调谐卷积 我们框架的第一个构建块包括定义一种特殊形式的动态和可调卷积

其包括由p个交互参数组成的附加输入ω={ωi}p i=1,该交互参数用于控制p个不同目标的效果。内核和偏差类似于(3)进行聚合。然而,有一个关键的区别:在这里,我们建议不是隐式地从输入x生成聚合权重,而是显式地从交互参数生成聚合权重

式中φt:Rp→ Rp是将p个交互参数映射到p个聚合权重的函数。至关重要的是,(5)的核和偏差现在取决于输入参数,如下标ω所示,从而突出了关于动态卷积的差异(2)。在不失一般性的情况下,假设ω都在[0,1]的范围内,但不一定是凸的(即Pp i=1ωi≥1)。直观地,第i个目标的影响通过ωi=0最小化,通过ωi=1最大化。φt的实际实现有多种可能性,从SE到简单的恒等函数。在我们的实验中,我们在没有任何激活的情况下使用了可学习的仿射变换(即MLP),因为我们根据经验发现,这在我们所有的实验中都会带来更好的解决方案,并且对计算复杂性的影响也很小。从实用的角度来看,所提出的可调谐卷积对输入维度或卷积超参数是不可知的。因此,正如我们将在实验中展示的那样,跨步、转置、逐点、逐组卷积甚至注意力层的可调变体可以很容易地实现。

所提出的策略有几个优点:首先,它增加了模型的表示能力;第二,它以可预测和可解释的方式从外部参数生成聚合权重,而不是(4)从输入生成非交互式权重;第三,它在计算上是高效的,因为与传统卷积相比,唯一的额外成本在于计算(6)和相应的内核聚合。图3显示了与具有等效内核大小和通道数量的传统卷积相比,处理可调谐卷积所需的运行时间1的平均增加。从图中可以看出,开销小于20%,即几毫秒的分数,在p≤4的最常见情况下,甚至低于5%。

参数多损失 让我们概述如何通过交互参数ω在(6)中灌输可调行为。需要向可调谐卷积通知每个参数的含义,并在每个参数改变时进行相应的监督。我们通过使用由p个不同目标Li组成的参数多损失函数,将这些参数明确地与不同的行为联系起来,从而实现了这一点。具体而言,(5)中用于聚合可调内核和偏差的相同参数ω也用于聚合p个目标为

其中λi≥0是一个固定权重,用于衡量第i个目标对总损失的相对贡献。请注意,每个Li可以包括多个项,因此可以将复杂的行为封装到单个可控目标中,例如风格转移或GAN损失。

我们的方法概括了一种普通的训练策略,具体地说,如果我们在训练期间保持ω固定,那么相应的损失(7)也将是固定的,因此ω不会明确地诱导可调谐能力。不同的是,我们还建议通过在每个训练步骤对不同的随机参数集进行采样来优化所有中间目标,我们使用该参数集来生成(7)中的目标的随机组合,以及(5)中的核的相应组合。因此,鼓励网络将不同的目标分解为不同的可调内核(和偏差),因此,在推理时,我们可以通过与相应的参数交互来控制不同目标的相对重要性。与先前的方法相比,关键的优势在于我们的策略不局限于固定数量的目标,并且还积极优化它们的所有中间组合。在这项工作中,我们使用随机均匀采样,即ωi~U(0,1),由于其简单性和出色的经验性能,然而可以探索不同的分布,以使采样偏向特定目标。

4.实验

在本节中,我们报告了在图像去噪、去模糊、超分辨率和风格转移方面评估的可调谐卷积的实验结果。在所有任务中,我们通过与外部参数交互来测量我们的方法调整推理行为的能力,这些参数旨在控制图像翻译过程的各种特征。为了展示我们方法的有效性,我们将性能与最近的可控网络进行了比较,即DNI、CFSNet、DyNet和CResMD。此外,我们使用我们的可调谐卷积作为最先进的SwinIR和NAFNet网络中的插入式替换,并评估标准基准的性能。

4.1图像恢复

图像恢复的一般观测模型是

其中z∈Rh×w×3是分辨率为h×w和三个RGB颜色通道的退化图像,D是应用于底层(未知)真实图像y的退化算子(例如,下采样或模糊),η是随机噪声实现,其对图像采集过程的随机性进行建模。在这个镜头下,恢复网络的目的是在给定相应的退化观测z的情况下,提供真实图像y的估计。

4.1.1去噪

在本节中,我们评估了应用于图像去噪经典问题的不同主干中使用的可调谐卷积的性能。形式上,如果我们参考(8),D是恒等式,η通常分布为i.i.D.高斯噪声。可调模型的一个有趣的应用着眼于调制去噪强度,以平衡预测图像中的噪声去除量和细节保留量;由于任何去噪过程的固有缺陷,这两个目标往往相互冲突。形式上,我们使用多损失bLrn=ω1·Lrec+ω2·Lnoise,它包括两个项:第一个是测量L1距离失真的标准重建目标,第二个是定义为

其中yη=y+ω2·Γ·(z−y)是包含与参数ω2成比例的残余噪声量和固定的预定义标量0≤Γ≤1的目标图像。注意,我们设置了v=0.9,这样即使在最大噪声保持ω2=1的情况下,我们也可以避免收敛到平凡的解(即目标图像等于噪声输入),而是需要保持90%的残余噪声。让我们回顾一下,(ω1,ω2)的不同组合促进了不同的推理行为,例如,(0.00,1.00)最大化了噪声保持,(1.00,0.00)最大限度地提高了保真度。最后,为了客观地测量比较方法的可调能力,我们分别使用针对真实y的PSNR和针对目标图像yη的PSNRη作为Lrec和Lnoise的明确性能指标。

可调谐网络 在这里,我们将可控网络中的最先进技术进行比较,即DNI、DyNet和CFSNet应用于合成图像去噪。为了进行公平的比较,我们使用与相同的ResNet主干,该主干包括输出层之前的长残差连接。具体而言,对于DNI和我们的可调谐网络,我们将16个残差块(Conv2d-REU-Conv2d-Skip)与64个通道叠加,而对于DyNet和CFSNet,我们将8个块用于主分支,8个块用作调谐分支,以保持相同的总体复杂度。所有方法都使用Adam优化器进行500000次迭代训练,批量大小为16,学习率为1e−4。对于训练,我们使用从DIV2K数据集中随机提取的大小为64×64的补丁,我们将高斯噪声η~N(0,σ2)与标准偏差σ∈[5,30]相加,如(8)所示。

在表1中,我们报告了噪声水平σ∈[5,15,30]的平均性能。可以观察到,所提出的可调谐模型在几乎所有情况下都优于现有技术。此外,我们的方法与纯粹为保真度训练的网络(即具有权重(1.00,0.00)的DNI)具有几乎相同的精度,而其他方法通常显示PSNR下降-0.2dB。一般来说,DNI和DyNet在中间情况下不能很好地推广,而CFSNet具有竞争性能,尤其是在Lnoise占主导地位的情况下。然而,图4中与CFSNet的视觉比较表明,我们的方法的特点是在参数范围内目标之间的转换更平滑、更一致,并且当去噪最大时,我们的预测也包含更少的伪影。

传统网络 在本节中,我们构建了传统(固定)最先进网络SwinIR和NAFNet的可调变体。请注意,这些模型包含大量不同的层,如MLP、跨步和深度卷积,以及空间、通道和窗口注意力,所有这些都可以很容易地被我们的可调变体所取代。我们按照原始论文中概述的设置构建和训练我们的可调SwinIR和NAFNet模型,我们也在补充材料中进行了总结。

在表2a中,我们报告了我们的可调SwinIR在噪声水平σ∈[15,25,50]下用于彩色图像去噪的PSNR,与最先进的IPT、DRUNet和固定SwinIR相比。在表2b中,我们报告了我们的可调NAFNet相对于固定NAFNet的PSNR和SSIM,用于SIDD上的真实原始图像去噪。在这两个表中,我们只显示了调谐参数的两个组合的结果,一个最大化数据保真度(0,1),另一个最大限度地提高噪声保持(1,0)。结果在很大程度上与表1中的结果一致,并表明与纯粹为数据保真度训练的相应固定基线相比,我们的可调谐网络具有相似的,甚至更好的性能。

4.1.2联合去噪和去模糊

在这个实验中,我们评估了所提出的方法在多种退化情况下实现交互式图像恢复的能力,特别是我们考虑了联合去噪和去模糊。这是CResMD中探讨的一项任务,因此我们将在这里使用它作为基线比较。

对于训练,我们添加了标准偏差为σ∈[5,30]的合成高斯噪声,如前一节所述,我们还使用标准偏差为ρ∈[0,4]的21×21核添加了高斯模糊,D表示在添加噪声η之前应用于真实y的模糊操作。我们将同时控制去噪和去模糊量的多重损失定义为bLnb=ω1·Lnoise+ω2·Lblur,其包括(9)的相同噪声保持目标加上去模糊和锐化目标Lblur=||yy−~yη||1,其中

通过“非锐化掩模滤波器”获得,使用支持9×9和标准偏差2.5的高斯核g从yη中提取高通信息,然后对其进行缩放并将其添加回同一图像以增强边缘和对比度。我们引入固定标量γ=8来定义可以应用于图像的最大锐化量。请注意,当γ=0时,目标Lblur将等效于Lnoise,因为只有去模糊而没有锐化将应用于输入图像。

在本实验中,调谐参数(ω1,ω2)是非凸的,并单独控制预测中的噪声和模糊量。从图5可以看出,在我们的方法中,这些参数明确地控制了噪声和模糊目标的影响;不同的是,在CResMD中,参数表示输入中的真实退化,在推断时对其进行修改以改变恢复行为3。因此,对于相同的参数值,这两种方法生成具有不同特性的输出。在表3中,我们报告了在所有噪声和模糊水平上平均的PNSR、LPIPS和NIQE的性能。这些结果清楚地表明,我们的可调策略几乎在任何地方都优于CResMD,而且往往有很大的优势。此外,无论何时要求CResMD处理其训练分布之外的输入图像和调谐参数的组合,都会产生严重的伪影(有关一些示例,请参阅补充材料)。

4.1.3超分辨率

对于这个实验,我们专注于×4超分辨率的场景,并且我们认为(8)中的退化算子D是双三次下采样,并且η=0(即不添加噪声)。我们使用与可调去噪实验中相同的设置,不同的是,这次用于训练,我们使用48×48的补丁大小(因此真实补丁是192×192),骨干ResNet架构包括最终的像素混洗上采样。

超分辨率是测试我们的可调模型平衡感知失真权衡能力的理想任务。我们设计了一个多损失bLrg=ω1·Lrec+ω2·Lgan,其中包括一个重建目标Lrec以最大化精度,以及一个对抗目标Lgan以最大化感知质量,后者被定义为Lgan=0.01·Lrec+Lvgg+0.005·Ladv,其中Lvgg是测量在“conv54”层获得的VGG-19特征的L1距离的感知损失,Ladv是生成器和鉴别器上的相对论对抗性损失。我们使用了类似的鉴别器,不同之处在于我们使用了4个尺度,并在最终的完全连接层之前添加了一个池化算子,以便分类器能够以任意的输入分辨率工作。

可调谐网络 表4中报告的客观结果表明,所提出的可调谐策略在保真度和感知测量方面几乎处处优于比较方法。让我们注意到,DyNet在这个应用程序中表现出更好的行为,并且它通常优于CSFNet,而DNI仍然无法正确地产生与中间行为相对应的结果。有趣的是,我们的方法在PSNR方面具有竞争力,甚至优于仅用重建目标训练的网络,即具有权重(1.00,0.00)的DNI。在图6中,我们展示了一个视觉示例,该示例演示了两个目标之间的平滑过渡,以及在整个参数范围内的细节质量和对伪影的鲁棒性方面优于DyNet的性能。

传统网络 与我们的去噪实验一样,我们还展示了在经典×4图像超分辨率方面与现有技术的比较。特别是,我们使用SwinIR作为主干,并构建了一个可调版本来优化上述相同的多损失bLrg;为了确保公平比较,我们使用相同的训练协议,用于大小为48×48的输入补丁。表5中显示的结果证实,即使在这个可以说更具挑战性的应用中,我们的可调SwinIR也能获得与固定基线相当的结果。

4.2.风格转换

在本节中,为了测试不同的图像到图像翻译任务,以及我们的方法处理两个以上目标的能力,我们考虑了风格转移,我们使用了一个UNet,由两个尺度和6个残差块组成的跳过连接(Conv2d-ReLU-Conv2d-skip-ReLU)来处理潜在特征。下采样和上采样分别作为跨步卷积和最近邻插值来执行。通道的数量是64个,然后在每个尺度上加倍。第一个和最后一个卷积的核大小为9×9。实例归一化和ReLU在除最后一次卷积之外的每次卷积之后应用。我们训练40000次迭代,权重衰减1e−5,学习率1e−4,批量大小4,补丁大小384×384。

我们定义风格转移:Lstyle=λgram·Lgram+λvgg·Lvgg+λtv·Ltv+Luv,其中Lgram是从预训练的vgg-19的“relu33”层提取的预测和目标风格特征的gram矩阵之间的差的平方Frobenius范数,Lvgg是从“relu33”层提取的预测特征和目标特征之间的L2距离,Ltv是用于提高平滑度的总V变量正则化项,Luv是用于保持原始颜色的YUV色度通道之间的L2间距。我们对不同的风格使用不同的λ权重;详细设置见补充资料。

图7表明,我们的方法能够在三种不同的风格之间平稳过渡,即Mosaic、Edtaonisl和Kandinsky。与DyNet等现有方法相比,我们的方法(唯一一种)能够可靠地优化两个以上的风格目标,包括它们的所有中间组合。

5.讨论

在本节中,我们通过分析可调谐卷积中的核与多损失中的相应目标之间的关系,来揭示我们方法的内部工作原理。作为示例,我们采用了表1和表4的去噪和超分辨率实验。在这两种情况下,我们都使用相同的ResNet主干,具有16个残差块和64个信道。首先,我们使用以0.25步长均匀采样的五个参数组合来调谐这些网络;然后,我们从每个残差块(中的两个卷积)中提取调谐的内核张量;最后,我们通过PCA和t-SNE来降低维度,以将调谐的内核嵌入到2D点中。在图8中,我们可视化了去噪和超分辨率网络的这些点的散点图。显然,每个块都被很好地分离成不同的簇,更有趣的是,调谐核在由具有不同长度和方向的可调谐参数识别的区域中跨越准线性流形。这清楚地表明,调谐后的内核从一个纯目标(0.00,1.00)平滑地过渡到另一个(1.00,0.00)。在图9中也可以观察到相同的线性过渡,其中我们描述了在使用步骤0.1均匀采样的11个参数进行调谐后,从第一个和最后一个可调谐卷积层提取的输入和输出RGB内核的第一个主分量。

6.结论

我们提出了可调谐卷积:一种新的动态层,通过一组交互参数可以改变神经网络的推理行为。在多重损失中,我们将每个参数与期望的行为或目标相关联。在训练期间,这些参数被随机采样,并且所有可能的目标组合都被明确地优化。在推理过程中,不同的目标被分解为相应的参数,从而对它们应该促进或抑制哪些行为提供了明确的解释。与现有解决方案相比,我们的策略实现了更好的性能,不限于固定数量的目标,明确优化了所有可能的线性目标组合,并且计算成本可以忽略不计。此外,我们已经证明,我们的可调谐卷积可以作为现有最先进架构中的替代品,在几乎不损失基线性能的情况下实现可调谐行为。

标签: #池化操作有几种