前言:
当前你们对“块匹配算法中块大小的选择如何考虑”大约比较关注,大家都需要学习一些“块匹配算法中块大小的选择如何考虑”的相关资讯。那么小编在网络上搜集了一些关于“块匹配算法中块大小的选择如何考虑””的相关内容,希望你们能喜欢,小伙伴们一起来了解一下吧!论文题目:
Feature Embedding by Template Matching as a ResNet Block
论文地址:
摘要
卷积块作为局部特征提取器,是神经网络成功的关键,为了使局部语义特征嵌入更显式,我们根据最佳匹配核重新表述卷积块作为特征选择,通过这种方式,我们证明了典型的ResNet块确实通过模板匹配执行局部特征嵌入,一旦批量归一化(BN)之后,一个整流线性单元(ReLU)被解释为参数最大优化器。按照这个观点,我们裁剪了一个残差块,它通过使用标签信息显式地强制语义上有意义的局部特征嵌入,具体来说,我们根据对应区域匹配的类为每个局部区域分配一个特征向量,我们在三个流行的基准数据集上评估了我们的方法,这些数据集具有几种用于图像分类的架构,并且始终表明我们的方法大大提高了基准架构的性能。
1介绍
卷积神经网络(CNN),尤其是类似resnet的架构,直到最近都是图像识别领域的最先进技术,CNN的成功很大程度上依赖于通过堆叠卷积块(即卷积后面跟着激活函数)进行分层特征提取,这些卷积块的参数是以自上而下的方式(即通过类监督损失函数的反馈)学习的。对分层特征提取有效性的一种可能解释是,将中间特征图中的每个像素视为对应于一个语义实体的特征向量,该语义实体与其他此类特征的存在形成了层次结构继任者中的一些其他语义实体(例如,翅膀和喙→鸟)。
尽管文献对这种民间传说进行了实证研究,并对基于属性的零镜头分类进行了进一步验证,但其对自下而上的特征提取的算法含义尚不清楚,因此,研究的进展通常集中在架构设计上,而将自下而上的特征嵌入公式保留得相当隐式,这可能会失去提高分类性能的机会。假设自顶向下的类监督反馈能够通过卷积层形成自底向上的行为,那么我们是否可以通过在较低层次上利用监督来使分层特征提取更显式?如果除了类标签之外,还为较低级别的特征提供本地化注释,那么我们所需要的就是一个自下而上的特征提取公式来利用这种监督。然而,我们在实践中没有这样的注释,这使得对中间层的显式监督成为一个挑战,也就是说,在文本域中,语义实体对应的向量线性组合得到另一个实体的向量(例如woman + royal≈queen)。
接下来的问题是“我们能否使用混合类标签来监督较低层次的特征提取?”在这项研究中,我们解决了使用类级监督来显式地塑造中间特征的行为的挑战,这与在中间层的输出中构建分类器以缓解GoogLeNet之类的架构中的消失梯度不同,我们首先考虑通过模板匹配的自底向上的特征嵌入公式,并严格地展示了其与典型ResNet卷积块的相似之处(图1),基于这样的关系,我们提出了一个残差块,根据对应区域匹配的类将特征向量分配给每个局部区域,我们将最佳匹配定义为优化问题的解决方案,并使用软最大解决方案,不仅支持学习,而且还产生新的语义实体作为类特征的凸组合。
具体来说,我们的块使用类级监督进行训练,并且鼓励每个局部区域预测它所属的图像的类,当然,有些区域可以匹配多个类别,因为类别之间共享局部特征(例如,翅膀可以同时存在于飞机和鸟类中),我们的方法利用这些信息,通过组合匹配类的向量,为这些区域分配语义上有意义的嵌入向量,也就是说,我们通过学习结合现有的类来组成局部区域的新类,显式地塑造了cnn的自底向上行为,我们验证了我们的理论主张,并通过对3个流行分类基准的广泛评估显示了我们方法的有效性。
2相关工作
我们讨论与我们最相关的作品,简单地说,我们的贡献包括i)我们重新制定ResNet块作为模板匹配的特征嵌入,ii)我们引入了BN+ReLU的无批量统计替换,iii)我们开发了一个残差块,有效地结合现有类的嵌入向量,以产生不同语义实体的嵌入向量。与解释特征嵌入相关,重新讨论了基于特征聚合和匹配公式的视觉词包全局表示,这些方法建立在CNN特征提取层次结构顶层的特征嵌入之上,相反,我们的方法明确地利用特征提取器早期阶段的自顶向下信息来学习它们的参数。也就是说,我们的区块在训练过程中使用了类似于深度监督网络的辅助分类损失,这些方法只在训练阶段使用这种损失来正则化特征,并在不消失梯度的情况下促进学习,不同的是,我们在训练和推理中显式地使用预测,结合类特定向量在语义上表示局部区域,这是在中间层中使用辅助损失的新方法。
我们的工作主要涉及从自然语言处理的注意力机制中得到启发的方法,以在其上下文中聚集的特征来表达一个标记,前人将卷积解释为局部特征的加权聚集,将卷积运算完全替换为自注意,进行自底向上的特征提取设计,尽管自注意后来被证明可以表达任何卷积层,但基于补丁匹配的视觉转换器(ViT)表明,对于具有强大表达能力的模型来说,没有这种模仿卷积的注意层是必不可少的,在我们的工作中,基于模板匹配的公式也与注意机制保持一致,我们的工作的不同之处在于,我们从通过优化问题正式定义特征嵌入到达相似加权特征聚合。
作为一个副产品,归一化方法也与我们的技术相关,作为先驱者,批量归一化(batch normalization, BN)解决了内部协变量移位现象,我们的理论结果表明BN在BN- relu上下文中有一个替代的目的,即伪参数最大优化器,这种关系表明,裕度增强soft-max可以作为现有方法的BN-ReLU的替代方法,用于相对较小的小批量。
3 方法
通过模板匹配,我们将典型残差网络的残差块重新用作特征嵌入,并据此提出了一种新的残差块(如图2所示),该残差块可以有效地从类标签中学习局部特征嵌入。我们首先将基于卷积块的局部特征嵌入重新表述为通过最佳匹配核进行特征分配,将BN-ReLU与arg-max优化器联系起来,我们表明3x3-BN-ReLU-1x1的卷积块通过选择最匹配的卷积核固有地执行局部特征嵌入(图1),因此,从核匹配解释的特征嵌入中得到启发,我们开发了残差块。
3.1模板匹配特征嵌入
我们已知一个特征映射f∈Rwxhxd,它是某个神经网络层的输出,在每个空间位置(即像素点),我们有一个特征x∈Rd,它可能在一定的空间范围内代表它周围的局部区域,我们希望通过将x转换为另一个捕获局部邻域语义的向量,从f中获得一个特征映射f0∈Rw0xh0xd0,我们设x3x3∈R9d表示以x为中心的3x3窗口的串联特征,我们有一组匹配的核{ωk∈R9d}k,每个核寻找一个特定的模式,对于每一个核ωk,我们关联一个嵌入向量νk∈Rd0,表示对应3x3模式的语义,我们的目标是将x替换为与其邻域最匹配的核的嵌入向量,因此,我们将问题正式定义为:
其中µ是一个阈值,当没有核与至少µ相似度匹配时,将嵌入向量归零,由于约束的总单模性,P*要么是独热向量,要么是零向量,当任意一个活化度(ak = ω| kx3x3)都不大于µ时,p * = 0。然后,我们得到x的表示为x0 = Σkp * k νk。给定初始特征映射f,即变换后的特征映射f0,通过对核{ωk}k进行3x3次卷积,求解一个线性规划,再与向量{νk}k进行1x1次卷积,可以有效地得到,虽然计算效率高,但这种公式的一个关键问题是线性规划破坏了计算图的反向传播,也就是说,p*作为a的函数在ak = ω| kx3x3时是非光滑的。
为了缓解线性规划的不可微性,我们可以使用随机摄动优化器:
或者我们可以使用熵正则化,使问题严格凹光滑:
其中ϵ在这两个问题中都控制着解p*的光滑程度,我们将介绍两个保证雅可比矩阵[∂p∗/∂a]ij:=∂p∗j/∂ai存在的命题。
这两个命题使我们能够使用软最大化器实现作为可微层的最佳匹配内核选择,P*将不再是单热或零向量,当然,如果没有大于µ的激活,p *的实体将衰减为零,否则由于软最大操作,我们可能会有多个非零实体,为此,BN-ReLU可以被解释为问题(P1)的软近似,我们将很快展示。
3.2 BN-ReLU作为(P1)的软最大化器
BN及其后续对应物使用一些批量统计数据进行了形式为ak = γk ak−E[ak]√Var(ak) + βk的活性归一化,将ReLU应用于a,我们得到p = max(a,0),给定{νk}k个嵌入向量,我们计算输出特征为x0 = Σk pk νk,表示η:=Σkˆpkˆp∗k =ˆpk /η,我们可以写成x0 =ηΣkˆp∗kνk, pˆ∗是一个可行的解决方案的问题(P1)的确是最优的解决方案当所有的激活都低于µkµk = E (ak)−βk√Var (ak)γk。
此外,p*保留了问题解中值的相对顺序(P3),事实上,BN在0附近映射激活,其中ex≈1 + x,这意味着BN- relu是非负激活的非归一化软最大值的有偏一阶近似,因此,BN-ReLU可以解释为对问题(P1)产生一个可缩放的软最大化器。我们用实证研究(§4.1)来支持我们关于这种关系的主张,其中我们用扰动最大化器和软最大层取代BN-ReLU,并用常数缩放输出,BN-ReLU的这种替换减轻了活动规范化中的批量统计需求。
为了表明BN-ReLU和arg-max之间的近似等价性,我们可以使用3x3-BN-ReLU-1x1的卷积块通过模板匹配来实现我们的局部特征嵌入,事实上,3x3-BN-ReLU-1x1是一个典型的基于ResNet架构的块,因此,我们的局部特征嵌入公式为解释ResNets如何成功提供了不同的见解,此外,我们的公式表明,3x3-BN-ReLU-1x1卷积块正在模拟3x3补丁和卷积核之间的交叉注意,也就是说,3x3个补丁是查询,卷积核是键,每个patch用一个向量表示,该向量是键对应的值向量的凸组合。
3.3显式特征嵌入为残差块
我们证明了包含3x3-BN-ReLU-1x1块的cnn的自底向上行为是通过模板匹配的特征向量赋值,其中,3x3 patch的嵌入向量是卷积核对应的值向量的缩放凸组合,其中组合权重与匹配分数成正比,因此,ResNet的每一个残差块(图2)都可以理解为通过将最佳匹配模式的语义向量与对应特征的3x3邻域进行捷径连接,增强了输入特征图中的特征向量,按照这个观点,我们现在制定我们的特征嵌入机制。
我们考虑的不是3x3窗口,而是以特征图中的每个像素为中心的更大的空间范围(即补丁),我们的目标是将这些补丁与类匹配,而不是卷积内核,我们通过训练辅助分类器和主分类器来实现这一点,不可避免的是,类间共享实体的patch的判别能力不够,会匹配多个类以最小化分类损失,我们严格地利用这种行为,通过为类使用可学习的嵌入向量,即值向量,根据其语义嵌入补丁,具体地说,我们使用预测分数来计算值向量的凸组合。假设学习到的值向量对应类的语义,那么它们的组合将对应新的语义实体(例如0.5plane + 0.5bird≈wing),通过这种方式,我们设法利用标签的加权组合来显式地监督局部特征提取。
形式上,给定一个输入特征映射f∈Rwxhxd,我们提取w2*h2个补丁,x2∈Rw2*h2xd,其中x和框2是一个以x为中心的补丁,然后我们通过对每个补丁的平均池化来获得全局表示,即xg = 1 |x2|Σx∈x2x,其中|x2|表示特征的数量,我们应用带有偏差的1x1卷积(即线性变换)来获得c-many类的类匹配分数(即激活度,a,在§3.1中原始公式的上下文中),当k∈[1…C],其中αk和βk是可训练向量和k类的偏置项。为了学习分类器参数(α, β),我们用每个patch分类损失的辅助来增加训练损失,因此,我们能够在不同的层次上传播标签监督,以明确地鼓励通过模板匹配范式进行特征嵌入,对于数据集D,图像(I)-标签(y)元组的损失为:
其中h1(·)表示到我们这一层为止WXH大小的网络输出,h2(·)表示我们这一层的类分数,h(·)表示整个网络的类分数,L(·)是软最大分数的交叉熵损失。
最后,根据§3.1和§3.2的结果,我们应用BN-ReLU-1x1卷积块,得到patch x2的最终表示,x0∈Rd,也就是说,我们为每个类关联一个嵌入向量νk∈Rd,将整个补丁描述为x0 = Σk pk νk,其中p是BN-ReLU的输出,如§3.2所述。我们应该注意,我们在损失计算中使用软最大来获得归一化概率,并且我们严格使用BN-ReLU来处理混合系数,以处理软最大时不匹配的情况,因此,我们的方法将局部区域与类标签匹配,而不是特定的模式,并将相应的语义信息嵌入为类语义的缩放凸组合,以便嵌入的语义在特征嵌入层次的进一步层次中有用,与典型的残差块类似,我们通过逐像素线性变换的快捷连接,将生成的特征映射f 0添加到初始映射f,即fout = conv1x1(f) + f 0。
3.4实现细节
我们使用ResNet (RN)、深度为16、增宽因子为2的Wide-ResNet (WRN)和深度为100、生长速率为12的DenseNet (DN)作为基线架构,每个架构有4个阶段。在RN和WRN中,我们在第2阶段和第3阶段有空间缩小,而在DN中,我们在前两个阶段有空间缩小,我们在图2中总结了总体架构,在图2中我们还展示了我们的特征嵌入机制以及Eq.(3.1)中的h1(·)和h2(·),我们把我们的图层放在最后两个阶段之间,我们只向基线添加一个额外的分类和两个线性变换(即三个1x1卷积)。对于DN,我们增加了f0和f的拼接,而不是通过快捷方式相加,以配合DN的架构设计,我们在补充材料中提供了关于再现性的进一步细节。
4实验工作
我们评估了所提出的特征嵌入方法在图像识别任务中的有效性,我们进一步对我们的配方以及超参数的影响进行了消融研究。
数据集 100类Mini-ImageNet,图像大小为84x84, Cifar(10和100),图像大小为32x32,我们对训练、验证和测试集使用65%、15%和20%的分割。
训练 默认的Adam优化器具有10e-3的学习率,10e-4的权重衰减,以及32的迷你批处理大小。
Hyperparameters 基于我们的消融研究(图4),我们将Eq.(3.1)中的λ=0.5,由于Mini-ImageNet的图像更大,我们在RN和WRN的第一阶段以及DN的第三阶段采用额外的空间约简,以获得与Cifar相似的输出特征大小。
4.1消融研究
用软最大化器取代BN-ReLU 为了支持我们在§3.2中的主张,我们用摄动最大化器替换3x3卷积后的BN-ReLU,用§3.2中的µ和η常数替换软最大层,特别地,我们将µ连接到激活并执行soft-max,我们称之为边缘增强soft-max,然后我们将输出按η比例计算。使用µk = E[ak]−βk√Var(ak)/γk,我们从预训练的ResNet20的BN层中估计µ=2.5作为每次激活的非零µk的平均值。类似地,我们使用BN-ReLU后的每像素激活和的平均值η=17,对于扰动最大化器,我们使用600个样本作为经验期望,两种方法均使用ϵ=1,我们评估了批次大小相对较小(8)和较大(32)的方法,但由于对内存的需求,我们排除了32批大小的扰动最大化方法,我们使用3阶段2块ResNet20基线和Cifar-10数据集进行评估,对比如图3所示,我们观察到,这两种方法的性能不相上下,支持我们在§3.2中的主张,这样的经验结果也提出了一种不使用批量统计的活动归一化技术。
λ效应 我们对Eq.(3.1)中的两个损失(即图2中的L和L0)的λ混合系数进行网格搜索,我们使用4阶段2块ResNet与我们的方法和Cifar-10数据集进行评估,结果如图4所示,较小的λ值(即没有辅助损耗)会降低性能,我们发现,同等加权的损失(λ=0.5)带来最好的性能。
块数(深度) 我们在RN基线中评估2-block (RN26)和3-block (RN38)阶段,以检查我们的特征嵌入随着深度增加的影响,比较如表1所示,我们观察到深度的增加提高了我们方法的性能,值得注意的是,我们还观察到,我们的深度较低的方法与深度较高的基线表现相当。
4.2分类结果
我们训练了几个配备了我们的特征嵌入块(Baseline-Ours)的架构(rn#, WRN16, DN100),基线具有不同深度的不同架构选择,我们的目标是展示我们理论推导的有效性,而不是通过结构设计来推动最先进的(SOTA),我们坚信,我们的实验足以验证我们的方法以及我们的主张的有效性和泛化能力。
为了最大限度地减少除我们提出的方法之外的其他因素的混淆,我们对所有架构遵循§4中披露的相同实验设置,保持比较尽可能公平,我们在表1中提供了结果,其中标记了所有优于基线的结果,我们观察到,我们提高了SOTA CNN架构WRN和DN的性能。
此外,我们的方法对所有的基线都有持续的改善,这种改善主要不是来自于我们的方法带来的边际参数的增加,我们的方法的2块RN26基本上优于其3块基线(RN38),在相对较浅的体系结构中,我们方法的改进更为显著,对于DN架构,我们也尝试通过拼接(DN-our-c)而不是添加(附录A)来增强特征,由于与DN架构更好地对齐,拼接在DN中略优于添加。我们还仅用辅助分类损失评估RN26,以显示我们的贡献的效率,即利用匹配分数作为类嵌入向量的混合系数,我们的方法在所有数据集中带来了一致的改进,相对于直接在中间层应用辅助分类损失。
4.3特征嵌入行为分析
通过特征的t-SNE图(图5和图6)以及特征空间范围对应的样本斑块(图7),我们进一步分析了RN26在Cifar10数据集中的特征嵌入机制的效果,我们为每个类采样80张图像,并将特征映射上的像素投影到2D空间。
嵌入空间几何 在最后一个阶段之前,我们首先比较特征的几何形状,我们在图5中提供了相关的2D t-SNE投影,我们观察到基线RN的特征分散在空间中,而不管它们的更高级别语义。相反,我们的块输出(即stage4输入)的特征是根据语义聚类的,特别是,动物占据了空间的一半,而车辆则占据了另一半,我们进一步证明了这种行为是值向量嵌入的结果。当我们比较块的输入和输出处的特征时(即阶段3输出和阶段4输入),我们看到聚类发生在我们的特征嵌入之后,通过匹配语义验证了我们的特征嵌入机制,也就是说,在图6中,我们也根据他们的类预测的2D t-SNE绘制补丁,并将最终的嵌入向量作为类值向量的加权组合(图2中的f 0),通过类预测,语义相似的补丁被分开嵌入(例如car和truck),另一方面,嵌入向量对几何形状进行了重塑,使语义相似的实体映射得更接近,这也证明了基于模板匹配机制的特征嵌入的有效性。
视觉单词 为了支持我们关于从类向量的组合中生成对应于新语义实体的向量的主张,我们使用类预测分数的100个中心执行k-均值聚类,然后我们取离中心最近的小块,我们在图7中提供了16个这样的patch及其预测分数,我们观察到类的不同组合意味着不同的语义实体,例如,翅膀是由飞机和鸟类生成的,我们有轮胎是汽车和卡车的组合,我们观察继承类标签的类区分补丁,我们也观察到更一般的实体,如许多类的混合物,如动物类的皮毛。
5 结论
我们将基于卷积块的局部特征嵌入重新表述为通过最佳匹配核进行特征分配,并证明3x3-soft-max-1x1实现了这种机制,我们将BN-ReLU近似地与非归一化软最大值联系起来,为我们在流行的基于resnet的模型中遇到的3x3-BN-ReLU-1x1带来了一个新的观点,在解释3x3-BN-ReLU1x1卷积块自底向上行为的视角基础上,我们提出了一种特征提取机制,利用类语义向量的加权组合将向量表示嵌入到补丁中,我们将这种机制作为一个简单而有效的残余层来实现,我们的层是可学习的,并有效地选择最匹配补丁的类进行特征嵌入,我们用几种架构实现了我们的方法,通过广泛的实证研究,我们验证了我们的特征嵌入层以及我们的理论主张的有效性。
标签: #块匹配算法中块大小的选择如何考虑