龙空技术网

伯克利推出Shift:利用「移位」操作替代空间卷积

雷克智能 641

前言:

如今你们对“矩阵位移法的基本思路”大概比较关注,看官们都需要学习一些“矩阵位移法的基本思路”的相关内容。那么小编同时在网络上网罗了一些对于“矩阵位移法的基本思路””的相关文章,希望我们能喜欢,各位老铁们快快来了解一下吧!

原文来源:arxiv

作者:Bichen Wu、Alvin Wan、Xiangyu Yue、Peter Jin、Sicheng Zhao等

「雷克世界」编译:嗯~阿童木呀

通常情况下,神经网络是依靠卷积来聚集空间信息的。然而,就模型大小和计算而言,空间卷积是非常昂贵的,且这两者会随着内核大小变化呈现出二次方增长趋势。在本文中,我们提出了一种无参数、无FLOPs(每秒浮点运算次数)约束的“移位”操作作为空间卷积的可替代性选择。我们融合了移位和逐点卷积,以构建端到端的可训练的基于移位的模块,其中超参数表征了在准确性和效率之间的折衷。为了演示该操作的有效性,我们用基于移位的模块取代了ResNet的3x3卷积,在使用减少了60%的参数情况下,提高了CIFAR10和CIFAR100中的精度,我们还演示了该操作在ImageNet上对参数减少的弹力适应性,结果显示,其性能要优于ResNet系列。最后,我们展示了移位操作在各领域的适用性,在分类、人脸确认(face verification)和风格迁移任务中仅使用较少的参数便实现了较强的性能表现。

卷积神经网络(CNN)在计算机视觉任务可谓是无处不在,例如图像分类、目标检测、人脸识别和分割迁移等任务中都遍布着卷积神经网络的身影。这些任务使得许多新兴的移动应用和物联网(IOT)设备能够成为现实,但是,这样的设备具有显著的内存限制以及对无线更新大小的限制(例如100-150MB)。而这些局限性又反过来对应用中使用的CNN的大小施加了限制。出于此原因的考量,我们着重关注在保持准确性的同时减少CNN模型的大小以使其适用于任务。CNNs依靠内核大小为3x3或更大的空间卷积来聚集图像内的空间信息。然而,空间卷积在计算和模型大小上都是非常昂贵的,且这都相对于内核大小成二次方增长。在VGG-16模型中,3×3卷积占据了1500万个参数,而fc1层,即7×7卷积,占据了1.02亿个参数。

图1:一个移位操作的例子,后面是1x1的卷积,这个移位操作可以在空间上调整数据,且1x1卷积将不同信道中的信息进行混合。

我们已经采取了若干种策略来减小空间卷积的大小。ResNet采用了一个“瓶颈模块”,在3×3卷积前后放置两个1×1卷积,以减少其输入和输出信道的数量。尽管如此,3x3卷积层仍旧占据了具有瓶颈模块的ResNet模型中所有参数的50%。SqueezeNet采用了“消防模块(fire module)”,其中3×3卷积和1×1卷积的输出沿着信道维度级联。而最近比较通用的网络,如ResNext 、MobileNet和Xception 则采用组卷积(group convolutions)和深度可分离卷积(depth-wise separable convolutions)作为标准空间卷积的可替代性选择。从理论上讲,深度卷积需要较少的计算量。然而,在实际操作中难以高效地实现深度卷积,因为它们的运算强度(FLOP与内存访问的比率)太低而不能有效地利用硬件。无独有偶,在X. Zhang、X. Zhou等人所著的《用于移动设备的极其高效的卷积神经网络》中也提到了诸如此类的缺点。ShuffleNet集成了深度卷积、点组卷积和信道拖放,从而进一步减少参数和降低复杂度。在另一项研究中,F. Juefei-Xu等人所著的《局部二进制卷积神经网络》沿袭了可分离卷积的概念,以冻结空间卷积,且仅只学习了点卷积。结果表明,这确实减少了可学习参数的数量,但不足以节省FLOP或模型大小。

图2:(a)空间卷积、(b)深度卷积和(c)移位。在(c)中,3x3网格表示一个移位矩阵,其内核大小为3。高亮单元格表示这个位置为1,而白色单元格表示0。

我们的方法是完全绕开空间卷积。

在本文中,我们提出将移位操作(如图1所示)作为空间卷积的可替代性选择。移位操作在不同的空间方向上移动其输入张量的每个信道。基于移位的模块通过点卷积插入移位操作,从而进一步将信道中的空间信息混合在一起。与空间卷积不同的是,移位操作本身需要零FLOP和零参数。而与深度卷积相反的是,移位操作可以很容易且高效地得以实现。

我们的方法正交于模型压缩(model compression)、张量分解(tensor factorization)和低比特网络(low-bit networks)是正交的,因此,这些技术中的任何一个都可以与我们提出的方法将结合,以进一步减小模型大小。

我们引入了一个用于基于移位模块的新的超参数——“expansion”E,对应于FLOP /参数和精度之间的折衷。这使得从业人员能够根据特定的设备或应用要求选择模型。然后,我们使用基于移位的模块,提出一个称为ShiftNet的新架构体系。为了证明这个新操作的有效性,我们在若干个任务上对ShiftNet进行了评估:图像分类、人脸验证和风格迁移。结果显示,仅使用较少的参数,ShiftNet便能够获得非常好的性能表现。

图3:使用ShiftNet实现的风格迁移效果

在我们的实验中,我们证明了移位操作的有效性,它能够作为空间卷积的可替代性选择。我们对移位组的构建还是很不成熟的:我们为每个移位分配了固定数量的信道。但是,这个任务很大程度上来说是信息不足的。接下来我们还会探索更多的信息分配和潜在的性能改进。

一般来说,一个理想的信道分配应该至少具有以下两个属性:(1)同一个移位组中的特征不应该是冗余的。我们可以通过检查移位组中信道激活之间的相关性来衡量冗余。(2)每个移位特征应该对输出有一个重要贡献。

更多详情可下载论文:

标签: #矩阵位移法的基本思路