龙空技术网

一种可以欺骗神经网络的单像素攻击

慕测科技 332

前言:

目前朋友们对“差分进化算法缺点是什么”大概比较珍视,各位老铁们都需要剖析一些“差分进化算法缺点是什么”的相关文章。那么小编在网络上汇集了一些有关“差分进化算法缺点是什么””的相关知识,希望姐妹们能喜欢,同学们一起来了解一下吧!

论文: Su J , Vargas D V , Kouichi S . One pixel attack for fooling deep neural networks[J].2017.

摘要:最近的研究表明,通过向输入向量添加相对较小的扰动就可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一种在极端受限的情况下的攻击方式,这种攻击方式只允许一个像素被修改。基于此,我们提出了一种使用差分进化算法生成单像素对抗性扰动的新方法。该方法只需要较少的对抗性信息,却可以欺骗更多类型的网络。结果表明,CIFAR10测试数据集中68.36%的自然图像和ImageNet中41.22%的验证图像可以通过仅修改一个像素就可以扰动至少一个目标类别,平均确信度为73.22%和5.52%。这个预计使用的攻击方法在极端受限的情况下探讨了对抗机器学习的不同看法,表明当前的DNN很容易受到这种低维攻击。

技术介绍:

在图像识别领域,基于DNN的方法已经克服了传统的图像处理技术,可以获得符合人性化的结果。然而一些研究表明,自然图像上的人工扰动很容易使DNN错误分类,因此提出了生成 “对抗图像”样本的算法。创建对抗图像的一个常见想法是添加少量调整好的附加扰动,这种扰动是可以被正确分类的自然图像并且对于人眼来说是不可察觉的微量扰动。这种修改可以使分类器将修改后的图像标记为完全不同的类别。可是0这仍然存在着不足,大多数先前的攻击都没有考虑到对抗攻击的极其有限的情况,即修改可能会过多(修改像素的数量相当大)以至于人眼都可以察觉。

本文通过使用差分进化算法扰动一个单像素来提出一种黑盒DNN攻击方法,该方法具体如下:

1. 描述问题

生成对抗性图像可以形式化微具有约束的优化问题。我们假设输入图像可以由向量表示,那么其中每个标量元素就代表一个像素。假设f是接收n维输入的目标图像分类器,令X=(x1,x2…xn)代表可以被正确识别为t类的原始自然图像,令ft(x)代表x属于t类的概率,矢量e(x)=(e1,e2…en)表示根据x、目标类adv和最大修正限制L生成的附加对抗扰动。其中L是通过e(x)的长度来测量得到的。在针对性攻击的情况下,攻击者的目标就是找到针对以下方程的优化解决方案e(x)*:

问题涉及找到两个值:(a):需要扰动的维度;(b):每个维度的修改的相应强度。

在本文提及的方法中,方程会略有不同,具体方程如下:

其中d是一个很小的值,而在单像素攻击的情形下d=1。以前的工作通常会修改所有维度的一部分而本方法只会修改d维, e(x)的剩下的维度都设为0。

2. 差分进化算法

差分进化(DE)是一种基于总体的优化算法,用于解决复杂的多模态优化问题。DE属于进化算法的一般类(EA)。该算法具有在种群选择阶段保持多样性的机制,以便保证在实践中有望找到比基于梯度的解决方案甚至其他类型的EA更高质量的解决方案。具体而言,差分进化算法会在每次迭代期间根据当前种群(父亲)生成另一组候选解(孩子)。然后将孩子与他们相应的父亲进行比较,如果他们更合适则幸存下来。以这种方式,仅比较父亲和他的孩子,可以同时实现保持多样性和改善合格率的目标。

使用差分进化算法生成对抗图像具有以下优点:

(1)更高的概率找到最优解。 DE是一种元启发式算法,与梯度下降或贪婪搜索算法相比,它更少受局部最小值的影响

(2)在目标系统中需求更少的信息。DE不要求优化问题可以通过经典优化方法(如梯度下降和拟牛顿方法)的要求进行微分。这对于生成对抗图像非常重要,因为计算梯度需要更多关于目标系统的信息,在许多情况下这些信息很难实现。

(3)相比其他算法更加简单。这里提出的方法与所使用的分类器无关。为了进行攻击,只要知道概率标签就足够了。

3. 方法和设置

本文提出的方法将扰动编码成阵列(候选解),通过差分进化算法进行优化。一个候选解包含固定数量的扰动,每个扰动是一个包含五个元素的元组:x,y坐标以及扰动的RGB的值。一个扰动修改一个像素。候选解决方案的初始数量为400,并且在每次迭代时,将使用通常的DE公式生成另外400个候选解,公式如下:

其中x i是候选解的一个元素,r1,r2,r3是随机数,F是规模参数,这里设置为0.5,g是当前的迭代指标。一旦生成,每个候选解决方案根据种群的索引与其对应的父亲竞争,并且获胜者在下一次迭代中存活。本文将最大迭代次数设置为100,并且当针对CIFAR-10的目标攻击的情况下目标类的概率标签超过50%时将会触发提前停止标准, 针对ImageNet时,这个指标降低为45%。接着将真实类的标签与最高的非真实类进行比较,以评估攻击是否成功。在CIFAR-10的情况下,适应度函数只是目标类的概率标签,而在ImageNet的情况下则是真实类的标签。

本文主要贡献:以前的结果表明,许多数据点可能位于决策边界附近。而本文不拘泥于此,展示了其实可以沿着几个维度移动数据点以找到类标签发生变化的点。本文的实验结果表明本文提出的单像素攻击所利用的CNN的易攻击性的弱点会在不同的网络架构和不同的图像尺寸普及。本文提出一种单像素攻击方法,该方法具有高效、灵活且是半黑盒测试方法(只需要黑盒的概率标签的反馈,而不需要目标DNN的内部信息)的优点。致谢

此文由南京大学软件学院2018级硕士钱航翻译转述。

标签: #差分进化算法缺点是什么