既可以减少查询次数,有可以提高攻击成功率的黑盒攻击方法
论文名称:Black-Box Adversarial Attack With Transferable Model-Based Embedding
作者单位:Zhichao Huang / The Hong Kong University of Science and Technology
收录时间:2020 ICLR
文章亮点:结合了黑盒攻击中transfer-based和scored-based的思路,提出了既可以减少查询次数,有可以提高黑盒攻击成功率的黑盒攻击样本生成方法——TREMBA。
Motivation
-
黑盒攻击方法:
- The transfer-based attack methods:利用对抗样本的可迁移性,对源模型进行预训练,然后再利用白盒攻击算法去攻击源模型,生成对抗样本。缺点:不能实现很高的攻击成功率,且对于有目标攻击存在欠缺。
- The score-based attack methods:利用多次查询目标网络,以获取目标网络的近似梯度信息。缺点:需要大量的查询。
-
因此文章结合将上述两种方法进行结合:在预训练的白盒源网络的基础上,引导黑盒攻击,提高黑盒攻击的正确率,减少查询次数。该方法全名为: TRansferable EMbedding based Black-box Attack (TREMBA)
-
TREMBA方法在减少了大于50%的查询次数的基础上,提高了近10%的攻击成功率。
Method
1. Targeted attacks
-
整体思路:首先在代替模型的白盒攻击中生成初步的对抗样本,然后再讲该初步的对抗样本作为搜寻起点,继续利用score-based attack 方法进行查询。最后迭代出最终的具有良好迁移性的对抗样本。
-
Generating Adversarial Perturbations With Generator:训练生成器生成可以初步欺骗源白盒模型的对抗样本。其中损失函数使用的是C&W attack 中的Hinge loss。
-
Search Over Latent Space With NES:然后将初步的对抗样本作为搜寻起点,采用NES方法去进一步搜寻对抗样本。TREMBA并不是在整个输入空间里面搜寻对抗样本,而是在embedding space Z空间中进行搜寻。

Experiments
- TREMBA方法与其他方法相比,在相同查询次数的基础上,在不同网络的攻击效果上都呈现出很好的攻击成功率。(粉红色线)


Enjoy Reading This Article?
Here are some more articles you might like to read next: