既可以减少查询次数,有可以提高攻击成功率的黑盒攻击方法

论文名称:Black-Box Adversarial Attack With Transferable Model-Based Embedding

作者单位:Zhichao Huang / The Hong Kong University of Science and Technology

收录时间:2020 ICLR

文章亮点:结合了黑盒攻击中transfer-based和scored-based的思路,提出了既可以减少查询次数,有可以提高黑盒攻击成功率的黑盒攻击样本生成方法——TREMBA。

Motivation

  • 黑盒攻击方法:

    • The transfer-based attack methods:利用对抗样本的可迁移性,对源模型进行预训练,然后再利用白盒攻击算法去攻击源模型,生成对抗样本。缺点:不能实现很高的攻击成功率,且对于有目标攻击存在欠缺。
    • The score-based attack methods:利用多次查询目标网络,以获取目标网络的近似梯度信息。缺点:需要大量的查询。
  • 因此文章结合将上述两种方法进行结合:在预训练的白盒源网络的基础上,引导黑盒攻击,提高黑盒攻击的正确率,减少查询次数。该方法全名为: TRansferable EMbedding based Black-box Attack (TREMBA)

  • TREMBA方法在减少了大于50%的查询次数的基础上,提高了近10%的攻击成功率。

Method

1. Targeted attacks

  • 整体思路:首先在代替模型的白盒攻击中生成初步的对抗样本,然后再讲该初步的对抗样本作为搜寻起点,继续利用score-based attack 方法进行查询。最后迭代出最终的具有良好迁移性的对抗样本。

  • Generating Adversarial Perturbations With Generator:训练生成器生成可以初步欺骗源白盒模型的对抗样本。其中损失函数使用的是C&W attack 中的Hinge loss。

  • Search Over Latent Space With NES:然后将初步的对抗样本作为搜寻起点,采用NES方法去进一步搜寻对抗样本。TREMBA并不是在整个输入空间里面搜寻对抗样本,而是在embedding space Z空间中进行搜寻。

生成对抗扰动

Experiments

  • TREMBA方法与其他方法相比,在相同查询次数的基础上,在不同网络的攻击效果上都呈现出很好的攻击成功率。(粉红色线)
攻击成功率对比
不同网络攻击效果



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 自动驾驶关于对抗攻击的鲁棒性研究
  • 雕刻字自动排样算法
  • 触觉信息采集
  • FSR402压力传感器Unity演示
  • PyTorch Geometric(PyG) 库的安装