2019/08/08 15:27

Luo Sainan作者Haojin Yang编辑

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

IJCAI（国际人工智能联合会议）是人工智能领域中的顶级综合性会议，IJCAI2019 将于 8 月 10 日至 8 月 16 日在中国澳门举办，本次会议投稿量有 4752 篇，接收率为 17.88%。本文对 3 篇神经网络安全相关论文进行了介绍。

近年来，深度学习在计算机视觉任务中获得了巨大成功，但与此同时，神经网络的安全问题逐渐引起重视，对抗样本热度持续不下，神经网络后门攻击也悄然兴起。本文选取了 IJCAI2019 的 3 篇论文，从目标检测对抗攻击、实时对抗攻击、神经网络后门攻击三个方面，为大家梳理最新进展。

论文 1：Transferable Adversarial Attacks for Image and Video Object Detection
论文 2：Real-Time Adversarial Attacks
论文 3：DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks

论文 1：Transferable Adversarial Attacks for Image and Video Object Detection

链接：https://arxiv.org/abs/1811.12641

论文速览：

目标检测是深度学习大显身手的领域。目前，主流的图像目标检测模型可大致分为两类：基于 proposal 的模型和基于回归的模型。前者通常包含 R-CNN，Faster-RCNN，Mask-RCNN 等，这些方法使用两阶段检测步骤，首先检测 proposal 区域，然后对它们进行分类以输出最终检测到的结果。基于回归的经典模型有 YOLO 和 SSD，它们将目标检测任务视为回归过程，并直接预测边界框的坐标。与图像场景相比，图像目标检测视频目标检测将相邻帧之间的时间交互结合到目标检测过程中，通常在选定的关键帧上应用现有的图像目标检测器，然后通过时间交互传播边界框。因此，图像目标检测是视频目标检测的基础。

目前针对图像目标检测的对抗攻击方法较少，已有的方法具有两大弱点：1. 迁移性较弱：在一种目标检测方法上攻击效果好，但在另一种方法上成功率较低。2. 计算成本较高：针对视频数据处理，耗时较长。本文提出了一种开创性方法 UEA(Unified and Efficient Adversary)，*可高效生成图像和视频目标检测对抗样本，并且对基于 proposal 的和基于回归的两大类目标检测器同时有效*。作者提出了一种多尺度的 attention 特征损失，以增强 UEA 的黑盒攻击能力。与首个且此前最先进的针对图像目标检测的对抗攻击方法 DAG（Dense Adversary Generation）相比，UEA 所需的运算时间约是它的千分之一。

图 1.1 DAG 和 UEA 目标检测对抗攻击效果示例

第一行为原始图像及其目标检测结果；第二行和第三行分别为 DAG 方法和 UEA 方法添加扰动后的对抗图片在两种目标检测方法上的效果；其中 DAG 扰动后使得 Faster R-CNN 未检测出图中目标，但是对 SSD 无影响；而 UEA 扰动后在 Faster R-CNN 上未检测出目标，同时在 SSD 上检测到的目标 car 被识别为 sofa

Tips：2017 年 Xie 等人提出的 DAG 对抗攻击方法以 Faster R-CNN 为攻击模型，首先为每个 proposal 分配一个对抗标签，然后执行迭代梯度反向传播以对 proposal 进行错误分类。由于 DAG 通过操纵类标签来实现对抗样本，专门用于对 proposal 进行错误分类，这意味着 DAG 的可迁移性很差，无法在基于回归的检测器上很好地工作。另外，DAG 是一种优化方法，每个图像需要 150 到 200 次迭代才能完成对抗扰动，高计算成本使 DAG 无法应用于攻击视频目标检测系统，因为视频攻击所需的运算量要高得多。

方法解读：

图 1.2 UEA 的训练框架图

U(Unified)：「统一」表示可以同时攻击当前的两种代表性目标检测模型。由于基于 proposal 和回归的目标检测器都使用特征网络作为后端，如 Faster-RCNN 和 SSD 都使用 VGG16，如果对从后端特征网络中提取的特征进行攻击，则两种类型的目标检测器都将受到影响。作者将该想法以多尺度特征损失来实现，从多个层中攻击特征图。从 DNN 的深度来看，DAG 的类损失应用于高级 softmax 层，attention 特征损失用于低级后端层。作者在 GAN 框架内同时集成了低级特征损失和高级类损失，以共同提高可迁移性。

专业用户独享

本文为机器之心深度精选内容，专业认证后即可阅读全文

开启专业认证

登录后开启专业认证去登录

理论IJCAI对抗攻击后门攻击目标检测计算机视觉神经计算生成对抗网络

3 1

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

随机优化技术

随机优化（SO）方法是生成和使用随机变量的优化方法。对于随机问题，随机变量出现在优化问题本身的表述中，其涉及随机目标函数或随机约束。

来源：维基百科

范数技术

范数(norm)，是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，是一个函数，其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

来源：CSDN Blog

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

VGG技术

2014年，牛津大学提出了另一种深度卷积网络VGG-Net，它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野，而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好，常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量，VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层，每一层都有4096个神经元，可想而至这之间的参数会有多么庞大。

来源：7大类深度CNN架构创新综述

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

异常检测技术

在数据挖掘中，异常检测（英语：anomaly detection）对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。

来源：维基百科

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

SSD技术

一种计算机视觉模型。论文发表于 2015 年（Wei Liu et al.）

来源：介绍文章

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的，并在随后的两篇论文中进行了修订。

来源：介绍文章

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

假设检验技术

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。

来源：维基

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

语音处理技术

语音处理（Speech processing），又称语音信号处理、人声处理，其目的是希望做出想要的信号，进一步做语音辨识，应用到手机界面甚至一般生活中，使人与电脑能进行沟通。

来源：维基百科

模仿学习技术

模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，就能执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/