论文部分内容阅读
模式识别和机器学习算法在许多安全类应用中取得了较好的分类性能,比如说在垃圾邮件过滤、入侵检测和恶意软件检测系统等应用中。但是,在这些应用中,攻击者会修改一些样本来误导分类器做出错误的决策。在对抗性环境中,训练集和测试集服从相同的概率分布这个假设不成立,因此,传统的机器学习技术在解决对抗性分类问题的有效性遭到了质疑。逃避攻击是对抗性分类问题中常见的攻击类型,攻击者会在测试阶段修改恶意样本的特征值从而使得修改后的恶意样本逃过分类器的检测。因此,如何探索分类器的漏洞以及如何设计鲁棒性的分类器来对抗攻击成为目前的研究重点。本文讨论了逃避攻击中存在的问题以及对抗逃避攻击的防守策略。本文的主要贡献为:1、在一些安全性应用中进行特征选择是必要的,比如在垃圾邮件过滤和生物识别系统等应用中,但是只有少数的研究讨论如何在对抗性环境中进行特征选择。之前的研究工作曾认为在进行特征选择后,分类器对抗逃避攻击的能力将会下降。本文的第一个贡献是深入讨论特征选择是否会降低分类器对抗攻击的能力。本文首先讨论了传统的特征选择算法在对抗性环境中是否仍然有效,然后提出了一个可以同时考虑到分类器的泛化能力和鲁棒性的特征选择算法。2、在设计鲁棒性的分类器时,之前的研究工作认为所有的恶意样本都会被攻击者攻击。尽管这个假设可以提高分类器的安全性,但是牺牲了分类器在无攻击恶意样本上的泛化能力。在对抗性环境中,我们并不确定是否每一个恶意样本都会被攻击者攻击。因此,我们提出了一个对抗逃避攻击的训练分类器模型,该模型认为只有部分恶意样本会被攻击者攻击。由于不同攻击情况下,攻击的恶意样本个数不同,因此,在训练分类器时,我们需要平衡分类器的安全性和泛化能力。3、目前还没有方法来估计逃避攻击的攻击模型中的参数。因此,本文提出一种针对逃避攻击模型的参数估计方法,在这个攻击模型中,假定基于历史信息,攻击者可以获得分类器的所有信息。通过计算给定数据的数据复杂度,然后估计参数攻击比例和参数攻击力度的值。参数估计的其中一个应用就是提高(2)中提出的设计鲁棒性分类器算法的分类性能。4、在某些情况下,现有的针对逃避攻击的算法可能找不到某些恶意样本的攻击样本点。比如,在进行梯度下降时,攻击的恶意样本点可能会离正常的样本点越来越远。尽管我们可以考虑加入核密度估计这个条件来解决该问题,但是计算量也大大增加。因此,本文提出了一个新的逃避攻击的算法,该算法可以保证每个样本都可以用较小的计算复杂度得到攻击样本点。5、之前的研究工作已经讨论了线性的多分类器比单分类器的鲁棒性好,但是非线性的多分类器与单分类器的鲁棒性对比并没有讨论过。因此,本文把线性的多分类器的鲁棒性研究扩展到非线性的多分类器。