论文部分内容阅读
异常检测技术涉及机器学习、数据挖掘、统计学、信息论等相关学科,广泛应用于入侵检测、欺诈检测、医疗卫生异常检测、网络舆情异常检测、工业故障检测等技术领域。而在异常检测中,数据噪声或数据错误的存在,决定了基于数据驱动的方式进行异常检测所面临的困难:首先,数据噪声的存在会导致异常检测模型优化过程中学习噪声的特征,进而会影响模型的检测精度;其次,从含噪声样本中识别出真正的异常样本(异常暴露),同样是异常检测中的一个难点。对含噪样本进行抑制或约束,模型会选取决策边界附近的含噪样本,舍弃部分远离决策边界的含噪样本,这会导致含噪样本和异常样本之间的界限混淆,增大异常暴露的难度。因此,平衡噪声抑制和异常暴露对模型的影响有利于提升检测性能。本文首先提出了基于最大熵约束的批量二次规划(Batch Quadratic Programming,BQP)网络异常检测算法,其中BQP网络由特征抽取网络和QP输出层构成,其中特征抽取网络将批次训练样本映射至特征空间,输出批次特征向量;QP输出层构建批次训练样本的二次优化约束,即对训练样本引入支持向量数据描述(Support Vector Data Description,SVDD)的对偶问题作为约束条件,网络输出该问题的最优对偶变量解,实现噪声抑制的特征空间SVDD超球建模。通过最优对偶变量从批量特征向量中抽取不确定样本集(含噪声样本和异常样本),利用最大熵约束损失函数,增强异常暴露在网络优化过程中作用,平衡噪声抑制和异常暴露之间的影响。对于一些特定的训练数据集,如异常样本捕获相对容易,且构成一定规模的数据集,在模型训练时引入负类样本学习机制能够增强模型的表达能力。本文将BQP网络推广到半监督学习方法,提出了一种基于半监督学习的批量二次规划(Semi-Supervised Batch Quadratic Programming,SSBQP)网络。训练前,通过三元组采样方法制作含有部分标签信息的半监督训练数据;训练时,根据批次训练样本的标签信息,提出了自适应SVDD二次约束,修改了SVDD问题的约束条件,使SSBQP网络处理不同批次样本时能够更合理的匹配批次样本的标签信息。实验中,本文设计了三个控制对比实验,并设置对照组基线方法,验证了BQP网络和SSBQP网络的异常检测性能。