论文部分内容阅读
不平衡数据分类是机器学习理论研究和实际应用面临的挑战问题之一,在医疗诊断、网络入侵检测、生物特征识别、故障检测、文本分类等领域广泛存在。传统分类方法对类不平衡数据进行分类时性能降低,尤其是少数类的识别率比较低,而少数类通常是实际应用中人们更为关注且错分代价较高的一类。因此,分析不平衡分类性能降低的原因,探究不平衡分类问题的解决方法具有重要的理论意义和应用价值。不平衡集分类性能降低的根本原因在于不平衡数据固有的复杂分布特征,主要包括小区块、类间覆盖、少数类空间存在较多的稀缺样例和离群点等。传统分类方法以最小化错误率为目标建立分类器,稀缺的少数类样本以及复杂分布特征使传统方法偏向多数类,降低了少数类的泛化性能。为了提高小类样本的识别率,降低错分代价,本文针对上述三种不平衡数据复杂分布特征,分别在数据层面对不平衡集进行预处理,在算法层面优化基分类器,改进下采样集成方法,在决策层面,提出适合处理不平衡集的拒绝分类模型。主要工作包括以下四个内容:首先,从数据层面提出一种基于加权编辑近邻规则的混合采样方法,解决由于小类样本局部密度较低,编辑近邻规则下采样时压缩小类空间的问题。考虑与局部分布相关的两个因素,即局部不平衡和空间稀疏性,对大类和小类候选近邻样本采用不同的放缩距离,以增加局部小类样本密度,减小局部大类样本密度,避免盲目删掉稀疏区域的小类样本,同时在类间覆盖区域尽量保留小类样本,清洗掉大类样本,以缓解分类界面偏移。实验结果表明,提出的混合采样方法能够显著提高分类性能。其次,从算法层面提出一种基于下采样bagging的嵌入优化方法,解决以前下采样bagging方法抽样时忽略局部区域小类样本,基分类器缺乏对小类学习的敏感性的问题。提出嵌入优化方法,以对类分布不敏感的几何平均值和敏感性为优化指标,利用抽样后袋外数据(out-of-bag)中错分的小类样本强化其所在局部区域,使基分类器重视对小类局部区域的学习,缓解分类算法偏向大类造成的偏置。实验结果表明,提出的优化方法能够提高分类性能。再次,从决策层面提出一种基于ROC曲线的双约束有界拒绝分类模型,克服以往方法需要设置实际中未知的代价矩阵和优化指标对类分布敏感的缺点。提出双约束有界拒绝分类模型,分别约束正类和负类的拒绝率,优化ROC曲线下面积,该模型不依赖代价矩阵,能够区分不同类别的拒绝率和识别率,适合处理不平衡集。为求解提出的拒绝分类模型,提出了一个基于ROC曲线的线性时间复杂度算法。实验结果表明,提出的模型获得更优的性能-拒绝曲线以及更小的代价。最后,从决策层面提出一种基于双目标优化的双约束有界拒绝分类模型,解决以前拒绝分类方法依赖代价矩阵且优化目标单一、对应用场景鲁棒性差的问题。提出双目标有界拒绝分类模型,分别约束正类和负类的拒绝率,同时最小化正类和负类的错误率,该模型可以根据给定的代价矩阵、拒绝约束条件或需要的评估指标从帕累托最优解集中选择最优的拒绝分类器,适用能力强。实验结果表明,提出的模型获得更优的性能-拒绝曲线以及更小的代价。本文从不平衡数据分类性能降低的原因出发,分别从数据层面、算法层面和决策层面提出了解决不平衡分类问题的方法,提高了不平衡数据的分类性能,降低了错分代价。