论文部分内容阅读
目前,在机器学习和数据挖掘领域中,数据的分类问题是一项比较核心的研究工作。传统的分类算法都是基于类别分布平衡的情况下进行数据分类研究。但是,在很多实际应用中,如信用卡欺诈检测、卫星图像的漏油检测和网络入侵检测等,数据的类别分布往往是处于不平衡的状态,即某一类别的样例数相比于另一类别的样例数明显要少的多,其中样例数相对多的类别称为多数类,样例数相对少的类别称为少数类,且对于这类数据,少数类大多数情况下要比多数类更重要,例如在信用卡欺诈检测中,将有信用卡欺诈行为检测为无欺诈行为的代价远远大于将无信用卡欺诈行为检测为有的代价。因此,针对这类不平衡数据集的分类问题,提高少数类样例的分类性能具有更重要的现实价值。针对不平衡数据的分类问题,分类算法的研究主要分为以下两个方面,其中一种常用的方法是利用采样技术(比如随机过采样法、随机欠采样法及SMOTE过采样法等)来处理数据类别分布不平衡的问题,即通过对数据集类别样例分布进行采样处理使得数据的类别分布处于平衡化,然后在平衡后的数据集上进行分类研究。另外一种常见的方法是保留原始数据集的类别分布(直接在原始训练集上训练),通过利用某种方法对分类算法改进,然后直接用改进算法对不平衡数据集进行分类,比如代价敏感、决策阈值、概率估计和集成学习等技术。其中,比较热门的方向之一就是以集成学习算法为基础,展开对不平衡数据集分类问题的研究工作,并取得了不错的效果。在不平衡数据集的分类问题中,由于集成学习算法表现出较优的分类性能,因此已被广泛应用于解决此问题的研究。集成学习算法主要是通过对基分类器的改进和利用一些方法增大基分类器间的差异性来提高分类器的分类性能,具有较强的泛化能力。基于以上进行的分析,本文主要进行了以下几个方面的工作:首先,从数据层面着手,本文结合SMOTE过采样法和重复欠采样法两种采样法处理不平衡数据集的优势,提出了一种基于组合采样法的旋转森林集成分类方法。该算法首先使用SMOTE过采样法对原始训练集进行采样处理,然后在SMOTE采样后得到的新训练数据集上利用重复欠采样法抽取多个平衡化的训练子集,最后利用旋转森林集成算法在这多个训练子集上进行学习。其次,从算法层面着手,以Bagging集成算法为基础,引入阈值移动法,提出了一种基于概率阈值Bagging集成算法的不平衡数据分类方法,该算法根据最大化性能评价指标为每个类别确定一个决策阈值,使得算法能够适应不平衡数据集。本文最后的工作将改进的基于概率阈值Bagging集成算法成功的应用于甘肃部分地区沙尘暴不平衡数据集的分类上,通过实验验证针对不平衡数据分类问题,基于概率阈值Bagging集成算法具有很好的分类性能。