论文部分内容阅读
在数据挖掘领域中,分类技术根据数据集中的数据训练出一个分类函数或构建出一个分类模型,对未知实例的类标号进行预测。在不平衡数据分类研究中,由于不平衡数据集中小类样本数量少,小类样本难以被正确分类,因此,提高小类样本的分类准确率至关重要。目前,针对不平衡数据分类的技术有两种,一种是数据层面的方法,另一种是算法层面的方法。前者主要在分类之前对原始训练集进行预处理,包括过抽样技术和欠抽样技术。后者主要提出针对不平衡数据特点的新的算法或改进现有的算法以适应数据的不平衡。为了提高不平衡数据中小类样本的分类准确率,本文主要在数据层面的过抽样技术上做了以下三个研究。第一,将聚类技术与过抽样技术相结合,提出一种基于聚类的过抽样算法ClusteredSMOTE_Boost。该算法利用聚类技术,首先将数据集的小类样本分为边界样本和非边界样本,其次将所有小类样本分为若干个簇。针对小类边界样本合成新样本时,使新样本更靠近小类样本内部。针对小类非边界样本合成新样本时,使新样本更靠近非边界样本所在簇的中心。实验结果表明该算法能够有效地提高小类样本的分类准确率。第二,为了使原始训练集的决策边界不复杂,提出一种基于小类内部样本的过抽样算法GR-InsideOS。该算法仅让小类内部样本参与合成,使得新样本位于小类样本内部,不使分类边界复杂化。在此基础上提出基于聚类的小类内部过抽样算法CGR-InsideOS,利用聚类技术使新样本靠近小类内部样本所在簇的中心,更加保证了原始训练集的决策边界不复杂。实验结果表明这两个算法均有效地提高了小类样本的分类性能。第三,将基于内部样本的过抽样算法与多次学习技术相结合,提出两种基于小类内部样本过抽样的多次学习算法IRML和IKCML。两个算法均是从原始训练集中选取一些样本组成K个子训练集,然后分别对子训练集采用GR-InsideOS算法合成新样本,生成K个新的子训练集,建立K个分类器。IRML是采用随机的方式在原始训练集中选取样本,而IKCML算法是采用K折交叉方法有放回的选取样本。后者保证了每个样本被学习相同次数。实验结果表明GR-InsideOS算法与多次学习算法的结合极有必要。