论文部分内容阅读
不平衡学习是机器学习的重要研究内容之一。不平衡数据在类别分布上呈倾斜分布,通常情况下少数类具有更高的价值,但在多数类的影响下,传统的机器学习算法对少数类的识别率较低,不能有效地处理不平衡数据。过采样方法是一种有效地解决不平衡学习问题的方法,其思想是对少数类样本进行采样,使少数类的样本数量与多数类的样本数量达到平衡。虽然研究者在过采样方法上取得了很多成果并被广泛应用,但是在处理多类不平衡数据时,现有的多数过采样方法会造成过泛化的问题。本文针对过采样方法在处理多类不平衡学习时存在的过泛化问题,从采样方向选择、合成样本点评估和采样数量计算三个方面提出了两种改进的方法,提升过采样方法的性能,且开发了一个简单的演示系统,用来展示过采样方法。本文的主要研究成果和创新点如下:1.提出了一种基于海林格距离和SMOTE的过采样方法(HDSMOTE)。在处理多类不平衡数据时,HDSMOTE通过海林格距离引导合成样本点和评估样本点的质量,降低过泛化风险。建立基于海林格距离的采样方向选择策略,通过比较少数类样本点局部近邻域内的海林格距离的大小,引导合成样本点的方向。设计了基于海林格距离的采样质量评估策略,避免合成的样本点侵入其他类别的区域,降低过泛化的风险。采用提出的过采样算法与7种代表性过采样算法对15个数据集进行预处理,通过基于C4.5的分类器进行分类。实验表明,与7种代表性的过采样算法相比,HDSMOTE算法在分类器RIPPER上有更好的分类效果。2.提出一种高质量的面向多类不平衡学习的过采样框架(HQOF)。HQOF通过分析少数类和其周围样本分布,自适应的计算采样数量,一定程度上减少过拟合的风险;HQOF结合海林格距离决策树为少数类训练监督模型,评估合成样本的质量,减少过泛化的风险。HQOF由三部分组成:首先,建立基于马氏距离的自适应采样策略,通过分析少数类和其周围的样本分布,确定采样数量,一定程度上减少采样数量,减少过拟合风险。其次,采用传统的过采样方法进行采样。最后,建立基于海林格距离决策树的监督机制,评估新合成的样本点,降低过泛化的风险。将7种代表性的过采样算法嵌入到HQOF中,并与原始的7种过采样算法对19个多类不平衡数据集进行采样,采用基于C4.5和朴素贝叶斯的分类器对采样后的结果进行分类,结果表明HQOF能够在减少采样数量的同时保证采样的有效性。3.开发了一个简单的演示系统,该系统包含过采样和分类两个模块,过采样模块封装了8种过采样算法,分类模块封装了6种分类器。该系统整体上实现了过采样和数据分类的功能,最终运行结果以图形的方式向用户展示。