论文部分内容阅读
人们挖掘和找到更多的数据信息的能力越高,在各个领域中累积的数据就越多,其中不乏有平衡数据集和不平衡数据集。因此这就需要人们采取有效的方法来处理这些大数据,从中找到它们的规律,有效利用它们蕴含的信息。处理数据最重要的工作之一就是数据的分类,所谓数据的分类是指分析和研究已有的数据集,并在该数据集中找出隐含在其中的信息和规律,然后预测未知数据集的类别。经典的数据分类方法,如支持向量机、极限学习机等,对于平衡数据集的分类已得到了令人满意的结果。但是在实际应用中,使用的数据集通常是不均衡的。已有的分类方法没有关注数据的类别分布不均衡这个情况,导致分类的结果不尽人意。因此,我们需要改进现有的算法或者是设计新算法以减少数据类别分布的不均衡对分类效果的影响。针对传统的分类算法对不平衡数据集中的少数类数据分类准确率低的问题,基于极限学习机和支持向量机,本文主要从以下两个方面进行研究:(1)在数据层面,基于聚类和欠采样,提出改进的极限学习机(FCM-ELM)。提出的方法通过聚类分析,将训练集的负类数据分成不同的簇,然后按规定的采样率在各簇中进行欠采样,用选择出的数据组成新的负类数据集,进而使训练集正、负类数据的个数趋于均衡。对比分析实验结果,提出的方法有效地减少了数据的不均衡分布对分类的正确率的干扰,得到了更好的分类效果。(2)在算法层面,结合支持向量机和聚类,提出加权集成学习算法(FCM-ENWSVM)。首先提出模型——加权支持向量机WSVM,根据不同的类别样本所占比例的不同,该模型为各个类别分配不同的权重,然后将WSVM与聚类结合,设计了一种新的集成学习算法。在人造数据集和UCI数据集的分类实验中,使用新方法。实验结果充分证明,新方法能够很好地处理数据的不均衡分类,并达到预期的效果。