论文部分内容阅读
近年来,大数据分析技术发展迅速,数据挖掘对产业界和学术界产生了积极的推动作用。分类问题是数据挖掘中的重要问题,支持向量机是一种分类效果出色的分类算法,然而支持向量机对不平衡数据分类的准确性不高;另一方面,数据规模的爆炸式增长导致传统分类算法训练时间漫长,促使研究人员研究分布式的分类算法。本文研究支持向量机对大规模不平衡数据的分类问题,并围绕提升不平衡数据的分类准确性和和缩短分类算法对大规模不平衡数据的训练时间两个方面展开研究。本文的工作和贡献具体如下: 针对分类算法对不平衡数据分类准确性差的问题,本文提出了基于Boosting的组合支持向量机,该算法通过本文提出的一种基于聚类的分层降采样算法用于数据预处理促使数据平衡,该算法结合提升学习思想,通过本文提出的提升学习规则,进一步提高支持向量机对不平衡数据分类的准确性。分析表明,基于K-means的分层降采样算法能促使数据变平衡并且采样的数据能代表原始数据的分布;实验结果表明,基于Boosting的组合支持向量机可以在不平衡数据上较大地提升分类准确性。 针对不平衡数据规模增大导致不平衡数据分类算法训练时间长的问题,本文提出了基于分组训练模型的分布式BaggingSVM算法,该算法集成了一种改进的层叠支持向量机算法对数据进行预处理,以数据分割为思想实现对分类算法的分布式训练。实验结果表明,分布式BaggingSVM以牺牲微弱的分类准确性为代价,显著地缩短训练时间。