基于SVM的二分类不平衡数据问题研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:laj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集,当用传统的机器学习方法进行分类时,对多数类有较高的识别率,而对少数类的识别率很低。若少数类样本足够重要,往往会带来较大的损失。因此,不平衡数据集的学习问题已经成为了目前机器学习和数据挖掘领域中的一个难点和新的研究热点。   目前国内外对此问题的研究主要集中在这两个方面:数据处理方法和算法改进方法。数据处理方法主要有:过抽样方法、欠抽样方法等;算法改进方法则包括:cost-sensitive learning、one-class learning、boosting等。   支持向量机是最新的一类机器学习算法,它遵循的是统计学习理论中的结构风险最小化原则(SRM原则)。目前,支持向量机已被成功地应用于分类、函数估计和密度估计等领域。但是在处理不平衡数据问题时,它遇到了很大挑战。   为了能提高少数类的分类性能,本文提出一种针对不平衡数据分类的方法,即基于马氏距离的双边加权支持向量机方法,该方法是在马氏距离下。先对数据集进行过抽样,增加少数类数量,使多数类和少数类近似趋于平衡。分类算法中引入样本模糊隶属度,这样考虑了不同类的重要性和不同样本隶属度的差别,既调整多数类和少数类的权重,又给每个样本赋予不同的隶属度,从而既提高了不平衡数据对少数类分类和预测的性能,进而也提高了整体的分类性能。   数据试验结果表明,该算法能在提高整体分类性能的同时提高少数类的分类性能。
其他文献
学位
学位