论文部分内容阅读
非平衡数据集分类是机器学习和数据挖掘领域的一个重要研究方向。所谓非平衡数据集,在二分类问题中,即是在数据集中一类样本数量远远大于另一类的样本数量,我们把样本数量少的类称为正类,把样本数量多的类称为负类。由于类别数量上的不均衡性,导致传统的分类算法对负类样本预测准确率很高,可是在正类样本上识别率则相对较差,但是在实际应用中,往往正类有着十分重要的意义。针对上述问题,非平衡数据集的分类问题需要寻求新的方法加以解决。目前,非平衡数据集分类问题的解决方法主要分为两种:一种是算法层面的算法改进,其中包括代价敏感学习、集成学习、单类学习和特征选择学习等;一种是数据层面的数据集重构。SMOTE算法则是数据集重构中的经典过采样算法。但是SMOTE算法存在盲目采样问题,以噪声点为基础采样可能导致引入新的噪声,并且也存在不合理采样使得样本空间重叠反而导致决策域变小的问题。鉴于此,本文提出一种基于混合采样策略的非平衡数据集学习算法SVM-IMSA,并对以下关键问题进行了研究和改进:①针对SMOTE算法采样中样本噪声的干扰问题,提出一种基于错分的混合采样算法,根据空间近邻关系,把识别为噪声点的样本直接删除。②针对SMOTE算法中存在的盲目采样和不合理的采样会使得样本空间重叠问题,是在以错分驱动为基础,根据空间近邻关系把错分样本分为安全点、噪声点和危险点,自适应的对安全点和危险点采取相应的过采样和欠采样方法,以解决支持向量机在非平衡数据集上的决策面偏移问题。③针对SMOTE算法随机的线性插值会造成稀疏区域仍然稀疏,密集区域仍然密集,无法有效的对更具意义的样本区域有针对性的采样问题,是在错分基础上进行迭代,逐步将采样区域集中到“难以判决”的样本周围,对识别为安全的样本加大采样倍率,以使得分类器更加关注这些难以分类的样本。④改进了传统的随机欠采样策略,提出一种边界区域切割算法,通过分析危险点周围负类样本的密度和密度可达性,对负类样本有针对性的进行欠采样处理,避免了传统算法对某些重要负类样本的误清理。