论文部分内容阅读
随着信息技术和计算机技术的高速发展,如何从海量数据中挖掘有价值的信息是一项具有现实意义的工作,并得到了研究者的持续关注。其中不平衡数据的处理,尤其是少数类的识别问题仍是一项具有挑战性的工作。传统的Relief算法是一种基于二分类的特征选择算法,本文研究Relief算法在不平衡数据中的应用扩展问题,研究成果主要包含以下两个方面:(1)针对高维不平衡数据分类问题,提出一种感知类不平衡的imRelief算法。为了纠正传统Relief算法在计算特征权重时对多数类的“偏向”,以及考虑到少数类样本分散分布的特性,imRelief引入了距离因子计算公式以及更改了传统Relief算法中挑选样本对特征权重进行更新的方式,对少数类具有区分能力的特征赋予更高的权重,并结合分类器提高少数类的分类精度。最后,在四个高维不平衡的微阵列基因表达数据上的实验结果表明,imRelief优于其它几种对比算法;(2)针对imRelief算法中存在对多数类分类精度造成损失的问题以及进一步提高少数类分类精度的需求,提出一种依赖类的动态cdRelief算法。该算法在计算特征权重时不预先删除任何样本,以保证多数类样本信息不被丢失。算法首先为训练集中用于更新特征权重的每一个样本动态估计概率P,根据概率P动态挑选样本对特征权重进行更新。结合“一对一”以及“一对多”策略将针对二分类问题的依赖类特征权重扩展到多分类问题。cdRelief对多数类与少数类区分能力强的特征赋予更高的权重。基于11个多类不平衡的公开UCI数据集的实验结果表明,cdRelief优于其他几种对比算法。