基于不平衡数据集分类的Relief算法研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yourzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和计算机技术的高速发展,如何从海量数据中挖掘有价值的信息是一项具有现实意义的工作,并得到了研究者的持续关注。其中不平衡数据的处理,尤其是少数类的识别问题仍是一项具有挑战性的工作。传统的Relief算法是一种基于二分类的特征选择算法,本文研究Relief算法在不平衡数据中的应用扩展问题,研究成果主要包含以下两个方面:(1)针对高维不平衡数据分类问题,提出一种感知类不平衡的imRelief算法。为了纠正传统Relief算法在计算特征权重时对多数类的“偏向”,以及考虑到少数类样本分散分布的特性,imRelief引入了距离因子计算公式以及更改了传统Relief算法中挑选样本对特征权重进行更新的方式,对少数类具有区分能力的特征赋予更高的权重,并结合分类器提高少数类的分类精度。最后,在四个高维不平衡的微阵列基因表达数据上的实验结果表明,imRelief优于其它几种对比算法;(2)针对imRelief算法中存在对多数类分类精度造成损失的问题以及进一步提高少数类分类精度的需求,提出一种依赖类的动态cdRelief算法。该算法在计算特征权重时不预先删除任何样本,以保证多数类样本信息不被丢失。算法首先为训练集中用于更新特征权重的每一个样本动态估计概率P,根据概率P动态挑选样本对特征权重进行更新。结合“一对一”以及“一对多”策略将针对二分类问题的依赖类特征权重扩展到多分类问题。cdRelief对多数类与少数类区分能力强的特征赋予更高的权重。基于11个多类不平衡的公开UCI数据集的实验结果表明,cdRelief优于其他几种对比算法。
其他文献
当前,商业银行数据上收工作已取得阶段性的成果.数据上收后,各行科技部门职能发生了明显改变.一些基层科技部门对此认识不足,工作按部就班,有的甚至无所适从.本文拟对数据上
目的:探讨碱蚀浓度和电流电压值对钴铬合金蚀刻的影响,并从中优选出具有最大粘结强度的前处理组.方法:经三组不同的碱蚀浓度和电流电压值蚀刻后的钴铬合金,以10mm/min的速度
多形性腺瘤(Plemorphic adenoma) 又称混合瘤m ixed tumor,是最常见的涎腺肿瘤,我们对38例多形性腺瘤进行病理形态学观察,对其进行分类研究,提高肿瘤的诊断正确率。结果报告
患者,男,13岁.因上前乳牙脱落6年恒牙未萌而就诊.查右上中切牙缺失,其余乳恒牙全部替换完成,磨牙中性(牙合)、前牙深覆(牙合)深覆盖,上唇系带附着于牙槽嵴中份,右上中切牙唇
目的:观察复方抗生素在诱导年轻恒牙根尖形成中的临床疗效.方法:用复方抗生素和氢氧化钙为诱导剂对85例92个根尖尚未发育完全的年轻恒牙进行根尖诱导观察其疗效.结果:复方抗
目的通过对泌尿系结石成分分析,探讨在其在泌尿系结石防治中的临床价值。方法对232例泌尿系结标本进行化学定性分析,测定结石化学成分,并结合临床资料分析。结果结石中钙盐检
目的 探讨碧兰麻在儿童牙科治疗中的作用。方法 对200你拔牙患者,100例牙髓治疗患者采用碧兰麻局麻,使用Visal ANalogue Scale法评价^[1]。结果 使用碧兰麻局麻下拔牙,患者评价