基于过抽样技术的不平衡数据分类研究

来源 :闽南师范大学 | 被引量 : 2次 | 上传用户:yy349764474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,分类技术根据数据集中的数据训练出一个分类函数或构建出一个分类模型,对未知实例的类标号进行预测。在不平衡数据分类研究中,由于不平衡数据集中小类样本数量少,小类样本难以被正确分类,因此,提高小类样本的分类准确率至关重要。目前,针对不平衡数据分类的技术有两种,一种是数据层面的方法,另一种是算法层面的方法。前者主要在分类之前对原始训练集进行预处理,包括过抽样技术和欠抽样技术。后者主要提出针对不平衡数据特点的新的算法或改进现有的算法以适应数据的不平衡。为了提高不平衡数据中小类样本的分类准确率,本文主要在数据层面的过抽样技术上做了以下三个研究。第一,将聚类技术与过抽样技术相结合,提出一种基于聚类的过抽样算法ClusteredSMOTE_Boost。该算法利用聚类技术,首先将数据集的小类样本分为边界样本和非边界样本,其次将所有小类样本分为若干个簇。针对小类边界样本合成新样本时,使新样本更靠近小类样本内部。针对小类非边界样本合成新样本时,使新样本更靠近非边界样本所在簇的中心。实验结果表明该算法能够有效地提高小类样本的分类准确率。第二,为了使原始训练集的决策边界不复杂,提出一种基于小类内部样本的过抽样算法GR-InsideOS。该算法仅让小类内部样本参与合成,使得新样本位于小类样本内部,不使分类边界复杂化。在此基础上提出基于聚类的小类内部过抽样算法CGR-InsideOS,利用聚类技术使新样本靠近小类内部样本所在簇的中心,更加保证了原始训练集的决策边界不复杂。实验结果表明这两个算法均有效地提高了小类样本的分类性能。第三,将基于内部样本的过抽样算法与多次学习技术相结合,提出两种基于小类内部样本过抽样的多次学习算法IRML和IKCML。两个算法均是从原始训练集中选取一些样本组成K个子训练集,然后分别对子训练集采用GR-InsideOS算法合成新样本,生成K个新的子训练集,建立K个分类器。IRML是采用随机的方式在原始训练集中选取样本,而IKCML算法是采用K折交叉方法有放回的选取样本。后者保证了每个样本被学习相同次数。实验结果表明GR-InsideOS算法与多次学习算法的结合极有必要。
其他文献
内关、内庭是王居易教授在临床实践中总结出来的对调和气机具有重要作用的一组对穴,功能调气和中,主要用于治疗感受暑邪出现的吐泻交作,饮食不能入口,入则即出,甚则四肢厥冷
中医学认为,肾开窍二阴,司二便,凡先天禀赋不足,后天失养,手术外伤,年老体弱,大病久病之后所出现的反复尿浊,溺血,尿频,尿急,尿多或尿少等,均可造成肾阴亏耗,肾阳衰弱.我们临
洗钱已成为国际重点打击的违法犯罪行为,不仅危害国家金融秩序、国家安全稳定,更扰乱国际金融秩序,极具危害性。世界各国都积极参与到反洗钱行动中,并建立完善本国配套制度。随着互联网技术的广泛应用,互联网与金融业务的融合衍生出多种互联网金融类业务,洗钱犯罪分子把目光转向互联网,借助互联网金融特点,把洗钱活动由传统洗钱方式向现代化互联网支付方式及平台转移,为洗钱分子提供很多新型洗钱手段。但互联网本身的特点导
在改革开放深入发展背景下,教师教育体系从计划逐渐走向开放,教师教育引入市场机制已成为必然趋势。教师教育市场化的发展,引发教师教育专业课程的修改、设置,培养机构的变迁、重
随着人们的健康意识逐渐加强,对中药材的需求也越来越大,导致中草药的种植范围越来越广。由于中草药种植中实施大量肥料和水量,杂草因环境因素导致快速滋生。传统的药剂除草
针对多光谱多光路光电系统光轴平行度调试方法及测试设备的需求,本文提出了一种多光谱多光路光轴平行度调试方法并设计相应的调试及测试设备。调试方法可以精准的调试多光谱
2013年5月长三角地区主要港口吞吐量
期刊