基于Weka的集成混合采样不平衡分类方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:lmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据不断涌现,我们迎来大数据时代。在这种时代背景下,数据资源对我们来说尤为重要。世界上很多发达国家将大数据技术作为提升国家竞争力、维护国家安全的重大战略。可以说谁掌握了数据,谁就掌握了主动权。数据如此重要,在数据海洋中挖掘出有价值的数据更为重要。然而实际生活中存在大量不平衡数据,在它们当中少类样本远远少于多类样本,而将少类样本正确分类的意义远远高于多数类样本。解决不平衡数据分类问题已成为很多领域研究热点。在常用的分类算法中,支持向量机有很多优势让其成为分类效果最好的分类器之一,最突出的是其优秀的泛化能力。然而,面对不平衡数据时,支持向量机可能受到负面影响。怎样处理这种负面影响,并在不影响整体的分类准确率的同时,使少数类样本的分类精度有所提高是解决问题的关键。本文从算法和数据两个层面出发提出ADASYN-NCL混合采样算法与改进的AdaBoostSVM相结合的方法,并将其应用到肝炎医疗不平衡数据分类问题中。论文主要研究工作包括:(1)针对不平衡数据对支持向量机带来的负面影响,简单的过采样或降采样与支持向量机结合并不能从本质上解决。本文提出了自适应综合过采样与领域清理规则降采样结合的混合采样方法(ADASYN-NCL),该方法能较好解决数据不平衡问题,对支持向量机的分类性能也有一定提高。(2)针对AdaBoost算法存在的退化现象,本文提出了改进的AdaBoostSVM算法,此算法能提高基分类器之间的差异度,以解决退化现象问题。并与ADASYN-NCL采样方法结合,进一步提高分类器分类精度和泛化能力。(3)论文实验在WEKA平台上进行,将ADASYN算法、AS-AdaBoostSVM算法、ADASYN-NCL算法以及集成混合采样算法在12个KEEL不平衡数据集上进行分类性能比较。分析发现,论文提出的ADASYN-NCL混合采样方法比单纯的ADASYN过采样方法的分类准确率高,提出的集成混合采样方法分类准确率会更高,分类器泛化能力会更好。(4)针对肝炎医疗诊断分类过程中存在样本分布不平衡的问题,首先,在WEKA中进行数据预处理;其次,对处理后的数据集进行ADASYN-NCL混合采样,改进其不平衡度;最后,使用改进的AdaBoostSVM分类器对数据集进行分类。对实验结果分析,使用本文算法所得到的F-value、G-mean和AUC值比其他算法高,说明新提出的算法有效解决不平衡数据给支持向量机带来的负面影响,且分类器对少数类样本的分类精度提高。
其他文献
领导管理模式一直都是管理学领域所研究的热门课题。最近的研究表明,破坏性领导行为对员工和企业的危害不容忽视。破坏性领导行为主要包括辱虐管理、欺凌管理和毒性管理,其中对辱虐管理的研究是最多的。根据对文献的梳理发现,辱虐管理作为工作压力的主要来源,给组织带来的隐性影响是巨大的,比如它会增加员工的消极情绪,削弱员工的工作积极性,从而会使组织承诺感降低。在此基础上,本研究加入了社会认知作为中介变量、心理控制
考虑到当前互联网用户数量的快速增长,各种新的网络应用程序层出不穷以及网络环境愈加复杂的现状,识别网络应用程序是如今网络流量识别技术里更细粒度、更深层次的分析与识别方法。网络应用程序分类作为网络管理的基础和前提,在网络监控、网络安全、日常运维、流量计费、提升用户体验等方面具有重要的不可替代的作用。近年来通过提取网络流量特征,利用机器学习和深度学习方法来识别网络应用程序是目前主流方法。但提取出的网络流
蜘蛛牵引丝优越的力学性能和良好的生相容性、可降解性,使其获得了众多领域科学家的关注。但由于蜘蛛天生的攻击性和地域保护性,通过人工饲养的方式大量获得蜘蛛丝是很难实现
图像处理在人们生活中发挥着重要作用,图像分割作为图像处理的基础步骤,一直是研究者的关注热点。图像分割在很多医学问题的研究和临床应用中往往起到关键的作用,本文侧重研究医学图像分割。图像分割的常用策略是,对于不同类型的图像和感兴趣目标采用不同的分割方法。而如何建立普遍适用于所有图像的分割方法一直是在不同的实际应用中都尚待解决的问题。为了得到令人满意的分割结果,许多优秀的分割算法被提出,其中,水平集算法
近些年来,全球碳排放量猛增,各国面临的生态压力加大,推进节能减排工作、发展绿色经济已成为全球共识。随着工业化、城镇化进程加快和消费结构持续升级,我国资源环境问题依然是制约我国经济社会发展的瓶颈之一,节能减排形势依然严峻。2017年1月,国家《“十三五”节能减排工作方案》更是明确提出要“到2020年,全国万元国内生产总值能耗比2015年下降15%,能源消费总量控制在50亿吨标准煤以内。全国化学需氧量
随着世界经济全球化的到来,我国对外贸易迅速发展,进出口贸易额不断攀升,已然成为我国国民经济中重要组成部分、国民经济强大的推动动力。然而,对外贸易的环境并非风平浪静的。在全球经济不断变化的格局下,市场竞争多元化、支付方式多样化、产品贸易复杂化等多种因素导致对外贸易中的风险随处可见,风险发生的概率也在不断增加,带来的影响也日益加剧。传统的风险预警系统和风险防范机制已经无法顺应当下对外贸易发展中的复杂性
随着经济的发展和社会的进步,水污染问题日益严重,对人们的生活和健康造成了巨大的威胁。光催化技术作为目前具有应用前景的污水处理方法之一,可以将大多数难降解的有机物降解为CO_2、H2O和一些无毒无害的小分子物质。石墨相氮化碳(g-C_3N_4)由于具有化学性质稳定、制备方法简单、带隙窄等优点,因此受到了越来越多的关注。然而,g-C_3N_4的比表面积小、光生电子-空穴复合率高、回收难度大等限制了其在
近年来,随着电子技术的不断发展,军用航空电子设备也在不断发展,对于体积与可靠性的要求也越来越高。本文研制的流量标准器模块正是基于用户对体积有了更高的指标要求进行的改进。该模块是我国某重点机型燃油控制系统中的关键部件,主要实现信号转换的功能,由于机载复杂恶劣的环境对性能、可靠性、体积等要求较高,过去为进口器件,但由于整个燃油控制系统需要升级对于该模块的封装体积要求更小,因此本文在参考原有进口器件的基
氢气是一种理想的清洁能源,其具有燃烧效率高、产物无污染、自然界广泛存在并且可循环等优点。但氢气化学性质活泼,极易引发爆炸,氢气摩尔质量最小而易于发生泄漏。这些缺点限制了氢气的广泛使用。人们急需一种有效的氢气监控设备,从而降低氢气使用的安全风险。目前已经存在基于热学、电学、机械学、声学和光学等原理为基础的氢气传感器。相较于其它种类,基于光学的氢气传感器不会受到电磁波的干扰,并且具有灵敏度高、集成性强
随着中国特色社会主义进入新时代,国家对公务员队伍建设提出了许多新要求,习近平总书记在党的十九大报告中提出“要建设高素质专业化干部队伍”,为新时代干部队伍建设指明了方向。当前,我国的贸易便利化和自由化程度地不断加深,海关执法的规范性、统一性以及专业性要求也随之不断提升。2018年3月,《深化党和国家机构改革方案》决定,将出入境检验检疫管理职责和队伍划入海关,新海关在原有的监管、征税、缉私、统计四大职