不平衡数据集分类方法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:adream_T
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集分类问题广泛存在于现实生活中,由于其少数类实例蕴含了重要信息且分类难度大,因此受到越来越多学者的关注。截至目前,不平衡数据集分类问题的研究主要集中在数据层面和算法层面。本文对数据层面中的合成少数类过采样算法(SMOTE)和算法层面中的代价敏感支持向量机(DEC)进行改进,具体工作总结如下:首先,本文从多个方面阐述造成分类器对少数类实例分类困难的原因与解决此类问题的方法,重点介绍SMOTE过采样算法与支持向量机(SVM)等经典分类算法的原理,并指出其在处理不平衡数据集分类问题上的局限性。其次,本文针对SMOTE算法存在的合成实例相似度高、忽略类内不平衡现象和合成少数类实例入侵多数类分类区域等缺陷,提出了整合密度聚类(DBSCAN)和改进SMOTE的过采样算法(DB-MCSMOTE)。DB-MCSMOTE算法利用DBSCAN算法对少数类实例进行聚类,过滤噪声实例,并根据本文提出的簇密度分布函数和过采样权重,对不同密度的簇生成不同数量的少数类实例,降低数据集类内和类间的不平衡度。在过采样阶段,DB-MCSMOTE算法使用本文提出的中点质心合成少数类过采样算法(MCSMOTE),在距离较远的少数类实例之间不断合成子代实例,提高了合成实例的多样性,并抑制合成的少数类实例对多数类分类区域的入侵。人工数据集和UCI实际数据集上的实验结果验证了DB-MCSMOTE算法的有效性。最后,本文针对DEC算法确定分类超平面时易受噪声实例的干扰,以及对少数类实例数据分布极其敏感的缺陷,提出了基于过采样技术和不同惩罚项的代价敏感支持向量机(DB-DPCSVM)。DB-DPCSVM算法进一步细化了DEC算法中的惩罚因子,根据本文提出的实例局部密度和相对密度比的概念,对正常实例和噪声实例分别赋予不同的惩罚因子,使模型尽量忽略噪声实例的误分类代价,从而修正了分类超平面的位置。与此同时,DB-DPCSVM算法在训练阶段之前,选择DB-MCSMOTE算法进行过采样,克服了DEC算法因少数类实例分布稀疏而造成分类超平面形状大幅波动的缺陷。UCI实际数据集上的实验结果验证了DB-DPCSVM算法的有效性。
其他文献
近年来,随着智能终端设备的普及,移动视频业务推动着移动数据流量呈现爆炸式增长,同时催生出大量计算密集型和时延敏感型应用。这些不断涌现的应用在丰富和便利人们生活的同时,也给移动网络基础设施提出了严峻的挑战。为了解决这一问题,5G移动通信网络在边缘结点引入存储和计算资源,通过内容缓存及任务卸载来降低回传链路压力,保证传输时延,满足终端计算和流量需求,从而给用户带来更加优质的移动服务。移动边缘计算也被认
随着我国电网规模的飞速发展,并且在大幅度提高消纳新能源发电能力的大环境下,电力系统的稳定性成为了一个电力系统控制的突出问题。电力系统的低频振荡是一种典型的对电力系统稳定的扰动,在抑制低频振荡一次系统和二次系统方面的众多对策中,电力系统稳定器(PSS)是最常用,也是控制效果较好的策略之一。近年来,在PSS的设计中引入了诸多的先进算法。其中,预测控制(MPC)由于其本身的在线滚动优化、反馈校正、模型预
为深入贯彻落实党的十九大提出的“食品安全战略”,让人民吃得放心,按照《上海市2018年无证无照食品经营治理工作方案》的要求,完成至2018年底上海市基本消除无证无照食品经营的目标,2018年4月6日,崇明区印发《2018年崇明无证无照食品经营治理工作方案》,通过组建违法违规经营综合治理领导小组,以市场监管局为主导,联合城管执法、公安、网格化管理中心等24个部门,采取备案纳管、疏导办证、消防安全、人
改革开放以来,我国经济实现了高速增长,国民经济的发展促使能源需求不断增加。为满足经济发展对能源的需求,国家大力支持资源型产业的发展。山西省作为典型的资源型省份,长期将发展煤炭产业作为本省的发展战略核心,在实现自身经济发展的同时也为我国经济发展贡献了不可磨灭的力量。但随着国际国内煤炭市场需求饱和、煤炭价格下跌、经济形势下滑,原本火热的煤炭市场瞬间进入寒冬期,山西经济受到严重冲击。传统煤炭资源型地区的
“三农”问题一直以来是我国工作的重点内容,而完善农村公共服务设施建设是促进城乡统筹发展、建设美丽乡村的必然要求,随着一系列利民惠农政策的实施,我国农村公共服务设施建设已取得了一定成效,但仍存在不完善之处和明显的短板问题。2020年发布的中央一号文件指出,要对标全面建成小康社会,加快补上农村基础设施和公共服务短板,这表明农村公共服务设施建设还需要进一步巩固和提高。本文通过研究讷河市农村公共服务设施建
近年来,无线传感器网络发展迅速,软件定义无线传感网络中加入了集中控制的思想,改善了无线传感网络传感节点功能简单、计算和存储能力较差的缺陷。但无线传感网络的能耗问题在软件定义架构下依旧存在。为进一步改善软件定义无线传感网络中的能耗问题,本文研究了网络编码技术,基于流间和流内的网络编码方式,提出了两种适用于SDWSN的能效算法,并设计搭建了适用的SDWSN的系统。两种算法的设计分别针对于不同的应用场景
随着物联网技术的不断发展,家居设备的智能化控制成为了当前重要的研究内容。但是由于各种智能家居设备的控制管理相对独立,以及不同厂家设备产品智能化管理的不统一,要想实现对智能家居设备的管理就需要应用多种智能终端控制。为了能够更好的推进智能家居生活,论文从实际应用出发,为智能家居生活推出了一款可以进行无线控制的管理系统,可以很好地实现生活中各种智能设备与控制软件系统的通信,为智能化生活提供有效支持。首先
本文利用反散射变换方法研究了扰动sine-Gordon方程.通过对可积sine-Gordon方程添加小的扰动项,得到散射数据的最低阶渐近形式的扰动演化方程.如果让小扰动项为零,则上述结果可约化为可积sine-Gordon方程的经典结果.通过上述计算,我们给出了扰动sine-Gordon方程的渐近解.这个渐近解可分为两部分,一部分是绝热近似解,而另一部分是与绝热近似解相关的ε-级近似解.
科学技术的发展促进了大数据时代的产生,使得数据已经日渐成为推动当今所有行业和业务职能领域发展的重要资源.如何从指数式增长的数据中挖掘出潜在的、有价值的信息已经成为社会普遍关注的问题.多示例学习是指训练集中的每个数据样本(包)包含了多个示例,且只有包具有完整的标签信息,示例的标签信息并不完整.然而在一些多示例学习的实际应用中,除了对于示例间相关性缺少有效的衡量标准之外,多示例学习中还存在着不平衡的问
目的通过随机对照的研究方法,观察刺络拔罐疗法对急性期肝经郁热型带状疱疹的临床疗效,为针灸治疗带状疱疹更好的在临床中运用提供可靠的依据。方法筛选我院康复科以及皮肤科门诊急性期肝经郁热型带状疱疹患者。通过随机数字表法分为治疗组和对照组,对照组给予盐酸伐昔洛韦片,300mg/次,一日两次,甲钴胺片,0.5mg/次,一日三次,连续口服14天。治疗组在对照组的基础上选取阿是穴及皮损局部予以刺络拔罐法治疗,隔