基于近邻样本分布的不平衡数据分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:akiheeca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是机器学习和数据挖掘领域中重要的研究内容.经典分类方法包括决策树分类法、k近邻分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯等.这些分类算法在数据集的各类别实例数相对均衡的环境下性能良好,但在类别实例数不均衡时性能会降低.在实际应用,这种类实例数不均衡的数据集大量存在,并被称为不平衡数据集.在不平衡数据集中,多数类在分类过程中具有压倒性的优势,使分类器的决策被这些类支配,从而影响分类器对少数类实例的分类效果.为提高传统算法对少数类实例的敏感性,本文从近邻样本分布的角度,对不平衡数据分类问题展开深入研究.主要工作如下:不平衡数据的分布情况十分复杂,导致传统k近邻方法不能准确捕捉查询实例的少数类近邻的分布情况,从而降低其分类性能.针对这个问题,本文提出具有双邻域的近邻分类算法(NNDN).该算法通过双邻域机制判断查询邻域中少数类实例的稀疏性,并且利用倾向权重机制为易误判的少数类实例加权,由此提高算法对少数类实例的敏感性,最后根据加权投票规则完成分类.在40个真实数据集上进行NNDN算法与其他相关算法的对比实验,以验证该算法的有效性和适用性.实验表明,NNDN算法适用于不平衡数据分类,且在AUC,Recall,Accuracy等指标上优于其比较算法.在处理不平衡数据分类问题时,传统k近邻对少数类实例敏感度低,同时无法区分与查询实例距离相等的两个实例,导致其分类性能不佳.为提高k近邻的适用性,本文提出一种基于密度的近邻分类算法(DNN).该算法首先用核密度估计方法估计查询实例的各类别密度,以此对查询实例进行密度定位;其次将原始数据空间中的点映射到由类别密度和距离信息构成的空间;随后在映射后的空间中动态地选择近邻,即找到与查询实例所处密度环境相似且距离相近的实例,最后进行分类.综上,DNN算法成功地区分了与查询实例距离相等的实例,敏锐地捕捉了不平衡数据的局部分布特征,提高了传统k近邻的分类性能.在真实数据库中的15个不平衡数据集上进行实验.结果表明,DNN算法对不平衡数据的分类性能良好.
其他文献
监狱人民警察在以自然人身份参与社会活动时,自然而然享有任何其他公民都具有的基本权利,也就是公民的基本人权,简而言之,监狱人民警察依法享有自身权利。同时,值得注意的是,
本文是汪恒导师主持的城市超高层综合体设计与研究课题内容的一部分。本文作为超高层建筑细部研究的篇章,对超高层外部功能性细部进行具体的研究。纵观超高层建筑发展的历史,在近年来超高层建筑迅速发展的时期,超高层建筑的功能性细部作为建筑实际使用功能的承载者,也在建筑整体中发挥出越来越重要的作用。本文从超高层建筑发展史入手,结合当代建筑师的思维,分析了超高层建筑外部功能性细部的现状及发展趋势。纵观历史的纬度,
近年来鄯善县设施油桃种植面积不断扩大,油桃的栽培和管理技术越显重要。经过几年温室试验工作,总结出针对本地区独特自然条件的一套有效的设施油桃栽培管理技术。
分析"多模态"理论的内涵及其教学意义,认为将"多模态"理论应用于高中英语写前教学能有效引起学生多种感官的互动协同,帮助其输入语言素材、内化写作知识、迁移写作技能。结合
肩关节周围炎(以下简称肩周炎)又叫肩凝症、漏风肩或五十肩,患者肩臂疼痛难忍,日轻夜重,严重者彻夜难眠,痛苦不堪,且治愈后易复发。1998-2004年,我们以利多卡因、雪莲注射液进行臂丛
微生物对水性涂料产品的稳定性起着重要作用,本实验以广东省某涂料厂的水性涂料为研究对象,利用16S rRNA基因高通量测序技术检测其微生物群落结构及多样性。结果表明5个水性
背景高血压已成为全球性的健康问题。在中国,有三分之一的心血管死亡归因于高血压。既往研究表明,高血压患者中普遍存在心率增快的现象,而心率增快很有可能对预后产生不良影
在小学低年级的语文教学中,识字写字占据着重要位置。小学低年级作为幼小衔接的关键期,渐渐由口头表达转向书面表达,写字是实现这一过渡的重要桥梁。由于教师对小学低年级阶
近几年来,推荐系统发展迅速,作为一种常用的协同过滤推荐算法,矩阵分解模型得到了广泛的应用,本文重点研究如何有效使用矩阵分解作为基本模型进行评分预测。我们将集成学习与
履带车机电复合传动技术作为履带车新兴技术研究中的重要一部分,它虽然在传递方式上实现了较传统机械传动更为灵活高效的机电复合传动,但也对于履带车车载电气控制系统性能提