针对不平衡数据复杂分布特征的分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 1次 | 上传用户:haozhiyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是机器学习理论研究和实际应用面临的挑战问题之一,在医疗诊断、网络入侵检测、生物特征识别、故障检测、文本分类等领域广泛存在。传统分类方法对类不平衡数据进行分类时性能降低,尤其是少数类的识别率比较低,而少数类通常是实际应用中人们更为关注且错分代价较高的一类。因此,分析不平衡分类性能降低的原因,探究不平衡分类问题的解决方法具有重要的理论意义和应用价值。不平衡集分类性能降低的根本原因在于不平衡数据固有的复杂分布特征,主要包括小区块、类间覆盖、少数类空间存在较多的稀缺样例和离群点等。传统分类方法以最小化错误率为目标建立分类器,稀缺的少数类样本以及复杂分布特征使传统方法偏向多数类,降低了少数类的泛化性能。为了提高小类样本的识别率,降低错分代价,本文针对上述三种不平衡数据复杂分布特征,分别在数据层面对不平衡集进行预处理,在算法层面优化基分类器,改进下采样集成方法,在决策层面,提出适合处理不平衡集的拒绝分类模型。主要工作包括以下四个内容:首先,从数据层面提出一种基于加权编辑近邻规则的混合采样方法,解决由于小类样本局部密度较低,编辑近邻规则下采样时压缩小类空间的问题。考虑与局部分布相关的两个因素,即局部不平衡和空间稀疏性,对大类和小类候选近邻样本采用不同的放缩距离,以增加局部小类样本密度,减小局部大类样本密度,避免盲目删掉稀疏区域的小类样本,同时在类间覆盖区域尽量保留小类样本,清洗掉大类样本,以缓解分类界面偏移。实验结果表明,提出的混合采样方法能够显著提高分类性能。其次,从算法层面提出一种基于下采样bagging的嵌入优化方法,解决以前下采样bagging方法抽样时忽略局部区域小类样本,基分类器缺乏对小类学习的敏感性的问题。提出嵌入优化方法,以对类分布不敏感的几何平均值和敏感性为优化指标,利用抽样后袋外数据(out-of-bag)中错分的小类样本强化其所在局部区域,使基分类器重视对小类局部区域的学习,缓解分类算法偏向大类造成的偏置。实验结果表明,提出的优化方法能够提高分类性能。再次,从决策层面提出一种基于ROC曲线的双约束有界拒绝分类模型,克服以往方法需要设置实际中未知的代价矩阵和优化指标对类分布敏感的缺点。提出双约束有界拒绝分类模型,分别约束正类和负类的拒绝率,优化ROC曲线下面积,该模型不依赖代价矩阵,能够区分不同类别的拒绝率和识别率,适合处理不平衡集。为求解提出的拒绝分类模型,提出了一个基于ROC曲线的线性时间复杂度算法。实验结果表明,提出的模型获得更优的性能-拒绝曲线以及更小的代价。最后,从决策层面提出一种基于双目标优化的双约束有界拒绝分类模型,解决以前拒绝分类方法依赖代价矩阵且优化目标单一、对应用场景鲁棒性差的问题。提出双目标有界拒绝分类模型,分别约束正类和负类的拒绝率,同时最小化正类和负类的错误率,该模型可以根据给定的代价矩阵、拒绝约束条件或需要的评估指标从帕累托最优解集中选择最优的拒绝分类器,适用能力强。实验结果表明,提出的模型获得更优的性能-拒绝曲线以及更小的代价。本文从不平衡数据分类性能降低的原因出发,分别从数据层面、算法层面和决策层面提出了解决不平衡分类问题的方法,提高了不平衡数据的分类性能,降低了错分代价。
其他文献
超高性能混凝土(Ultra-High Performance Concrete,以下简称UHPC)是一种力学性能优越、耐久性能良好的新型建筑材料。超高性能混凝土与HRB500级高强钢筋协同工作,能使两者的
李大钊作为20世纪初中国先进知识分子的楷模和马克思主义的先驱,不仅在中国思想界具有重要的地位和影响,而且以唯物主义观点科学缜密地评忻了中国传统文化、近代西方文化及其相
在现代音乐发展历程中,古典与流行音乐间出现了多层面、多形式的对话,其中包括美声歌唱家与流行歌手同台演出、同唱一首歌,甚至合作录制一首歌曲;美声歌唱家通过“翻唱”流行
鱼类生态生理学是渔业生产的重要理论基础,它是研究外在环境因素对鱼类机体的生理机能的影响以及鱼类对环境变化的生理适应过程,近年来发展很快。本文着重介绍环境因素,主要
目的:探讨对老年慢性阻塞性肺疾病(COPD)稳定期患者进行康复护理的效果。方法:选取2016年1月至2017年12月期间甘肃省人民医院收治的150例老年COPD患者作为研究对象。随机将这些患
现今岩性地层等隐蔽油气藏的勘探需要高精度和可预测性的成岩作用研究,通过深入探讨层序地层格架内层序边界和不同体系域对成岩作用类型及成岩演化的控制及其对储层物性的影