面向多类不平衡学习的过采样方法研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:amwaydog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡学习是机器学习的重要研究内容之一。不平衡数据在类别分布上呈倾斜分布,通常情况下少数类具有更高的价值,但在多数类的影响下,传统的机器学习算法对少数类的识别率较低,不能有效地处理不平衡数据。过采样方法是一种有效地解决不平衡学习问题的方法,其思想是对少数类样本进行采样,使少数类的样本数量与多数类的样本数量达到平衡。虽然研究者在过采样方法上取得了很多成果并被广泛应用,但是在处理多类不平衡数据时,现有的多数过采样方法会造成过泛化的问题。本文针对过采样方法在处理多类不平衡学习时存在的过泛化问题,从采样方向选择、合成样本点评估和采样数量计算三个方面提出了两种改进的方法,提升过采样方法的性能,且开发了一个简单的演示系统,用来展示过采样方法。本文的主要研究成果和创新点如下:1.提出了一种基于海林格距离和SMOTE的过采样方法(HDSMOTE)。在处理多类不平衡数据时,HDSMOTE通过海林格距离引导合成样本点和评估样本点的质量,降低过泛化风险。建立基于海林格距离的采样方向选择策略,通过比较少数类样本点局部近邻域内的海林格距离的大小,引导合成样本点的方向。设计了基于海林格距离的采样质量评估策略,避免合成的样本点侵入其他类别的区域,降低过泛化的风险。采用提出的过采样算法与7种代表性过采样算法对15个数据集进行预处理,通过基于C4.5的分类器进行分类。实验表明,与7种代表性的过采样算法相比,HDSMOTE算法在分类器RIPPER上有更好的分类效果。2.提出一种高质量的面向多类不平衡学习的过采样框架(HQOF)。HQOF通过分析少数类和其周围样本分布,自适应的计算采样数量,一定程度上减少过拟合的风险;HQOF结合海林格距离决策树为少数类训练监督模型,评估合成样本的质量,减少过泛化的风险。HQOF由三部分组成:首先,建立基于马氏距离的自适应采样策略,通过分析少数类和其周围的样本分布,确定采样数量,一定程度上减少采样数量,减少过拟合风险。其次,采用传统的过采样方法进行采样。最后,建立基于海林格距离决策树的监督机制,评估新合成的样本点,降低过泛化的风险。将7种代表性的过采样算法嵌入到HQOF中,并与原始的7种过采样算法对19个多类不平衡数据集进行采样,采用基于C4.5和朴素贝叶斯的分类器对采样后的结果进行分类,结果表明HQOF能够在减少采样数量的同时保证采样的有效性。3.开发了一个简单的演示系统,该系统包含过采样和分类两个模块,过采样模块封装了8种过采样算法,分类模块封装了6种分类器。该系统整体上实现了过采样和数据分类的功能,最终运行结果以图形的方式向用户展示。
其他文献
数据查询是无线传感器网络完成监控和侦查任务主要手段。因此,无线传感器网络需要通过数据隐私保护技术防止信息泄露和被篡改,利用数据管理技术来完成数据查询和访问控制等任
在医疗康复、人机交互和公共安全等领域,利用计算机技术理解人体局部图像具有重要意义。为此,一些人脸属性合成和编辑方法以及3D手势估计方法相继提出,并逐渐在相关领域得到
深度神经网络作为实现人工智能的重要方法之一,近年来已获得广泛应用。其中,卷积神经网络极大的促进了计算机视觉领域的发展。随着研究的逐渐深入,计算机已经可以实现对图像
近年来,随着世界经济的高速发展,可再生能源的不断消耗加重了能源危机和环境污染状况,国内外的研究者们积极探索解决方案,以可再生能源为主的分布式电源得到了迅速发展。分布
人工智能和物联网的高速发展推动了室内定位技术和无线信号、智能算法的紧密结合。人们对位置服务的需求日益增加,尤其在复杂的室内环境中常需获得物体的位置信息。因此,低成
坦克行驶时由于路面激励引发坦克火炮结构产生机械振动,这种振动响应将会对坦克火炮射击精度产生巨大的不利影响,因此研究坦克火炮的振动规律及振动测试方法,对提高坦克的命
在推荐系统研究领域,协同过滤推荐算法的应用和研究最为广泛,在一些推荐任务中取得一定成效。但是,协同过滤推荐算法单一考虑了用户的评分数据,存在数据稀疏性和冷启动问题,
由于大量的工件存在着缺陷且绝大多数以工业CT(Computed Tomography)图像的形式呈列,因此,工业CT图像缺陷的检测(识别与定位)及分割是一个重要的研究课题。目前,利用DL(Deep
随着物流业的不断发展,各地煤炭物流企业如雨后春笋般出现。面对蓬勃发展的市场前景和残酷的竞争环境,作为煤炭物流企业,只有转变原有观念,积极分析快速响应,才能在激烈的竞争中保持领先。然而,物流经营在具体实践仍然存在诸多风险,假设没有完善的风险防控体系,一旦出现问题,将给物流企业造成难以估量的损失。因此,如何全面地识别和监控物流业务开展过程中可能出现的风险,并进行有效地防控,已然成为物流企业所必须应对的
20世纪末是人类历史发展的重大节点之一。一方面,经济全球化到来,各国的经济活动突破了国家的界限。主要表现为:商品贸易自由往来,人才和资金频繁流动,跨国公司也在世界范围