不平衡数据学习的过采样技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Mondy_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展、网络化系统的兴起及各类移动设备的普及,人类社会迈向了大数据时代,知识发现和数据工程在广泛的社会活动中发挥着不可或缺的作用。然而,许多现实应用的领域,所学习的数据呈现类的不平衡分布,即一些类(少数类)的样本数目显著地少于其它一些类(大数类)。绝大部分的标准学习算法假设相等的错分代价,当面对复杂的不平衡数据时,它们不能为代表领域价值的少数类提供理想的预测精度。因此,不平衡数据的学习在很多的情况下成为正确决策的一个主要障碍。如何有效地处理众多现实应用中不同特性的不平衡数据学习,是一个亟待解决的重要问题。
  数据过采样作为最受欢迎的不平衡学习技术之一,它通过生成新的少数类样本去弥补少数类信息的不足,在最基础的数据水平解决不平衡学习问题。本文围绕多种类型数据的不平衡学习问题展开研究,并提出相应的过采样方法,主要的工作和创新点包括以下几方面:
  (1)针对多分类不平衡问题,提出了一种基于k最近邻居的合成少数过采样算法。已有的过采样方法当处理多分类不平衡问题时,都存在它们各自的不足(例如,造成严重过泛化或不能大幅度改善在数据空间上的类不平衡)。本文提出的基于k最近邻居的过采样算法给每一个邻居方法赋值一个被选择用于生产合成少数样本的选择权重。通过给予那些可能造成严重过泛化的邻居方向相对较小的权重,该算法可以形成一个避免过泛化的机制。由此,本方法可以通过给参数k设置一个高的值去大幅度地开拓潜在的少数类区域,而不会导致严重的过泛化问题。基于27个多分类不平衡数据集上的实验表明,提出的算法的性能优于已有的代表性过采样方法。
  (2)针对有序回归的不平衡学习问题,提出关注生成方向的合成少数过采样算法。传统的过采样方法可能产生过度泛化的问题,从而扭曲有序回归中样本结构的有序。本文提出的关注生成方向的过采样算法对每一个候选生成方向计算一个被选择用于生成合成样本的选择权重。通过考虑类的有序,那些潜在扭曲有序样本结构的候选生成方向将被赋值低的选择权重。由此,该算法能在没有严重损害已有有序的前提下,改进少数类的有序。基于21个标准有序回归数据集的实验表明,提出的方法在各种常用的性能评价指标上优于已有的代表性过采样算法。
  (3)针对二分类不平衡问题,提出关注位置特征的插值过采样算法和广义的线性插值创建方法。基于插值的过采样技术已经成为处理二分类不平衡数据最常用的方法类型之一,然而这种类型方法存在若干不可忽略的缺陷。本文指出过度约束、低效的膨胀、和过度泛化的缺陷分别存在于为内陆的少数样本、边界的少数样本、和受困的少数样本的插值合成样本的过程中。为了克服这些缺陷以更好的应对二分类不平衡问题,本文提出的关注位置特征的插值过采样算法。该算法首先利用基于领域的聚类去划分少数类样本至内陆样本、边界样本、和受困样本。然后,对这三种不同位置特征的少数类样本实行不同的插值过采样,以解决为它们插值生成合成样本时出现的相应缺陷。此外,基于插值的过采样算法中存在另外一个显著的缺点,即对于合成样本的名词型属性的不合理填充。为了解决这个问题,本文利用值差指标衡量名词型属性值的相似性以推广线性插值方法去填充合成样本的名词型属性。大量的实验证明提出的方法在各种常用性能评价指标上优于已有的代表性方法。
  (4)针对时间序列的不平衡分类问题,提出了一种结构保留的过采样算法。时间序列由于数据连续性的本质呈现高维和变量间相关性的特征。提出的算法使用一种新的基于密度率和最近邻居相似性聚类算法去发现存在于高维空间中的少数类模式;然后,应用收缩的技术为每一个只有少量代表性数据的模式估计精确的协方差矩阵;最后,利用估计的协方差矩阵基于多元高斯分布为每一个少数类模式生产结构保留的合成样本以维持变量间相关性和改进少数类的分类性能。大量的实验证明提出的方法在各种常用的性能评价指标上优于已有的典型过采样算法。
其他文献
在西方国家艺术家通过艺术作品塑造了各种男人和女人的形象,而女人们平日的生活都必须由男人决定。伊斯兰教中的女性与西方女性大致形同,但从绘画作品中却体现了不同宗教中艺术的不同。《圣经》中的女性形象都各有其特色。许多艺术家都会将女性的唯美、生动、性感的姿态展示在作品中。《古兰经》讲述了伊斯兰教对社会的理解,许多艺术家在《古兰经》的要求范围下进行艺术创作,多展现人的生活,所以伊斯兰艺术是宗教和艺术的融合。
学位
题材是美术家在审美地认识生活的过程中,按照一定的创作意图和对生活素材进行选择、提炼、加工、改造,而在美术作品中具体描写的一定的现实生活。风景油画中的题材经过几个时期的演变发展到现阶段,从功能上来说第一它脱离了为政治服务的功能,第二它脱离了单纯的审美的功能,它打破了最开始单一对自然描绘的形式,正逐渐走向多样化的较好局面。在我们看到了多样化的风景油画题材的同时,还是存在很多问题,还需要艺术家从自身、社
学位
全球变暖等气候变化导致极端天气频发,其中降雨分布不均会显著影响生物多样性,并对生态系统结构和功能产生复杂影响。干旱半干旱草地生态系统对降雨量变化最为敏感,降雨量变化会直接影响草地上的动植物种群及其演替。本研究通过在内蒙古典型草原建立大型围栏,测定实验围栏内主要植物凋落物的分解速率和植物群落的结构变化,探讨降雨量变化和布氏田鼠活动对植物凋落物分解和群落结构的影响,为合理管理布氏田鼠种群数量以及草原的
学位
六堡茶是广西有名的黑茶品种,其生产过程的关键步骤之一就是“渥堆”,此期间有大量微生物繁殖,在微生物的作用下产生特殊的香味及茶的各种物质。本研究目的在于探索六堡茶中的真菌微生物及基因资源,以期将其利用到烟制品和茶叶中。研究主要内容及结果如下:  (1)菌株的筛选与鉴定:①从广西六堡茶中分离得到四株具有潜在利用价值的真菌。通过显微观察微观形态和分子鉴定结合的方法鉴定出这四株真菌所属的物种。分别命名为:
学位
期刊
本文使用阳离子胶体金(CCG)标记中国仓鼠卵巢细胞(CHO-K1)的阴离子场,并采用双光子荧光显微成像和荧光寿命成像技术对其进行成像。金纳米微粒在飞秒激光的扫描照射下可以产生光热效应,这种纳米尺度的微效应在不影响细胞活性的前提下可以暂时提高阳离子胶体金标记细胞膜位点的通透性。基于这种效应,我们将10k道尔顿的荧光探针大分子(FITC-D)递送到CHO-K1细胞的内部。
计算机视觉领域中包含了各种各样的图像分析与处理技术,目标跟踪是它的一个重要组成部分。现有的目标跟踪算法中,存在着精度与速度的矛盾,往往精度高的算法速度较慢,而速度快的算法精度较低。对于不同场景下的要求,需要对速度与精度进行权衡。在超高速目标跟踪场景下,要求跟踪速度必须极快并且精度不能过低,因此研究一种计算速度极快并且精度尚可的目标跟踪算法具有重要的意义。  弹载应用场景对目标跟踪平台的体积和功耗有
介绍通信集成电路相关的硅基CMOS工艺、GaAs HBT与HEMT工艺、SiGe HBT与BiCMOS工艺,介绍东南大学射频与光电集成电路研究所利用多种工艺实现的光纤通信集成电路部分研究成果。
随着网络信息技术迅猛发展,人们尽管有越来越多获取信息的方式,还是抵不住信息过载问题的影响——越来越难以准确、快速地定位到所需要的信息。个性化推荐系统是缓解信息过载问题,满足用户个性化需求的重要手段。针对推荐系统中传统基于用户的协同过滤推荐算法的数据稀疏、冷启动问题,提出了SUBCF_CK算法。相较于传统算法,SUBCF_CK算法主要改进工作如下:为减轻用户-项目评分矩阵的稀疏问题对推荐效果的影响,
学位
基于视频流的图像拼接技术是提取一段视频中的若干关键帧,将关键帧重叠区域的图像进行特征点配准、边界缝合后生成一张完整的拼接图像,该技术在计算机图形学、视频监控、无人机航拍图像、遥感影像等领域展示了广阔的应用前景和价值。随着计算机技术和信息化的快速发展,图像拼接技术可以准确高效地将视频流中的关键信息以图像的方式展现出来,满足实时性的要求。铁路交通监控视频就是其中的典型代表,通过研究图像拼接技术,及时发
学位