面向不平衡数据集的集成算法研究与应用

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户：eidolonfish

【摘要】

：

【作者】

：

吴挡平

【出处】

：

兰州交通大学

【发表日期】

：

2019年01期

【关键词】

：

不平衡数据集成学习 Bagging算法 SMOTE采样法沙尘暴数据分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,在机器学习和数据挖掘领域中,数据的分类问题是一项比较核心的研究工作。传统的分类算法都是基于类别分布平衡的情况下进行数据分类研究。但是,在很多实际应用中,如信用卡欺诈检测、卫星图像的漏油检测和网络入侵检测等,数据的类别分布往往是处于不平衡的状态,即某一类别的样例数相比于另一类别的样例数明显要少的多,其中样例数相对多的类别称为多数类,样例数相对少的类别称为少数类,且对于这类数据,少数类大多数情况下要比多数类更重要,例如在信用卡欺诈检测中,将有信用卡欺诈行为检测为无欺诈行为的代价远远大于将无信用卡欺诈行为检测为有的代价。因此,针对这类不平衡数据集的分类问题,提高少数类样例的分类性能具有更重要的现实价值。针对不平衡数据的分类问题,分类算法的研究主要分为以下两个方面,其中一种常用的方法是利用采样技术(比如随机过采样法、随机欠采样法及SMOTE过采样法等)来处理数据类别分布不平衡的问题,即通过对数据集类别样例分布进行采样处理使得数据的类别分布处于平衡化,然后在平衡后的数据集上进行分类研究。另外一种常见的方法是保留原始数据集的类别分布(直接在原始训练集上训练),通过利用某种方法对分类算法改进,然后直接用改进算法对不平衡数据集进行分类,比如代价敏感、决策阈值、概率估计和集成学习等技术。其中,比较热门的方向之一就是以集成学习算法为基础,展开对不平衡数据集分类问题的研究工作,并取得了不错的效果。在不平衡数据集的分类问题中,由于集成学习算法表现出较优的分类性能,因此已被广泛应用于解决此问题的研究。集成学习算法主要是通过对基分类器的改进和利用一些方法增大基分类器间的差异性来提高分类器的分类性能,具有较强的泛化能力。基于以上进行的分析,本文主要进行了以下几个方面的工作:首先,从数据层面着手,本文结合SMOTE过采样法和重复欠采样法两种采样法处理不平衡数据集的优势,提出了一种基于组合采样法的旋转森林集成分类方法。该算法首先使用SMOTE过采样法对原始训练集进行采样处理,然后在SMOTE采样后得到的新训练数据集上利用重复欠采样法抽取多个平衡化的训练子集,最后利用旋转森林集成算法在这多个训练子集上进行学习。其次,从算法层面着手,以Bagging集成算法为基础,引入阈值移动法,提出了一种基于概率阈值Bagging集成算法的不平衡数据分类方法,该算法根据最大化性能评价指标为每个类别确定一个决策阈值,使得算法能够适应不平衡数据集。本文最后的工作将改进的基于概率阈值Bagging集成算法成功的应用于甘肃部分地区沙尘暴不平衡数据集的分类上,通过实验验证针对不平衡数据分类问题,基于概率阈值Bagging集成算法具有很好的分类性能。

其他文献

基于数字地形分析的排土场微地貌景观格局分析

随着地理信息数据化和空间分析技术的发展,GIS越来越多的应用在了与地理相关的各个领域。在土地科学上,通过地理信息技术来快速、准确获取相关土地利用和地形地貌信息也变得

学位

数字地形分析DEM排土场微地貌地形因子景观格局

南京江宁区城市化水平分析

文章首先指出城市化的内涵,从人口、经济实力、产业结构、城市建设与环境以及居民素质与生活质量五个角度构建了城市化水平评价指标体系.然后,依据此指标体系对江宁区的城市

期刊

城市化指标城市化水平

临床对照试验文献质量评价的发展与现状

目的 :介绍临床试验文献质量评价的发展与现状。方法 :检索相关文献进行描述性研究。结果 :临床试验文献质量越来越受到重视 ,国外有不少于 2 5种评价临床试验文献质量的量表

期刊

临床试验文献质量评价量表

加味温胆汤治疗痰热内扰型失眠30例

目的:本临床研究是对加味温胆汤治疗痰热内扰型失眠的疗效进行观察。方法:临床确诊为痰热内扰型失眠患者给予加味温胆汤治疗,7天为一疗程,共治疗1个月后观察临床疗效。结果:

会议

加味温胆汤痰热内扰失眠

基于双馈风电系统网侧九开关变换器研究

随着我国风电装机容量的逐年增长,双馈感应电机风力发电机组凭借着励磁变换器容量小、价格低、机组谐波小等特点在我国目前风电市场中占据着主要份额。然而双馈感应发电机定

学位

网侧九开关变换器双馈感应电机动态电压恢复器控制策略柔性故障穿越

石膏板高精度控温系统的开发

通过对传统石膏板控温系统的缺点分析,阐述了石膏板高精度控温系统开发的必要性。同时对该系统中的信号检测,运算处理和显示输出这三部分进行了详实分析。

期刊

控温系统信号检测运算处理显示输出

小擦地角海面散射与海杂波研究

海面的电磁散射一个重要课题就是掠入射问题低掠入射是一个有实际应用价值的问题,低掠入射风驱海面的散射回波与导弹制导、低飞技术、目标识别等依然是国际上研究的热点。掠

学位

海杂波半经验海杂波模型掠入射小斜率近似海谱电磁散射

三种植物对PAHs、Cu、Cd污染土壤修复潜力的研究

复合污染是土壤污染的一种常见现象,有关重金属(HM)和持久性有机物(如多环芳烃,PAHs)的复合污染已有很多报道。与物理化学修复相比,植物修复成本低、无二次污染,具有研究意义

学位

多环芳烃重金属复合污染植物修复潜力

维拉帕米是否通过细胞间缝隙连接通讯的改变来逆转肺腺癌的耐药性

目的:本文探讨应用耐药逆转剂维拉帕米后,肺腺癌细胞株A549及其耐药细胞株A549/T细胞间缝隙连接通讯和细胞内钙浓度的变化,并探讨所产生的机制。方法:先选择有效的耐药逆转

学位

多药耐药细胞缝隙连接通讯维拉帕米紫杉醇

压抑、张扬与超脱——两汉与魏晋文士自嘲意识之比较

文士在作品中的自嘲,蕴含着文士的文化人格、产生的社会和思想背景等深广的文化内涵。汉代文士的自嘲意识与“士不遇”相关联,由文士的儒家人格与其在政治上失意决定;而魏晋

期刊

两汉魏晋文士自嘲

面向不平衡数据集的集成算法研究与应用

其他学术论文