面向不平衡数据集的分类算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:a348956376
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们挖掘和找到更多的数据信息的能力越高,在各个领域中累积的数据就越多,其中不乏有平衡数据集和不平衡数据集。因此这就需要人们采取有效的方法来处理这些大数据,从中找到它们的规律,有效利用它们蕴含的信息。处理数据最重要的工作之一就是数据的分类,所谓数据的分类是指分析和研究已有的数据集,并在该数据集中找出隐含在其中的信息和规律,然后预测未知数据集的类别。经典的数据分类方法,如支持向量机、极限学习机等,对于平衡数据集的分类已得到了令人满意的结果。但是在实际应用中,使用的数据集通常是不均衡的。已有的分类方法没有关注数据的类别分布不均衡这个情况,导致分类的结果不尽人意。因此,我们需要改进现有的算法或者是设计新算法以减少数据类别分布的不均衡对分类效果的影响。针对传统的分类算法对不平衡数据集中的少数类数据分类准确率低的问题,基于极限学习机和支持向量机,本文主要从以下两个方面进行研究:(1)在数据层面,基于聚类和欠采样,提出改进的极限学习机(FCM-ELM)。提出的方法通过聚类分析,将训练集的负类数据分成不同的簇,然后按规定的采样率在各簇中进行欠采样,用选择出的数据组成新的负类数据集,进而使训练集正、负类数据的个数趋于均衡。对比分析实验结果,提出的方法有效地减少了数据的不均衡分布对分类的正确率的干扰,得到了更好的分类效果。(2)在算法层面,结合支持向量机和聚类,提出加权集成学习算法(FCM-ENWSVM)。首先提出模型——加权支持向量机WSVM,根据不同的类别样本所占比例的不同,该模型为各个类别分配不同的权重,然后将WSVM与聚类结合,设计了一种新的集成学习算法。在人造数据集和UCI数据集的分类实验中,使用新方法。实验结果充分证明,新方法能够很好地处理数据的不均衡分类,并达到预期的效果。
其他文献
本文讨论了如下p-Laplacian方程解的存在性问题{-div(|▽u(x)|p-2▽u(x))+K|u(x)|p-2u(x)=f(x,u(x)),x∈RN,u(x)∈W1,p(RN),其中p0为常数,f(x,u)满足条件limu→+∝f(x,u)up-l,这
本文讨论带有逐点控制约束条件的最优控制问题超收敛性。在有限元离散化中,控制变量用分片常函数近似,状态变量和伴随状态变量用分片线性函数近似,并重新构造控制变量u的插值uI.
如果一个图G的选择数等于它的色数,即Ch(G)=X(G),则称图G是色一可选择的。关于图的色一可选择性,2002年Ohba给出猜想:任意一个顶点的个数小于等于2X(G)+1的图都是色一可选择的。
设G=(V(G),E(G))是一简单图.给定非负整数r,s,t,定义图G的[r,s,t]-染色为V(G)∪ E(G)到颜色集{0,1,…,k-1)的映射c,使得对任意两个相邻顶点vi,Vj,有[c(Vi)-c(vj)|≥r;对任意两条相邻的边e
随着科学技术的飞速发展,传统的控制理论和控制方法越来越显示出局限性,特别是高技术领域,如机器人、飞行器、大型柔性结构等,对控制系统的精确度也提出了更高的要求,这种工
证券市场是一个极其复杂的系统,证券的收益和风险都是不确定的,这就使得投资者需要在一个不确定的环境下做出投资决策。同时证券的流动性和交易费用也是投资组合优化中要考虑的
移动机器人最基本的路径规划问题是在完全已知的静态障碍物之间为机器人寻找一条从给定的起始点到目标点的满足一定优化指标的无碰撞路径。本文介绍了移动机器人路径规划的基
本文是对两类离散Leslie-Holling型捕食与被捕食系统的稳定性及分岔进行了分析和讨论。全文共分为四章。   第一章,简单介绍研究背景、研究现状、以及本文所需的预备知识