基于支持向量机的不平衡数据集分类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:happyfen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代计算机技术的高速发展,使得在科学研究和社会生活的各个领域中积累了大量的数据,为将这些数据转换成有用的信息和知识,数据挖掘技术应运而生并得以迅速发展。但是存在一类数据集称为不平衡数据集,这种数据集中一类数据的数目远远大于另一类数据的数目,而且往往少数类提供的信息更加重要,所以不平衡数据集的分类问题成为现在数据挖掘领域研究的一个热点。支持向量机是一种建立在统计学习理论基础上的分类方法,具有坚实的理论基础,对于普通数据集有比其他分类算法好的分类效果,但是对于不平衡数据集的分类效果并不是很好。本文的研究内容首先从不平衡数据集的特点入手,提出基于聚簇的下采样方法,通过分析得到支持向量机在不平衡数据集分类时失效的原因,采用提出的下采样方法,对多数类的支持向量进行下采样,目的是删除一部分多数类样本,以降低多数类与少数类的不平衡程度,然后利用不同类惩罚支持向量机对新样本集进行训练,达到提高分类精度的目的。现今流行的处理不平衡数据集分类的方法之一是代价敏感学习,但是支持向量机本身并不具有代价敏感性,所以并不适用于代价敏感数据挖掘,本文提出基于数据集分解的代价敏感支持向量机,通过输出后验概率和元学习过程,重构一个集成了误分类代价的新样本集,使用代价敏感支持向量机对重构的新样本集进行训练,以使分类的误分类代价最小。对每一个算法都进行了仿真实验,使用不同的评价准则,通过实验结果和对实验结果的分析表明两个算法分别从提高分类精度,使误分类代价最小方面达到了很好的效果。
其他文献
随着互联网的飞速发展,互联网上的数字信息量也开始呈指数型增长,人们要从信息海洋中获取自己需要的特定信息变得越来越困难。能帮助人们从海量信息中找到真正所需的搜索引擎
智能运输系统ITS是将人、车、路和谐地融为一体,代表了交通运输现代化的发展方向。交通流参数检测作为智能运输系统的一个重要研究方向,对高速公路监控、管理以及政策研究、
面向定制的校园综合信息服务系统能够满足高校学生和教师及管理员等各类角色对校园网络内各种各样的综合信息服务的需求。它提供了一个统一的登录平台,能够有效地对校园网用
在Internet高速发展的今天,网页数量急剧的增长,给信息采集的硬件带来极大的压力,与此同时,搜索引擎中网络爬虫的“密集”抓取活动会阻碍普通用户通过浏览器的正常访问。网络
宽视域(FOV,Wide field-of-view)在许多的工业生产中发挥着重要的作用,比如空中交通管制、大型车辆的驾驶与导航中都离不开FOV。在这篇论文中介绍了一种实时的沉浸感显示系统,能
射频识别(RFID)作为一种高效的数据采集和自动识别技术,在制造、物流、医疗、运输、零售等领域具有广泛的应用前景。但随着RFID技术的快速发展和其应用规模的逐渐扩大,RFID系
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程。该技术充分利用不同模态医学图像提供病灶信息的冗余性和互补性,以获
随着现代工业和交通运输业的飞速发展,噪声问题日益引起了人们的极大关注。基于自适应控制理论的噪声主动控制技术已经成为噪声控制领域的重要研究内容之一,并取得了丰硕的成果。在自适应噪声主动控制控制系统中,控制算法是直接影响自适应控制性能的重要因素。目前,在自适应噪声主动领域,使用最为广泛的是基于线性自适应滤波器的滤波-XLMS算法,而滤波-XLMS算法存在需要较高阶次的自适应滤器和不能有效的控制非线性噪
H.264是一种高度压缩的数字视频编解码标准,2002年由ITU-T视频编码专家组和ISO/IEC动态图像专家组组成的联合视频组(JVT, Joint Video Team)提出,其特点是具有更好的编码效率
计算机技术、网络技术、Internet技术的进步,带来了数据挖掘技术的迅速发展。该技术主要是以从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜