多级分类器构建及在不平衡数据的应用研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:kmweiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在某些情况下测试时可能存在分类规则少,规则质量不高,从而引起分类准确率低的问题。此外,在现实世界里,存在大量不平衡数据。单级分类器在数据不平衡的情况下,更不能有效的提取足够少数类的分类信息,导致少数类实例极易被错误分类。多级分类器对训练集学习多次,可以提高分类规则数量,有效提高分类精度。同时,多级分类器是处理不平衡数据分类的有效方式。本文围绕多级分类器分类算法进行研究,提出三种新的多级分类算法模型。从单个分类器算法、不同训练方式及融合多分类器方法三个方面进行改进。改进的方法不仅可以提高分类准确率,而且可以有效的针对不平衡数据特点,提高不平衡数据分类精度。本文的主要研究工作如下:首先,提出基于实例多覆盖多级分类算法。实例覆盖算法是对决策树算法的改进,基于实例多覆盖多级分类算法是以实例覆盖算法作为基分类器,对训练集进行多次训练,生成大量分类规则,以达到使训练集中每个实例被分类规则多次覆盖,提高了分类准确率。其次,提出基于规则提取多级分类算法。不同于传统基于规则分类算法,基于规则提取多级分类算法一次产生较大规模候选集,一次生成大量规则。一次规则生成后,训练集中的实例至少被规则覆盖两次才被删除,并重复规则提取过程。最后,针对不平衡数据设计多级分类器。考虑不平衡数据中少数类实例难以提取规则且误分概率大等特点,设计不平衡数据的多级分类方法。生成多个训练集,对少数类实例反复训练,并使用证据理论方法将多个分类结果融合。通过F-measure、Gmean和AUC等度量,用实验验证该算法对不平衡数据的有效性。
其他文献
在信息化时代,对海量数据的存储解决方案成为一个非常紧迫的研究领域。据专家预测,全球每年的数据存储量以80%的速度递增,对于一些典型的数据应用领域,每隔大约90天左右,数据
天气会商是天气预报制作过程的重要环节,对提高天气预报的准确率有着重要作用。传统的天气会商需要把所有的与会人员集中在一起,严重的浪费了人力、物力和时间资源。如果利用
抽象数据关系可视化主要是针对于数据结构的可视化,而图是应用最一般且最广泛的数据结构。图的可视化包括静态图可视化和动态图可视化,但动态图可以看成是由静态图组成的序列
随着电信网规模的不断增大,网络中的电信设备在复杂性和多样性方面都有很大的提高,如何对它们进行有效、高效的管理成为了一个很重要的问题。本文设计并实现的集中操作维护平台
学位
近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重,而现有的垃圾邮件过滤技术却不能很好地应对这种形势。为了进一步提高互联网抵御垃圾邮件风险的能力,更
近年来,P2P网络发展迅速,在很多领域得到广泛应用,成为业界研究与关注的一个焦点。对等网络是实现下一代互联网的重要组成部分,P2P搜索技术是P2P研究中的一个重要领域。随着
连续函数的总体极值在自然科学、人文科学和工程设计等各种学科中都有着很广泛的应用。目前对于求解函数局部极值有很多好的成熟实用算法,而对于求解函数总体极值尚不多见,因此
分布式约束优化是解决分布式推理任务的一个基本框架,是目前多Agent领域的研究热点。近几年来提出了许多优秀的分布式约束优化算法,这些算法大体上分为完备算法和非完备算法
随着数码设备的普及,互联网的兴起,每天将产生大量数字图像。为了有效的存储、管理图像数据库,需要对图像库进行索引,按特定的需求检索图像。怎么根据数字图像的视觉内容有效
随着信息技术与互联网技术的发展,大量的数据在各行各业中积累着,为了综合利用这些数据信息,达到充分的资源利用,需要针对现有的数据进行科学的研究和分析,进行大量的数据沉淀和数
学位