基于集成模型的倾斜数据流分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:snoopy_cp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据流分类问题引起了广大研究者越来越多的关注。然而,实际应用中的数据流的类分布往往是非平衡的,即某些类(小类)的实例数量明显少于其他类(大类),被称为倾斜数据流SDS(Skewed Data Streams)。通常将所关心的小类定义为正类,而大类则定义为负类。对于这种类分布不均衡的数据进行分类时,采用传统分类方法由于训练集中的正类实例数目稀少导致训练不充分,进而造成正类的分类精度远远低于用户要求。为此,本文以提高正类的分类准确率为主要目标,同时考虑数据流环境下对算法的实时性等要求,开展高效、高性能的SDS分类方法研究。在此基础上,考虑到SDS环境下的概念漂移存在的普遍性,进一步研究SDS环境下的概念漂移检测与适应方法。本文的主要工作如下:(1)概述了数据流的定义、数据流分类问题定义及其评价标准,以及数据流中的概念漂移相关概念和处理方法等,并详细阐述了SDS分类问题的处理方法和研究现状。(2)SDS分类问题要求保证较好的正类分类精度的同时具有较好的时间性能。为了提高算法的时间性能,本文研究并提出了一种快速有效的SDS集成分类方法ECSDS。该算法通过设定相邻数据块的F1值差值大于等于某一阈值作为分类器更新标准,以此减少更新次数以提高算法效率;同时在更新分类器时引入错分正类实例使基分类器着重学习它们,以弥补更新次数减少所带来的精度下降问题。实验结果验证了算法的有效性,即在时间性能上有显著提高,同时具有较好的分类效果。(3)针对带有概念漂移的SDS分类问题,本文提出了一种基于errorRate+(正类分类错误率)的SDS漂移检测算法CSCEP。该算法将概率论中的区间估计理论运用到SDS中的概念漂移检测问题中,同时在分类器更新时引入错分正类实例集合,提升分类效果。实验表明,CSCEP能够及时检测到SDS中发生的概念漂移,使得已有的分类模型能够快速做出更新和调整,保证了正类的分类效果。
其他文献
目前,越来越多的实时应用需求推动着实时系统的发展。同时计算机的迅猛发展和硬件价格的降低使得多处理器实时系统得到广泛的应用。多处理器系统的调度问题也受到更多的关注
汉字和书法是中国传统文化重要组成部分,构成丰富多彩的中国历史与文化。用户在浏览欣赏汉字书籍时,特别是在浏览欣赏有诸多繁体字的古代书籍的时候,会遇到很多生疏不认识的
场景中的目标识别是图像理解中一个主要的研究问题,具有重要的理论研究价值和应用前景。现实世界中由于目标的多变性,如尺度、旋转、光照、位置、遮挡等,复杂混乱视觉场景中目标
无线传感器网络节点的能量通常十分有限,因此如何最大限度地延长网络生命周期是无线传感器网络路由协议设计的首要目标。分簇结构是一种能量高效的网络结构,因此基于分簇的路由
随着移动通信和无线定位技术的发展,室内空间及其移动对象的数据管理成为目前数据管理领域的研究热点。由于定位系统的不同,传统的基于GPS位置的移动对象管理技术不能直接应用
个性化推荐具有主动性和及时性两大优势,是解决信息过载问题的重要途径。目前的个性化推荐技术中使用最多的是协同过滤技术,协同过滤大致分为两种算法:基于用户的协同过滤和基
随着室内外定位技术以及普适计算的发展,基于位置服务的应用需求引起了工业界和学术界的关注,而提供基于位置服务的前提是获取移动对象的位置。在室外,我们可以使用GPS获取移动
无线传感器网络(Wireless Sensor Networks,WSN)是由一些传感器节点以自组织的形式协同构成的无线网络。  智能交通系统(Intelligent Transportation System,ITS)是缓解交通
本体学习的许多方法也已经被国内外许多科研人员提出并应用,而对于本体学习任务中概念间非分类关系的获取,却被研究的较少,它也是本体学习中的难点。随着网络的发展,越来越多
随着我国国民经济的快速增长,煤炭的需求量呈现快速增长态势。国家和地方相继投资一批新建矿井以满足国民经济的发展对能源的需求。矿井建设包括很多子工程,是一个特别复杂的工