面向数据流挖掘的集成分类模型研究

被引量 : 0次 | 上传用户：lfs888

【摘要】

：

生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域的迅猛发展形成了如今高速、海量、动态的数据流。由于数据流的海量性、动态性,传统经典分类算法已不能适应

【作者】

：

邹江波

【发表日期】

：

2013年期

【关键词】

：

数据流挖掘情景特征集成分类器概念漂移云计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域的迅猛发展形成了如今高速、海量、动态的数据流。由于数据流的海量性、动态性,传统经典分类算法已不能适应数据流的处理要求,如何有效的对数据流进行处理并从中挖掘有价值的信息已经成为国内学者研究的热点。与此同时近几年云计算的飞速发展也为处理海量、连续、高速的数据流指明了新的方向,如何结合云端强大的计算能力,快速高效地处理数据流也将成为未来信息处理的一大趋势。数据流的挖掘研究主要集中在流中频繁模式的挖掘、动态数据流的分类以及聚类演变数据流挖掘。本文结合集成分类模型以及云计算相关技术对动态数据流的分类模型进行了深入研究,主要研究内容包含以下几个方面：第一,针对数据流中因特征随时间变化而导致目标分类模型也随之改变的概念漂移问题,本文提出了一种基于情景特征的前馈动态集成分类器算法(Origin Characteristics Ensemble Classifier, OCEC),该算法在集成分类器研究的基础上,融入了情景特征,通过动态设置情景特征的闽值来提前预测概念漂移发生的边界,当情景特征的变化超出情景阈值时,立即通知集成分类器重新学习产生新的基分类器,而不是等到基分类器的准确率低于集成分类器的阈值时才开始学习,以此使集成分类器具有一定的前馈性,达到动态数据流分类的目的。第二,深入研究分析了集成分类模型在最终集成时关于基分类器选择的准确性与差异性之间的关系问题。由于数据流的潜在无限性、快速变化性要求基分类器需不断更新以适应数据类别的持续变化。但用于分类的基分类器可能存在冗余,即仅需一个基分类器便可完成对数据的正确分类的任务却产生了多个基分类器。因此本文对集成分类模型中的基分类器采用差异性度量,提出了一种基于信息熵差异性度量的增量集成分类算法(Increment Select Ensemble Classifier, Increment_SEC),通过引入差异性计算使得处理数据流的模型更具适应性。第三,对当今潮流的云计算技术进行了深入研究,结合云计算在海量数据处理的优势,在集成分类模型的基础上利用云计算的MapReduce技术对分类模型进行了改进,主要针对大多数已有集成分类算法只适合作用于小规模、低维度数据流的缺点,通过剖析集成分类模型的特性,提出了一种基于MapReduce技术的并行集成分类算法(Ensemble classification using MapReduce, EMapReduce),以此达到并行处理数据流的目的。

其他文献

拉萨市藏族儿童青少年体成分现状研究

目的了解西藏拉萨市藏族儿童青少年体成分现状，探讨拉萨市藏族儿童青少年体成分的年龄变化趋势及性别差异，为科学评价拉萨市藏族儿童青少年群体的体质状况、合理指导其生活方式

学位

拉萨藏族儿童青少年体成分生物电阻抗法

基于GIS的客户服务资源监管系统研究

随着电力体制革新的深入,供电企业加快了以市场为导向的步伐。如何缩短与客户在时间和空间上的距离,加强与客户的信息交互,提升服务质量是当前供电企业面临的挑战。因此,企业

学位

客户服务客户关系管理GIS信息管理系统

rIL2-HSA融合蛋白注射剂型的开发研究

重组人白介素2（recombinant Interleukin-2，rIL2）注射水针剂和冻干剂两种剂型的治疗效果和毒副作用与给药剂量呈正相关。近期欧盟批准了高剂量注射用rIL2制剂用于晚期肿瘤的辅助

学位

rIL2-HSA注射液制剂HPLC稳定性

基于LDPC码的Ka频段卫星通信自适应编码调制技术研究

随着宽带卫星通信的快速发展,传统的C频段、Ku频段已不能满足日益增长的通信需求。因此,可用带宽大、抗干扰能力强的Ka频段成为卫星通信领域广泛使用的频段。但是,Ka频段卫星

学位

Ka频段卫星通信准循环LDPC(QC-LDPC)码雨衰自适应编码调制(ACM)

隐伏溶洞与隧道间安全距离及其智能预测模型研究

当隧道周围有隐伏溶洞存在时,如何合理确定两者间安全距离是个相当棘手技术难题,它关系到隧道能否顺利施工和安全运营,并且在一定程度上决定了隧道长度及埋深,两者距离越小,

学位

隐伏溶洞失稳机理安全距离突变理论数值试验支持向量机

基于VxWorks的冗余通信控制系统研究与实现

针对机载航电系统大综合的趋势，对于系统的实现，要求其控制能力和运算能力要更强，系统可靠性指标要更高。本文研究了基于VxWorks操作系统的机电冗余通信控制系统的关键技术及其

学位

VxWorks双冗余互锁退避混合调度

PCNN在胆结石超声图像分割中的应用

胆结石属于常见的胆囊疾病,在我国西北地区发病率较高,在引起急腹症的疾病中仅次于阑尾炎,对于胆结石的初步诊断首先选择做超声影像检查。超声图像具有实时性好,无损伤等优点

学位

超声医学图像胆结石图像分割脉冲耦合神经网络

循环流化床锅炉用耐磨耐火材料的研制

循环流化床锅炉中 ,由于目前使用的耐火材料发生磨损、剥落和坍塌 ,有必要研制新型的耐磨、耐火材料。本文研制的NMJ耐磨浇注料选用电熔棕刚玉、电熔白刚玉、电熔致密刚玉、

期刊

循环流化床锅炉耐磨耐火材料研制性能

航天十一院科研生产计划管理改进研究

本文以航天十一院的科研生产计划管理工程项目为研究对象，着重研究了该项目的项目进度计划方面的内容。本文分为五章，分别是：第一章：航天十一院科研生产及计划管理简介；第二章：航天

学位

项目计划工作分解结构图网络计划

催化转化生物质基乙酰丙酸制备高附加值化学品研究

为应对日益严峻的能源危机,世界各国近年来高度重视生物质资源的开发利用。木质纤维素是地球上最丰富的可再生生物质资源,与淀粉、油脂等其它生物质资源相比,木质纤维素具有

学位

生物质乙酰丙酸γ-戊内酯甲酸14-戊二醇2-甲基四氢呋喃金催化剂铜催化剂

面向数据流挖掘的集成分类模型研究

其他学术论文