论文部分内容阅读
生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域的迅猛发展形成了如今高速、海量、动态的数据流。由于数据流的海量性、动态性,传统经典分类算法已不能适应数据流的处理要求,如何有效的对数据流进行处理并从中挖掘有价值的信息已经成为国内学者研究的热点。与此同时近几年云计算的飞速发展也为处理海量、连续、高速的数据流指明了新的方向,如何结合云端强大的计算能力,快速高效地处理数据流也将成为未来信息处理的一大趋势。数据流的挖掘研究主要集中在流中频繁模式的挖掘、动态数据流的分类以及聚类演变数据流挖掘。本文结合集成分类模型以及云计算相关技术对动态数据流的分类模型进行了深入研究,主要研究内容包含以下几个方面:第一,针对数据流中因特征随时间变化而导致目标分类模型也随之改变的概念漂移问题,本文提出了一种基于情景特征的前馈动态集成分类器算法(Origin Characteristics Ensemble Classifier, OCEC),该算法在集成分类器研究的基础上,融入了情景特征,通过动态设置情景特征的闽值来提前预测概念漂移发生的边界,当情景特征的变化超出情景阈值时,立即通知集成分类器重新学习产生新的基分类器,而不是等到基分类器的准确率低于集成分类器的阈值时才开始学习,以此使集成分类器具有一定的前馈性,达到动态数据流分类的目的。第二,深入研究分析了集成分类模型在最终集成时关于基分类器选择的准确性与差异性之间的关系问题。由于数据流的潜在无限性、快速变化性要求基分类器需不断更新以适应数据类别的持续变化。但用于分类的基分类器可能存在冗余,即仅需一个基分类器便可完成对数据的正确分类的任务却产生了多个基分类器。因此本文对集成分类模型中的基分类器采用差异性度量,提出了一种基于信息熵差异性度量的增量集成分类算法(Increment Select Ensemble Classifier, Increment_SEC),通过引入差异性计算使得处理数据流的模型更具适应性。第三,对当今潮流的云计算技术进行了深入研究,结合云计算在海量数据处理的优势,在集成分类模型的基础上利用云计算的MapReduce技术对分类模型进行了改进,主要针对大多数已有集成分类算法只适合作用于小规模、低维度数据流的缺点,通过剖析集成分类模型的特性,提出了一种基于MapReduce技术的并行集成分类算法(Ensemble classification using MapReduce, EMapReduce),以此达到并行处理数据流的目的。