论文部分内容阅读
随着信息社会的发展,各个领域产生的数据量呈现出爆炸性增长,许多领域产生了海量的数据流,如何从海量的数据流中挖掘出有价值的信息,这是一个在当前受到广泛关注的问题。分类是一种重要的数据分析形式,它通过已有的数据来预测未知数据的类标签,在传统的分类算法中,一旦分类模型训练完成,分类模型也就被固定,也不再进行调整,很显然,这种分类模式无法应对动态变化的数据流。数据流不同于传统的静态数据,往往具有数据数量无限,快速到达,概念漂移等特性,因此,从数据流中挖掘出人们感兴趣的知识和模式需要全新的算法框架。数据流反映的是数据的实时信息,与传统的分类算法相比,数据流分类最大的特点是能够根据数据的动态变化来不断地调整分类模型。然而,数据流中含有概念漂移,如何更加有效地检测出概念漂移以及采取一定的措施来更好地应对概念漂移,这是数据流分类中一个需要亟待解决的问题。为此,本文以传统的分类框架为基础,针对数据流的分类问题进行了系统地研究,主要取得了如下成果:1.结合单隐含层的神经网络极限学习机模型和在线序列学习机制,提出了一种面向数据流分类的快速极限学习机算法,给出了快速二分搜索确定隐含层节点数目的方法,并通过相邻两个数据块分类结果准确率的变化幅度来判断是否发生概念漂移。该算法解决了传统的神经网络学习速度慢,时间开销大,无法直接应用在数据流分类任务的问题。实验结果表明,该算法不但可以有效地检测出概念漂移,而且能够获得很高的准确率。2.根据数据流中不同类型的变化对分类器性能的影响,提出了一种带有自适应调整机制的动态极限学习机算法。给出了根据分类结果的准确率来动态调整隐含层节点数目的方法,当算法检测到概念漂移时,通过重新构建新的ELM来适应新的数据分布。实验结果表明,此算法由于具有自适应调整机制,在具有原始ELM算法优点的同时,降低了对用户经验的依赖。3.根据数据块信息量的变化与数据分布关系,提出了一种基于信息熵的集成式数据流分类算法ECBE。该算法利用Hoeffding界来判断是否发生了概念漂移,当发生概念漂移时,系统根据权值来对分类器进行凋整。该算法在训练阶段训练多个分类器,分类器的权值由分类前后熵值的变化来确定。实验结果表明,相比于用准确率反映数据块数据分布的算法,ECBE算法能够获得更佳的分类效果。4.针对数据流中渐进式概念漂移检测问题,提出了一种结合无监督学习的数据流分类算法。该算法以集成式分类技术为基础,在分类过程中引入属性约简,通过对比分类和聚类结果的准确率,来判断是否发生概念漂移,从而避免了依据相邻两个数据块分类结果的准确率往往只对突变式概念漂移较为敏感的问题。实验结果表明,该算法在突变式和渐进式概念漂移上都取得了较好的效果,具有良好的鲁棒性。5.在概念漂移中,衡量分类器对前后两个数据块的分类能力是关键,而Kappa系数是衡量两个变量一致性的重要方法。为了应对隐含概念漂移的数据流分类问题,提出了一种基于Kappa系数的数据流分类算法。该算法在分类的过程中计算各个数据块的分类结果的Kappa系数,利用Kappa系数来检测数据流中的概念是否发生改变。实验结果表明,该算法能以较快的速度适应数据的动态变化,在时间消耗和分类精度方面具有较为明显的优势。本文针对隐含概念漂移的数据流分类问题,分别依据ELM、双隐含层的ELM、信息熵、无监督学习,Kappa系数等机制,发展出了一系列有效的数据流分类算法,相关的实验结果也充分地表明,这些算法是可行且有效的,不但能够有效地检测出数据流中的概念漂移,而且能够获得较好的分类效果。本文的研究成果,对于面向数据流分类方法的研究具有重要的理论意义和广泛的应用价值。