论文部分内容阅读
数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、工业监控、交通治理、网站信息的发布和订阅、以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,存在于数据中的不确定性问题和多数流处理问题给研究人员带来了新的挑战:一方面,由于不确定数据流既要求保留数据流的无限,快速等特性,还需要利用有限的系统资源减少不确定性因素对挖掘过程造成的影响;另一方面,多数据流处理技术则要求不仅关注于一条数据流的流量变化,同时还需要根据大量数据流之间的相关性与分布特征进行分析处理,因此我们需要重新研究新的面向多数据流及不确定数据流的挖掘算法。学术界虽然已经对数据流上的聚类分析与异常检测问题进行了广泛的研究,但仍存在许多问题尚待解决。本文主要研究不确定数据流聚类分析算法和多数据流异常趋势检测问题,旨在为现有的数据流系统提供更为多样的聚类分析与异常检测功能。同时,还对每个所提出的技术及其相关工作进行大量、深入的实验分析,实验结果都充分证明了所提出技术的有效性和高效性。本文的主要贡献体现在如下四个方面:●本文提出了一种新的不确定数据流聚类算法(EMicro),用于在传统的数据流聚类的基础上解决数据不确定性给聚类过程造成的影响。首先它根据概率数据的特点定义了新的聚类标准,使之能兼顾距离与概率双重因素;然后根据新的聚类要求,提出了一种基于概率引力的元组分配策略;最后,为了有效的减少异常点对聚类结果的影响,我们提出了一套缓冲式异常点处理机制。●本文提出了一种基于信息论的概率数据流聚类算法(EnMicro),用于在信息熵的标准下重新实现聚类过程。首先它基于信息熵的概念定义了元组的不确定性,并通过其来反映数据质量的好坏;然后通过新定义的元组不确定性标准,提出了能够兼顾时间与数据不确定性的混合衰减模型;最后,在新的不确定性标准和混合衰减模型的基础上,提出了一种新的概率数据流聚类算法。●本文提出了一套在多数据流情况下的异常趋势检测方法。首先,针对现有趋势定义的不足之处,引入了一种适合数据流环境下的趋势定义,它的优点在于其较低的时空复杂度;为了在趋势计算过程中选择合适的时间尺度,又提出了一种基于奇异值分解的选择算法,同时给出了一种用于在线调整参数的概要数据结构;最后,当关注重点由单数据流转向多数据流时,我们将基于多数据流的斜度统计值来监控异常情况。●本文实现了一套名为DiCAS的网络数据流异常检测系统,它结合上海电信骨干网上的数据流量监测需求,实现了对多数据流量的在线监测。DiCAS系统采用降维分析算法对SNMP数据流进行分析,通过监测网络链路上不同流量数据的相关性变化来发现异常流量。模拟实验和在真实环境中的应用表明,DiCAS系统能够满足骨干网流量监测应用的需要,并且极大地提高了监测系统的实效性。综上所述,本文设计了若干种异常检测和聚类分析算法,并且将数据流模型与不确定数据类型相结合,是对现有数据流挖掘技术的有益补充和改进。理论分析和实验结果均表明本文算法能够高效地解决相应问题,与现有数据流处理方法相比,本文算法在存储空间开销、挖掘处理速度以及结果准确性上都具有优势。