数据流聚类分析与异常检测算法

被引量 : 28次 | 上传用户：haidiaiqing

【摘要】

：

数据流作为一种新型的数据模型，在许多应用诸如网络流量管理、金融数据处理、工业监控、交通治理、网站信息的发布和订阅、以及电子商务中都扮演着重要的角色。在数据流挖掘技

【作者】

：

张晨

【发表日期】

：

2009年01期

【关键词】

：

数据流不确定数据聚类分析异常检测检测系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流作为一种新型的数据模型，在许多应用诸如网络流量管理、金融数据处理、工业监控、交通治理、网站信息的发布和订阅、以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天，存在于数据中的不确定性问题和多数流处理问题给研究人员带来了新的挑战：一方面，由于不确定数据流既要求保留数据流的无限，快速等特性，还需要利用有限的系统资源减少不确定性因素对挖掘过程造成的影响；另一方面，多数据流处理技术则要求不仅关注于一条数据流的流量变化，同时还需要根据大量数据流之间的相关性与分布特征进行分析处理，因此我们需要重新研究新的面向多数据流及不确定数据流的挖掘算法。学术界虽然已经对数据流上的聚类分析与异常检测问题进行了广泛的研究，但仍存在许多问题尚待解决。本文主要研究不确定数据流聚类分析算法和多数据流异常趋势检测问题，旨在为现有的数据流系统提供更为多样的聚类分析与异常检测功能。同时，还对每个所提出的技术及其相关工作进行大量、深入的实验分析，实验结果都充分证明了所提出技术的有效性和高效性。本文的主要贡献体现在如下四个方面：●本文提出了一种新的不确定数据流聚类算法(EMicro)，用于在传统的数据流聚类的基础上解决数据不确定性给聚类过程造成的影响。首先它根据概率数据的特点定义了新的聚类标准，使之能兼顾距离与概率双重因素；然后根据新的聚类要求，提出了一种基于概率引力的元组分配策略；最后，为了有效的减少异常点对聚类结果的影响，我们提出了一套缓冲式异常点处理机制。●本文提出了一种基于信息论的概率数据流聚类算法(EnMicro)，用于在信息熵的标准下重新实现聚类过程。首先它基于信息熵的概念定义了元组的不确定性，并通过其来反映数据质量的好坏；然后通过新定义的元组不确定性标准，提出了能够兼顾时间与数据不确定性的混合衰减模型；最后，在新的不确定性标准和混合衰减模型的基础上，提出了一种新的概率数据流聚类算法。●本文提出了一套在多数据流情况下的异常趋势检测方法。首先，针对现有趋势定义的不足之处，引入了一种适合数据流环境下的趋势定义，它的优点在于其较低的时空复杂度；为了在趋势计算过程中选择合适的时间尺度，又提出了一种基于奇异值分解的选择算法，同时给出了一种用于在线调整参数的概要数据结构；最后，当关注重点由单数据流转向多数据流时，我们将基于多数据流的斜度统计值来监控异常情况。●本文实现了一套名为DiCAS的网络数据流异常检测系统，它结合上海电信骨干网上的数据流量监测需求，实现了对多数据流量的在线监测。DiCAS系统采用降维分析算法对SNMP数据流进行分析，通过监测网络链路上不同流量数据的相关性变化来发现异常流量。模拟实验和在真实环境中的应用表明，DiCAS系统能够满足骨干网流量监测应用的需要，并且极大地提高了监测系统的实效性。综上所述，本文设计了若干种异常检测和聚类分析算法，并且将数据流模型与不确定数据类型相结合，是对现有数据流挖掘技术的有益补充和改进。理论分析和实验结果均表明本文算法能够高效地解决相应问题，与现有数据流处理方法相比，本文算法在存储空间开销、挖掘处理速度以及结果准确性上都具有优势。

其他文献

基于双目视觉的运动目标检测跟踪与定位

为克服传统目标检测跟踪方法无法对目标准确定位,以及在复杂环境下容易受光照、阴影等因素干扰的问题,提出了基于双目视觉的目标检测跟踪与定位方法。首先使用Matlab标定工具

期刊

双目视觉目标跟踪立体匹配三维测距

国库集中支付方式下的委托代理问题研究

委托代理关系也存在于行政领域中,在国库集中支付改革过程中体现为财政与代理银行、财政与预算单位和预算单位与内部员工之间的委托代理关系。由于委托人和代理人之间的目标

期刊

国库集中支付委托代理关系人民银行直接支付财政集中管理公务卡

清初官修《明史》与私修明史之间的互动关系

清初史学,颇为繁盛,官、私修史呈现出双流并进的发展趋势,尤其是在明史纂修领域,官方史学与私家史学之间的互动十分显著。一方面,官修《明史》发挥了重要的导向作用,成为激励

期刊

清初官修《明史》私家修史史官遗民史家

论直接言词原则与民事证据制度的完善

直接言词原则是现代民事诉讼的基本原则 ,贯彻直接言词原则有助于实现现代司法的公正和效率价值 ;民事证据制度的完善应以直接言词原则为指导思想 ,为此 ,必须做到强制证人出

期刊

直接言词民事证据完善

虹桥机场西航站楼标识系统设计简介

本文对虹桥机场扩建工程西航站楼的标识设计按"设计思路和原则、设计组成内容"两大部分进行了概括性的回顾,对在设计工作过程中取得的一些成功经验进行了总结,可对相关建设行

会议

虹桥枢纽航站楼标识系统

集群创新网络的内部运行机理及动态演化

20世纪90年代以来,集群创新问题已逐渐成为学术界研究的热点,创新网络更是成为研究的焦点。经济学、管理学、社会学、地理学等领域学者从不同理论视角,对集群创新网络进行了

学位

集群创新网络网络特征张江高科园集成电路产业

隐喻能力培养初探

隐喻的研究已有两千多年的历史。古往今来,众多学者都曾对这种语言现象作过精辟的论述。传统观点将隐喻局限于修辞学领域,将其看作语言的一种修饰性的附加成分。随着认知科学

学位

隐喻隐喻能力外语教学

万能自动镗铣头有限元分析

为满足高速切削的需要,采用有限元法对重要零件进行静力分析,对镗铣头进行模态分析,根据分析结果对镗铣头的结构及尺寸进行优化改进,为获得整机的良好动态性能奠定基础。

期刊

镗铣头有限元分析ANSYS

甲醇一步法制取烃类产品工艺及工程技术开发

介绍了甲醇一步法制取烃类产品技术的国内开发与应用的现状;分析了该工艺技术的反应原理、工艺流程及特点、工艺开车操作要点;讨论了生产中反应器进出口循环气换热器、催化剂

期刊

甲醇一步法烃类产品工艺控制

六足机器人爬楼梯步态规划

楼梯是移动机器人工作环境中最常见的复杂障碍物之一,也是衡量机器人在非结构化环境中推进性能的一项重要指标。因此,分析了国内爬楼梯机器人的研究现状,设计了六足机器人Amp

期刊

六足机器人步态规划稳定裕度

数据流聚类分析与异常检测算法

其他学术论文