基于Bloom Filter技术的若干数据流处理算法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tony569257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流模型的出现对数据的管理与分析提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质是对数据流的管理和分析。因此,必须进行数据流管理与分析新技术的研究,并且已经成为当前的一个研究热点。典型的数据流管理与分析包括数据流采集与预处理、数据的特征抽取、数据聚集等基本连续查询的分析与执行、相关性检测或预测与分类等复杂的分析操作。研究数据流相关技术不仅有重要的学术价值,而且在传感器网络、气象监测与分析、移动物体位置跟踪、股票分析、邮件过滤、网络监控与安全等领域有着巨大的应用前景。本文对数据流在线分析的若干关键问题进行了深入探索,主要有以下内容: (1)致力于滑动窗口上副本检测的研究,提出了一个基于计数型Bloom Filter的新的数据概要—Decaying Bloom Filter(DBF)和一个有效的概要动态更新算法。DBF能够通过保存元素的剩余寿命值来维护窗口的移动,即,删除过期的元素来保存新到达的元素。为了提高概要的更新的速度和降低存储空间,我们在更新算法中引入了分块和延迟技术,已知空间G比特位和滑动窗口大小W,DBF更新的平均时间复杂度为O(开方G/W)。通过深入分析指出该方法只存在误是错误而没有误否错误以及误是错误概率的最小上界。 (2)致力于数据流历史数据的近似聚集查询的研究;基于Bloom Filter提出了新的概要存储模型Multi-Bloom Filters(MBF)。MBF能够有效地支持时间范围内的历史数据元素的成员关系查询和频率查询,同时,MBF具有很大的灵活性,它能够支持对较新的历史数据细的时间粒度的查询;而且可以通过对较久远的MBF压缩以节约存储空间,同时能够支持相对较近的数据粗的时间粒度的查询。 (3)数据流中任意子集的副本无效并且时间衰减的和是一个用于分布式流下的各种分析的重要聚集。我们致力于此问题并引入了新的解决方法,该方法不仅能够检测数据流中副本而且能够根据用户定义的衰减函数来动态维持数据流中不同元素的衰减权值。另外当查询数据流的任意子集的衰减的和时,能够返回一个具有误差保证的估计值。 综上所述,本文针对数据流现有在线分析中存在的三类问题,分别提出了从问题定义、概要数据结构到具体算法的完整方案。理论分析和实验结果表明,与已有的研究成果相比,本文给出的解决方法具有较高的精度和较低的时间、空间复杂度,更加适用于数据流的应用场景。
其他文献
可扩展标记语言(XML)是由W3C设计并推荐的新一代标记语言。XML因其优良的可扩展性、互操作性、可靠性和简便性,已在电子商务领域得到了日益广泛的应用,逐渐代替传统的HTML,促
无线信道有着不同于有线信道的特性,因此需要特别设计专门的无线介质访问控制(MAC)协议以避免无线网络中的信号冲突,并为无线网络用户提供高质量的数据传输服务。无线MAC协议的
万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年开始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统
随着互联网的普及和企业办公自动化,工作流技术已得到快速发展。工作流管理用于处理复杂事务,实现流程的自动化,工作流引擎作为核心部件控制并实现业务流程各个环节间的调度。为
互联网飞速发展,中文信息处理在获取有价值信息方面起到不可替代的作用,而中文分词在中文信息处理的过程中重中之重,又在信息检索、智能输入、自动摘要、中外文翻译文等各个领域
随着数据库技术和网络技术的发展,分布式数据库系统不仅在理论上日趋成熟,而且在网格计算、Internet应用、数据仓库等方面得到越来越广泛深入的应用。由于分布式数据库具有地
网格技术能够将分散在网络上的各种资源进行有机的整合,形成一个统一的整体,为用户提供强大的计算能力和信息服务,被认为是继Internet之后一次重大的科技进步。网格中的资源
随着网络应用对数据库的访问量日益增大,数据库管理系统(DBMS)受到了越来越多的关注。自主计算的研究解决了数据库管理系统内部资源管理的问题,但是无法解决外部负载的管理问
粗糙集理论是一种有效的处理不精确、不一致、不完备等不确定信息的数学理论。用确定的方法处理不确定知识,不需要先验知识,可完全从数据或经验中获取知识,在机器学习、数据
移动自组网(Mobile Ad-hoc NETworks,MANETs)是一种没有基础设施支持的无线网络,具有多跳、无中心、自组织、可移动等特点,使得移动自组网组网方便、快捷,不受时间和空间限制