论文部分内容阅读
数据流模型的出现对数据的管理与分析提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质是对数据流的管理和分析。因此,必须进行数据流管理与分析新技术的研究,并且已经成为当前的一个研究热点。典型的数据流管理与分析包括数据流采集与预处理、数据的特征抽取、数据聚集等基本连续查询的分析与执行、相关性检测或预测与分类等复杂的分析操作。研究数据流相关技术不仅有重要的学术价值,而且在传感器网络、气象监测与分析、移动物体位置跟踪、股票分析、邮件过滤、网络监控与安全等领域有着巨大的应用前景。本文对数据流在线分析的若干关键问题进行了深入探索,主要有以下内容:
(1)致力于滑动窗口上副本检测的研究,提出了一个基于计数型Bloom Filter的新的数据概要—Decaying Bloom Filter(DBF)和一个有效的概要动态更新算法。DBF能够通过保存元素的剩余寿命值来维护窗口的移动,即,删除过期的元素来保存新到达的元素。为了提高概要的更新的速度和降低存储空间,我们在更新算法中引入了分块和延迟技术,已知空间G比特位和滑动窗口大小W,DBF更新的平均时间复杂度为O(开方G/W)。通过深入分析指出该方法只存在误是错误而没有误否错误以及误是错误概率的最小上界。
(2)致力于数据流历史数据的近似聚集查询的研究;基于Bloom Filter提出了新的概要存储模型Multi-Bloom Filters(MBF)。MBF能够有效地支持时间范围内的历史数据元素的成员关系查询和频率查询,同时,MBF具有很大的灵活性,它能够支持对较新的历史数据细的时间粒度的查询;而且可以通过对较久远的MBF压缩以节约存储空间,同时能够支持相对较近的数据粗的时间粒度的查询。
(3)数据流中任意子集的副本无效并且时间衰减的和是一个用于分布式流下的各种分析的重要聚集。我们致力于此问题并引入了新的解决方法,该方法不仅能够检测数据流中副本而且能够根据用户定义的衰减函数来动态维持数据流中不同元素的衰减权值。另外当查询数据流的任意子集的衰减的和时,能够返回一个具有误差保证的估计值。
综上所述,本文针对数据流现有在线分析中存在的三类问题,分别提出了从问题定义、概要数据结构到具体算法的完整方案。理论分析和实验结果表明,与已有的研究成果相比,本文给出的解决方法具有较高的精度和较低的时间、空间复杂度,更加适用于数据流的应用场景。