基于布隆过滤器的海量数据查询技术的优化与应用

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:anlyok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术、数据库和数据仓库技术等的飞速发展,每时每刻都会有海量的数据产生,对于这些数据的采集、清洗、存储、查询等一系列问题得到了越来越多学者和公司的重视,由此一些数据处理系统,如海量数据查询系统也就产生出来。在这个系统中,查找就是确定一个具有特定值的元素是不是一个特定集合的成员。分布式环境下,随着数据量的增加,为保证系统性能,元素的表示、查找方法常常需要从空间存储、查找效率及准确性等方面来进行考虑。本文基于一个用户行为数据分析的案例,搭建海量用户行为数据查询系统来进行分析与说明。首先对海量数据查询系统进行了需求分析,为获得清晰的数据血缘关系、减少重复开发,从理论上对系统数据仓库进行了分层,对每一层的特点及功能进行了分析,针对每一层的数据流向,设计并实现了原始数据接入模块、原始数据提取模块、付费用户筛选模块等。在整个系统之中,对输入的原始数据进行了采集清洗存储后,在筛选与付费用户筛选模块中,需要在海量数据中判断某账号是否属于付费用户的数据集,布隆过滤器算法提供了一种快速、有效的实现方法。首先简述了直接使用Hive来级联查询的方案,其操作简洁,但解析HiveQL,调用MapReduce程序的过程耗时较长,然后提出使用MongoDB内存数据库存储付费用户的解决方案,其搜索效率很高;如果使用分布式缓存的方法,把付费用户通过合适的数据结构读入内存,这时需要一对一存取,将不同的数据结构HashSet与布隆过滤器算法的时间复杂度、空间复杂度进行了对比,通过分析及实验知,布隆过滤器占用少量的存储开销、查找时间复杂度为常数,解决本类问题极为合适,针对其可能产生的错误数据(“假阳性”)提出消除方案,并进行了实验验证。
其他文献
针对目前复杂装备测试性评估中的小子样问题,在对经典评估方法和传统Bayes评估方法进行分析的基础上,提出了一种基于多源信息融合的测试性评估方法。该方法综合考虑了多源信
文章以序列间距为乘子,建立了非等间距GM(1,1)模型;根据一次累加序列的观测值与模拟值的残差平方和最小的条件,构建了非等间距GM(1,1)模型的时间响应函数的优化模型。实例计算表明,该模
对含预制裂纹的2A12铝合金板进行搅拌摩擦修复试验,并对修复后的试样进行热处理。对修复试样与修复后热处理试样分别进行疲劳寿命与裂纹扩展试验,研究其疲劳性能的变化。结果
子宫作为女性生殖系统的重要器官之一,备受广大女性朋友们的关注与爱护,一旦出现腹痛、不规则阴道流血等症状,就会紧张不安。妇科门诊就诊的患者中,超过一半都和子宫有关,其中子宫内膜增厚就是一个比较常见的问题。  子宫腔内覆盖的黏膜称为子宫内膜,内膜分为功能层和基底层。正常子宫内膜厚度在5~12毫米不等,其厚薄会受月经周期卵巢激素分泌的影响而出现周期性变化:在月经初期,随着子宫内膜的脱落,内膜处在最薄的状
增压器作为超高压水射流切割机的"心脏",其运行参数直接决定了整台设备的性能.基于牛顿第二定理和水的压缩性公式,建立了不同行程时间段增压器内部的运动微分方程,并通过MATLAB
基于关系流的概念,通过建立企业技术创新系统结构的有向图模型,探讨如何对企业技术创新系统错误进行诊断,包括错误模式的识别、错误源的判定及其定位步骤,旨在为企业技术创新项目
人口老龄化是一把双刃剑,随着人口年龄结构的老化必然对社会经济发展带来一定的冲击,但也会对经济发展提供新动力和新机遇。本文主要从劳动供给、技术进步以及消费需求视角阐
随着人力资源服务外包的普及,很多企业在获得专业化的管理程序和服务的同时也大大缩减了企业的管理成本。然而,人力资源服务外包仍存在很多风险问题。文章在国内外学者对人力