基于LSM模型的本地海量数据磁盘索引系统设计与研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:qxff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的来临,向人们呈现了一个丰富多彩的英特网,同时也掀开了信息爆炸时代的序幕。海量数据的涌现不仅为英特网带来了无限可能,更对传统数据索引结构乃至整个计算机产业带来了巨大的挑战。伴随着对信息使用的深入,人们对通过更快、更有效的海量数据索引系统,充分利用海量信息的渴求日益强烈。本文试图通过对现有海量数据环境下磁盘索引系统的综合分析与研究,对设计并实现一种切实有效的海量数据索引方案进行尝试。  从B树这一传统索引系统的主要存储结构的分析人手,本文详细描述了其面对海量数据索引任务失效的原因,并以此为依据,讨论了LSM树和CO模型这两大主流海量数据索引方案在减少磁盘seek操作方面所做的努力。基于已有的分析结果,本文将LSM树方案配合以分治策略进行改进,以减小系统磁盘seek操作为具体目标,设计出了一种称为JBc-LSM的具体模型。同时充分利用计算机存储器层次结构理论,设计出了一种基于内存完成构建与更新的高密度磁盘索引结构Bc树,用以满足JBc-LSM的具体需求。  通过将Bc树配合以高效的内存索引结构数字树,本文具体实现了一个基于JBc-LSM的海量数据索引系统,并针对海量数据索引任务中最常见的系统建立、系统索引和系统更新三种操作,模拟现实环境,设计相应的实验,对JBc-LSM进行具体性能评估,同时对主流方案进行相同的实验实现性能对比。实验结果表明,在这三种常见操作任务中,相比于几种具体的主流方案实现,JBc-LSM在读写性能均获得一定的提升。在对实验结果的分析基础上,本文进一步讨论了产生结果的原因以及进一步扩展、提升JBc-LSM的可能性与有效性。
其他文献
进化算法已经用于逻辑电路设计很多年。相比于传统的逻辑电路设计方法,进化算法有其独特的吸引人之处。使用进化算法设计电路不需要太多专业的背景知识,具有智能化的特点。逻辑
数十年来,计算机体系结构技术一直在不停的演化和发展着,而来自上层的应用需求则是一个重要的驱动来源。随着一些新兴应用的不断出现,传统的高性能通用处理器已经难以发挥其功效
盲签名是一种特殊的数字签名,签名者无法得知待签名消息的内容。盲签名的完全盲性使得签名者对签名消息不可控,并且会导致密钥管理变的复杂。部分盲签名是盲签名的一种拓展,
现如今,WCDMA协议已经成为了两大主流通信体制的一部分并越来越受到人们的关注。而对于无线通信系统来说,呼叫流程能否成功建立是一个很关键的问题,可以称得上是整个通信系统
近些年,信息通信技术取得了飞速发展,消费类电子产品发生了很大的变化,正在朝着互联、互控和互通的方向发展,人们的生活迈入全新的智能时代。智能手机、平板电脑、汽车电子设
为了方便人们的阅读习惯、网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条、相关链接和商业广告等信息。无关信息的存在,对网页的检索、
首先,马太效应或累积优势(CA)在各个领域都被广泛研究。它被认为是造成劳动工资、教育,健康以及职业的不平等因素,甚至很大程度上是影响科学活动如拨款申请、期刊出版、同行的认
在当代人类生活中,选举已经成为每个公民一项必不可少的政治活动。在选举过程中,人民参与政治主要是通过投票来实现的。因此,投票成为民主国家下广泛的政治行为之一。而这载
关键词抽取是自然语言处理中的基础与核心技术。通常对非结构化文本的自动处理,如自动文摘、文本聚类、自动问答等,均需要先进行关键词抽取。关键词是表达文档主题意义的最小单
贝叶斯网络是一种概率图模型,能够高效表示随机变量之间复杂的独立依赖关系;即使在数据不完整的情况下,仍然具备高效的推理能力,因此越来越广泛的用于决策、诊断和复杂系统的控制