论文部分内容阅读
Web2.0时代的来临,向人们呈现了一个丰富多彩的英特网,同时也掀开了信息爆炸时代的序幕。海量数据的涌现不仅为英特网带来了无限可能,更对传统数据索引结构乃至整个计算机产业带来了巨大的挑战。伴随着对信息使用的深入,人们对通过更快、更有效的海量数据索引系统,充分利用海量信息的渴求日益强烈。本文试图通过对现有海量数据环境下磁盘索引系统的综合分析与研究,对设计并实现一种切实有效的海量数据索引方案进行尝试。 从B树这一传统索引系统的主要存储结构的分析人手,本文详细描述了其面对海量数据索引任务失效的原因,并以此为依据,讨论了LSM树和CO模型这两大主流海量数据索引方案在减少磁盘seek操作方面所做的努力。基于已有的分析结果,本文将LSM树方案配合以分治策略进行改进,以减小系统磁盘seek操作为具体目标,设计出了一种称为JBc-LSM的具体模型。同时充分利用计算机存储器层次结构理论,设计出了一种基于内存完成构建与更新的高密度磁盘索引结构Bc树,用以满足JBc-LSM的具体需求。 通过将Bc树配合以高效的内存索引结构数字树,本文具体实现了一个基于JBc-LSM的海量数据索引系统,并针对海量数据索引任务中最常见的系统建立、系统索引和系统更新三种操作,模拟现实环境,设计相应的实验,对JBc-LSM进行具体性能评估,同时对主流方案进行相同的实验实现性能对比。实验结果表明,在这三种常见操作任务中,相比于几种具体的主流方案实现,JBc-LSM在读写性能均获得一定的提升。在对实验结果的分析基础上,本文进一步讨论了产生结果的原因以及进一步扩展、提升JBc-LSM的可能性与有效性。