论文部分内容阅读
在数字信息量激增、网络迅猛发展、软硬件价格低廉、人力成本显著上升这几大背景之下,传统文件系统已经很难满足新形势下的数据管理需求,而“高效的数据管理方式”,“高质量的存储服务”以及“存储优化和自治”广受关注。以这三个发展方向为出发点,本文全面介绍了存储管理系统、海量分布式存储技术、以及存储优化方面的一系列相关工作,总结了这些领域的研究现状和发展趋势,同时指出了现有工作的不足之处。结合相关领域的最新成果,针对其不足之处,本文提出拥有一定自治能力的,分布式数据存储和管理系统框架,研究存储管理系统的体系结构,以及查询检索、分布式存储和系统优化等各方面的关键技术。本文首先给出一种基于数据相关的存储数据模型,定义了对象、相关关系等基本概念,提出基于数据相关的浏览和检索模型,并给出数据检索语言,介绍了查询执行过程。在此基础之上,从分布式存储,查询和检索,相关检测和系统优化这三个子系统详细描述了系统体系结构。在分布式存储方面,结合对等存储技术和对象存储技术,提出一种基于容器的分布式对象存储系统。首先给出基于容器的存储模型,模型以容器作为数据定位和复制的最小单元,把存储空间管理、数据块分配等底层功能交由容器负责,减少系统维护代价,提高系统可伸缩性。介绍了模型中对象、容器、对象池等基本概念,并描述了集群体系架构。接下来介绍了系统的运行时元数据,提出基于对等覆盖网络的自组织元数据维护和容错方案。最后提出了基于动态主本的容器复制技术,给出了基于容器状态的对象访问,以及复本一致性保障和恢复算法。图最短距离索引是存储管理系统查询和检索的核心数据结构之一,然而已有索引方法或者创建时间过长,或者查询效率不足。针对以上不足,创新地提出了具有常数查询时间的索引DIX-C和基于两跳覆盖的索引DIX-2HC,及其无向图变种,并在图索引的基础之上,研究了基于区间编码的相关连接算法。首先,在介绍了一些基本概念和重要数据结构之后,给出并证明了最短距离计算公式。接下来,详细介绍了关键数据结构的计算算法,并描述了各种索引的创建和查询算法。然后,利用距离索引和区间编码,提出了基于树编码的相关连接算法。最后,通过大量实验考察了索引创建性能、查询性能和空间代价,以及相关连接的性能,实验结果表明DIX-C和DIX-2HC算法具有相当的性能优势,相关连接的效率较高。在访问相关检测和系统优化方面,一方面,现有相关检测算法通常依赖支持度保证算法性能,这势必造成大量有价值的访问相关被遗漏,另一方面,现有算法无法检测跨服务器的访问相关,而且性能不足以应用到分布式系统中。针对以上不足,创新性地提出了一系列无支持限制的访问相关挖掘算法,这些算法把相关度(置信度)作为访问相关的主要衡量标准,能够检测支持度较低但是相关度较高的访问相关。首先,给出访问相关的定义和衡量标准。之后,描述了无支持度限制单机挖掘算法HCM和VCM。然后,我们提出了基于k最小随机向量和哈希指纹连接的分布式并行挖掘算法PFC-Miner,实验结果说明本文提出的挖掘算法具有较好的性能和实用性,挖掘出来的访问相关能够大大提高缓存命中率。在内容相关检测和系统优化方面,针对存储系统的关键词匮乏问题,提出一种基于高相似副本的文件关键词自动提取方法PAKE。通过构建一个关键词覆盖网络KON,PAKE从高相似文件副本处提取更多关键词。通过大量实验证明了,相比已有基于相同副本的方法,PAKE更能充分利用资源的冗余性,它能够有效地提高查询准确率、查全率。