论文部分内容阅读
随着信息时代的到来,人们需要处理的数据飞速增长,大量的数据要进行存储与检索。数据不但占用海量的存储空间,而且对其检索也需花费大量的时间与空间。目前针对文本文件压缩和检索的研究已经受到大家的关注。
文本压缩的主要作用是方便海量数据的存储和传输,所以压缩时间和压缩空间效率(包括压缩过程中的过渡空间与最终压缩空间)是文本压缩研究领域的关注点。同时,如何在全文索引中引入压缩也是当前的研究热潮。基于以上考虑,本文研究了文本压缩模型,并且将其与全文检索结合起来。
本文讨论并比较了现有的流行的文本压缩模型和检索模型,介绍了一种新型的全文数据库的数据模型——互关联后继树(文中简称为工RST),并用此模型来进行文本压缩。互关联后继树是一种集存储、检索、数据挖掘和文本压缩的统一模型,具有广泛的应用前景,目前已得到国家自然科学基金项目的支持。为了实现有效的压缩,本文针对各种不同的需要给出了不同的数据结构。因为互关联后继树具有快速查询、快速原文生成、小膨胀比等优点,基于互关联后继树的文本压缩具有较好的压缩率和压缩时间效率。本文还通过改进互关联后继树的结构,将互关联后继树的全文检索与压缩功能合二为一,进一步减少互关联后继树索引占用的空间,适用于当今呈指数增长的海量非结构化信息的存储和检索。
实验数据表明本文的压缩算法可以与Lzw算法相媲美;在不影响检索速度的前提下,索引压缩能有效地减少膨胀比。本文在讨论各种算法时,配有具体的算法分析和实验结果分析。