基于互关联后继树压缩模型的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xtyygydskf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们需要处理的数据飞速增长,大量的数据要进行存储与检索。数据不但占用海量的存储空间,而且对其检索也需花费大量的时间与空间。目前针对文本文件压缩和检索的研究已经受到大家的关注。 文本压缩的主要作用是方便海量数据的存储和传输,所以压缩时间和压缩空间效率(包括压缩过程中的过渡空间与最终压缩空间)是文本压缩研究领域的关注点。同时,如何在全文索引中引入压缩也是当前的研究热潮。基于以上考虑,本文研究了文本压缩模型,并且将其与全文检索结合起来。 本文讨论并比较了现有的流行的文本压缩模型和检索模型,介绍了一种新型的全文数据库的数据模型——互关联后继树(文中简称为工RST),并用此模型来进行文本压缩。互关联后继树是一种集存储、检索、数据挖掘和文本压缩的统一模型,具有广泛的应用前景,目前已得到国家自然科学基金项目的支持。为了实现有效的压缩,本文针对各种不同的需要给出了不同的数据结构。因为互关联后继树具有快速查询、快速原文生成、小膨胀比等优点,基于互关联后继树的文本压缩具有较好的压缩率和压缩时间效率。本文还通过改进互关联后继树的结构,将互关联后继树的全文检索与压缩功能合二为一,进一步减少互关联后继树索引占用的空间,适用于当今呈指数增长的海量非结构化信息的存储和检索。 实验数据表明本文的压缩算法可以与Lzw算法相媲美;在不影响检索速度的前提下,索引压缩能有效地减少膨胀比。本文在讨论各种算法时,配有具体的算法分析和实验结果分析。
其他文献
伴随着计算机技术的迅猛发展和应用的普及,人们对其依赖程度不断增加。由于各种重要数据信息被非法窃取或者篡改的事件时有发生,人们对信息安全的关注度也日益提高。 作为数
协同组编著的提出,是为了支持多个用户在不同的计算机终端同时协同处理共享文档。不同于以往的一致性维护模型,在协同环境下用户期待他人的参与,于是系统并不需要非常严格的序列
自然免疫系统的主要功能是识别生物体内的所有细胞并区分外部有害抗原和自身组织,从而清除病原并保持有机体稳定;而人工免疫系统是以自然免疫系统为原型,利用自然免疫系统各种原
目前信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势,企业信息和数据的集成交换需求越来越强烈。因为数据集成和交换必须解决复杂的数据处理
随着信息技术的发展,传统的模拟电视将逐渐被数字电视所取代,而高清晰数字电视将是未来的发展方向。高清晰数字电视机顶盒作为接收高清晰数字电视的终端设备,配合各种数字或模拟
由波兰的Pawlak教授提出来的经典粗糙集理论,其研究的主要是针对完备的信息系统,且是建立在不可分辨这种等价关系之上的,这种分类对数据的完整性和精确性要求很高。然而当今的数
为了降低企业运行成本,很多医药企业内部以及企业内部与外部建立起了MIS系统,但传统的MIS系统的开发模式将企业业务流程“固化”在软件系统中,如想对业务流程稍做改动,就必须
近年来,数据挖掘己经引起了信息产业界的极大关注,这是快速增长的数据量和相对贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球
随着移动通信业务领域竞争的日趋激烈,电信运营商要想在竞争中立于不败之地,就必须向客户提供满足其需要的高质量的服务,以留住现有客户,同时争取新客户。但在当前激烈的竞争
定性空间推理(Qualitative Spatial Reasoning)是指利用空间理论和人工智能技术对空间对象进行建模、描述和表示,并据此对空间对象间的空间关系进行定性分析和处理的过程,是处