【摘 要】
:
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模
论文部分内容阅读
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。
其他文献
秘密共享是门限密码学的基础。门限秘密共享的主要思想是将一个秘密分割成若干子秘密分散存储于多个成员,当需要重构秘密或使用它进行某种密码运算时,必须多于特定数量(门限
目前嵌入式系统已经广泛应用在航天、航空、工业机器人、系统控制等领域,然而,海量数据处理对嵌入式计算系统提出了更高的要求。为了开发更高性能的嵌入式系统,并行计算成为提高
当今数字化时代,对于企业的运作发展,信息技术扮演着越来越重要的角色,软件系统的破坏和数据资料的损毁将对企业造成难以估量的损失。而很多灾难事件又无法预计和避免,如雪灾、恐
随着无线通信技术和多媒体技术的飞速发展和日益成熟,无线分布式环境下视频应用的需求变得日益迫切。具有高复杂度编码器的传统混合编码技术已经不再适用于这种应用环境,迫切
密文数据库检索方法是数据库加密技术研究的难点和重点。目前,对密文数据库检索方法的研究还处于起步阶段,各方面的技术还不成熟,存在一定的缺陷。本文对密文数据库检索方法
随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有
潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的
随着Internet的日益普及,人们的信息资源变得丰富起来,如何在众多的资源中快速、准确的定位到合适的信息,是一个十分棘手、也是必须解决的问题。Web搜索引擎在很大程度上缓解了
唇读(Lipreading)研究试图赋予计算机根据唇部运动辨别说话内容和根据唇部运动规律辨别人物身份的能力。该研究具有重要的科学意义和应用价值。从学科建设和发展的角度,唇读
如何提高基于内容的图像检索(Content-based Image Retrieval)系统的检索结果,这一直是基于内容图像检索的关键问题和最终目的。为了实现这一目标,已经有大量的底层特征提取