论文部分内容阅读
XML信息检索是在传统信息检索基础上发展起来的,是数据库领域和信息检索领域相结合的一门技术。研究表明,XML文档中的元素链接关系无论对元素的内容,还是结构都会产生重要影响,从而影响XML信息检索的结果。本文主要针对XML文档中的元素链接关系,从XML索引技术、XML信息检索模型和冗余信息削减等方面展开研究。首先,提出了一种面向元素链接的XML索引技术,该索引包含两部分:文档外部链接索引和基于Pseudo Dewey编码的内部元素索引。其中Pseudo Dewey编码是一种基于schema的局部编码方式,每个元素的编码由该元素类型在schema中的位置和元素顺序等信息决定;内部元素索引本身则按照关键字类型、编码的逻辑大小等标准来组织结构。实验表明该索引具有支持元素链接、检索效率高、更新代价低等特点。其次,提出了一种基于图型建模的XML信息检索模型,该模型充分考虑了XML文档中元素链接关系对元素结构的影响;然后根据公共子序列的长度、位置和比重等因素来计算模型中上下文的相关性值,并得出该模型的上下文相关性矩阵;最后通过拓展传统向量空间算法来计算元素与用户检索语句的相关性,从而提高了检索结果的查准率和查全率。最后,建立了一种基于用户检索语句的Markov链用户浏览模型,并结合用户浏览历史记录和元素的上下文信息推导出该模型的转移概率矩阵;然后提出了一种基于结果集最优相关性的冗余信息削减技术及其贪心法优化方案,实验表明该贪心法优化方案时间消耗低,执行效率高,具有很好的实用价值。