论文部分内容阅读
在Internet上充斥着海量的信息,这些信息一方面为人们的生活提供了方便和帮助,另一方面也使得人们淹没在信息的海洋中而无所适从,无法有效地获取有用的信息。为了解决这些问题,数据挖掘和信息检索技术应运而生。尽管以往的研究人员在Web数据挖掘和信息检索领域取得了丰硕的成果,为用户提供了巨大的方便,但现有的技术仍然存在着不足,例如:XML格式文档的查询及Web信息检索导航等方面存在着不能很好满足用户需求的问题。
针对这些问题,本文首先介绍了数据挖掘和文本挖掘、Web数据挖掘和信息检索、XML文档及其查询的相关概念和技术,并将研究重点放在XML文档查询和Web文档检索导航上。在XML文档查询方面,针对关键词查询和半结构查询,分别提出了有效的索引结构和查询算法。介绍了LCA(LowestCommonAncestor)的概念并将其扩展到PLCA(LCAofLabelPath),提出了PLCA规则用于有效地判断XML文档节点间的语义相关性,利用XML文档模式与实体的概念进一步提高查询的准确率;提出了PN倒排索引和PE索引,并基于此设计了XML文档关键词查询算法和半结构查询算法。对于本文提出的各种算法,作了充分全面的实验,用于验证结果和比较其性能。
在Web文档检索导航方面,本文提出了在文献中挖掘最大序列频繁词组作为文献的特征,从而为用户提供辅助的Web文档检索结构;根据特征之间的层次关系建立扩展的特征层次树,依据树中特征与文献的关系推导出文献之间的关系,从而使用户在查询时根据上述关系,借助于搜索引擎尽快地获得所需的文献。在系统实现时,我们设计了基于Web文档特征层次结构的三种检索导航方式,并实现了一个原型系统将这三种导航方式有机地结合在一起,以简洁有效的方式为用户的检索过程提供帮助。