Web文档查询与信息检索导航技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:a0126051548
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet上充斥着海量的信息,这些信息一方面为人们的生活提供了方便和帮助,另一方面也使得人们淹没在信息的海洋中而无所适从,无法有效地获取有用的信息。为了解决这些问题,数据挖掘和信息检索技术应运而生。尽管以往的研究人员在Web数据挖掘和信息检索领域取得了丰硕的成果,为用户提供了巨大的方便,但现有的技术仍然存在着不足,例如:XML格式文档的查询及Web信息检索导航等方面存在着不能很好满足用户需求的问题。 针对这些问题,本文首先介绍了数据挖掘和文本挖掘、Web数据挖掘和信息检索、XML文档及其查询的相关概念和技术,并将研究重点放在XML文档查询和Web文档检索导航上。在XML文档查询方面,针对关键词查询和半结构查询,分别提出了有效的索引结构和查询算法。介绍了LCA(LowestCommonAncestor)的概念并将其扩展到PLCA(LCAofLabelPath),提出了PLCA规则用于有效地判断XML文档节点间的语义相关性,利用XML文档模式与实体的概念进一步提高查询的准确率;提出了PN倒排索引和PE索引,并基于此设计了XML文档关键词查询算法和半结构查询算法。对于本文提出的各种算法,作了充分全面的实验,用于验证结果和比较其性能。 在Web文档检索导航方面,本文提出了在文献中挖掘最大序列频繁词组作为文献的特征,从而为用户提供辅助的Web文档检索结构;根据特征之间的层次关系建立扩展的特征层次树,依据树中特征与文献的关系推导出文献之间的关系,从而使用户在查询时根据上述关系,借助于搜索引擎尽快地获得所需的文献。在系统实现时,我们设计了基于Web文档特征层次结构的三种检索导航方式,并实现了一个原型系统将这三种导航方式有机地结合在一起,以简洁有效的方式为用户的检索过程提供帮助。
其他文献
组播技术是一种从单个发送端同时传输数据到多个接收端的有效手段,这个优点使它成为当前网络技术中的研究热点。但伴随着组播应用的发展,它的拥塞控制问题变得也越来越重要,
随着图像科学各基本理论的进展,数字图像处理技术在国民经济各部门得到广泛的应用。数字图像处理技术作为计算机科学的一个重要研究领域正在受到广泛的重视,数字图像处理技术已
随着Web服务技术的发展,Web服务相关标准的完善,支持Web服务的平台的成熟,网络中可以实际应用的Web服务越来越多,基于Web服务的应用技术成为当前电子商务的一个主流技术。然而,现
本文主要围绕着开放源码的入侵检测系统Snort中模式匹配算法展开的一系列的工作。 首先,从Snort系统入手,分析此系统工作的原理,介绍特征分析和协议分析。重点对系统中规则的
论文以数字化图书发展过程中面临的困难——异构电子数据资源给读者的使用带来不便为背景,介绍了目前为了实现电子资源的“一站式”查询,而在电子资源系统集成时所采取的通用解
近年来,传统优化方法在解决复杂实际工程最优化问题时的弊端日益暴露,已无法适应多极值、难建模、多约束的问题需求,群智能优化算法在此背景下提出并因其优点得到快速发展。P
随着城市的快速发展,城市化进程中的安全问题也引起社会的重视,尤其是在智能安防、城市交通、公共安全领域,行人安全越来越重要。因此行人检测成为研究领域的一个热门研究方
在充分研究对外加工贸易企业特点、需求,海关监管的各种工作流程和业务标准,以及对现有物料管理系统进行分析的基础之上,结合目前比较流行的J2EE技术,提出了一种基于J2EE的对
客户关系管理CRM是近年来新兴起的理论,它的实施帮助企业增强了自身的竞争实力。在CRM中,数据挖掘理论有着广泛的应用。本文就是将数据挖掘中的序列模式理论应用到CRM的客户分
出租车作为城市公共交通的重要组成部分,一定程度上满足了公众定制化出行需求。但是,定制出行需求的微观随机性和宏观规律性并存,有限的出租车资源和出行需求的时空分布给车