论文部分内容阅读
信息检索(Information Retrieval, IR)是从数据集中提取相关文档和信息的过程。Internet的出现为人们提供了一种新的信息检索方式,也把信息检索的处理数据从结构化逐步转向半结构化、乃至无结构化。随着Web文本的不断增加,传统的Web检索技术已经很难满足高质量的查询需求。本文的主要内容是研究基于Web的文本信息检索算法。首先,本文介绍了信息检索技术的发展概况,并对基于关键字和基于超链接的检索算法进行了比较和分析。针对关键字检索的查全率不高、链接分析检索方法容易产生主题漂移等缺点,本文将这两种算法相结合,通过页面之间的链接关系来计算每个页面的hub值和authority值,并利用页面链接的锚文本和页面的文档内容与用户查询式进行相似度匹配,获取每个页面的相关度权值,同时在此基础上将检索结果进行排序输出。其次,针对Web信息检索的特点,通过分析传统向量空间模型(Vector Space Model,VSM)在Web检索中存在的若干问题,对传统向量空间模型进行改进,提出了结构化向量空间模型(Structured Vector Space Model, SVSM),其基本思想是将Web文档表达为具有一定逻辑结构的复杂向量,即结构化向量组。每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对独立的文本段,比如标题、子标题、正文和锚文本等内容。再次,本文对Web信息检索系统中的页面采集器、索引器及相关的原理和技术进行详细地介绍,同时讨论了如何利用页面标记树对网页内容进行去噪处理和主题提取的方法,并给出了一种提高页面索引质量、效率和压缩比的实现途径。最后,本文在已有信息检索算法的基础上,通过结构化向量空间模型,把关键字与超链接检索算法相结合,设计并且实现了一个基于Web的中文信息检索系统。通过参加2007年度全国搜索引擎和Web挖掘评测会议(SEWM2007),证明了该系统的检索算法能够有效地提高Web信息检索的查全率和查准率。