论文部分内容阅读
随着网络技术的发展,Internet已成为人们获取资源和信息交流的主要途径,搜索引擎作为搜寻网络信息的工具,已经渗透到了人们生活的各个领域,但由于种种原因还存在许多不足,并且当使用搜索引擎来检索专业内容时,往往找不到用户需要的内容。针对这种情况,专题搜索引擎应运而生。专题搜索引擎注重具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。目前,国外对专题搜索引擎的研究大都处于试验阶段;国内对专题搜索引擎的研究起步很晚,发展较慢并且数量很少,用户对目前专题搜索引擎的状况满意度不高,其中输出结果的排序对搜索性能的影响很大,因此,对专题搜索结果排序进行理论研究和实践探索具有很大的现实意义,也具有较大的学术和应用价值。专题搜索引擎是“专题”与“搜索引擎”的结合,本文首先系统地分析了通用搜索引擎排序算法,如词频和位置加权排序算法、Direct Hit算法、PageRank算法、Hits算法,指出了它们各自的优势和存在的不足,并探讨了国内外现有的基于PageRank的改进算法,对其进行了归纳和总结,将现有的搜索引擎排序技术的改进思路进行了分析。专业搜索引擎的核心技术之一是相关性算法,本文研究了目前相关度计算模型:布尔模型,向量模型和概率模型,以及它们的优缺点。然后分析了专题对于排序算法的影响。其次,本文引入了查询词在页面中出现的位置、状态和频率,用户反馈信息、链接关系、正文长度、e值选取、迭代公式等因素改进PageRank算法,之后本文提出了主题相关度,从文档分类、主题中各维度赋予不同权值、文档与主题中各类别不同的相关度、友情链接等方面进行改进,再与通用搜索引擎排序的若干因素结合。最后对本文算法改进中所利用的各种因素加以细致入微地测评。专题搜索引擎是一个崭新的领域,其相关的许多技术还在发展,本文的最后对进一步的研究工作进行了探讨。