论文部分内容阅读
搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有许多不足之处,虽然它是更有针对性的搜索引擎,而且只搜索特定主题的信息,但并不排除一些垃圾页面对它的影响,本课题针对能够抗击垃圾页面的垂直搜索引擎进行研究。首先,为了提高搜索引擎的搜索精度,必须清除垃圾页面对其结果的影响。目前页面隐藏技术广泛应用于各类网页,使搜索精度大大降低,而互联网上HTML文本格式的网页占全部网页的绝大部分。通过研究页面隐藏技术的种种形式,分析页面的HTML源代码,设计一种算法检测这种类型的垃圾页面。其次,研究搜索引擎的页面排序算法PageRank。PageRank是用来计算网页重要性的一种排序算法,是用来衡量一个网站好坏的标准。由于该算法在计算过程中没有考虑垃圾页面对网页排序结果的影响,从而导致最终网页的排序不公平。为了使排序公正,修改了PageRank算法,通过给垃圾页面加不同的权值,使其在计算过程中为垃圾页面及其链接页面传递较低的Pr值。最后,利用Heritrix,Lucene和Nutch等开源工具构造能够抗击垃圾页面的垂直搜索引擎,先从互联网抓取页面,然后进行垃圾页面检测,清除部分垃圾页面再建立索引文件,在页面排序过程中使用改进的PageRank算法,使得排序结果更加公正,然后应用该搜索引擎进行实验,通过对比观察,检验搜索效果。