论文部分内容阅读
目前随着互联网规模的增长,搜索引擎是从互联网获取信息的重要工具,然而在高速的发展中,搜索引擎也存在着不足.据估计垃圾网页可能占到中国总网页数量的50%左右,虽然总比例在不断下降,但是垃圾网页的绝对数还在持续增加.垃圾网页泛指一切不是真为访客提供有价值内容或者信息为目的,而以欺骗搜索引擎、骗取点击获得利益的网页,主要指依靠采集工具大量复制抄袭其他网站内容的网页.由于垃圾网页的存在,它们并不考虑自己网页的真正质量,而通过各种各样的方法来让自己的网页获得更高的排名,严重影响广大的用户在互联网上的搜索体验,浪费了用户的有效时间,大大降低了搜索引擎公司的信誉.因此,在互联网中如何区分垃圾网页和高质量网页以及找出存在的垃圾网页是信息技术急需解决的问题.本文工作主要针对垃圾网页的排序算法展开.目前主流搜索引擎的基本算法是PageRank算法,在PageRank算法中,网页的Pr值被平均地分配到它所指向的网页,垃圾网页也可获得同样的Pr值,使得互联网无法有效区分网页质量.因此,需要研究好的改进方法来判断或剔除垃圾网页.本文针对垃圾网页的过滤算法进行了较深入的探索,主要工作如下:1.为了提高搜索结果质量,必须剔除垃圾网页的影响,而PageRank算法很容易受到Web spam的干扰,使搜索结果精度降低,深入分析了 Web spam技术的不足,提出了一种检测垃圾网页的算法.首先生成HTML标签树,然后深度优先遍历HTML标签树,取出第一个数据域的内容,判断是否使用了 Spaming技术,如果使用则判定为垃圾页面.如果是隐藏Cloaking所使用的标签(Meta域),则取出第二个数据域的内容与后面对应标签的第二个数据域部分比较,如果不相符则判定为垃圾页面.如果是页面重定向所使用的标签,则取出第一个数据域部分内容,如符合非法重定向标准,则判定为垃圾页面.2.提出了一种改进的PageRank算法,该算法通过降低垃圾页面的权值,以避免改进前垃圾页面的Pr值平均分配的不足,从而使最后搜索结果排序不公平现象出现,让垃圾页面在链接的过程中传递较小的Pr值.将改进的算法用于搜索引擎的搜索,并进行了小规模模拟测试,测试结果证明了改进算法对垃圾网页过滤的有效性.