垃圾网页过滤算法及其在搜索引擎中的应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lklolp000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前随着互联网规模的增长,搜索引擎是从互联网获取信息的重要工具,然而在高速的发展中,搜索引擎也存在着不足.据估计垃圾网页可能占到中国总网页数量的50%左右,虽然总比例在不断下降,但是垃圾网页的绝对数还在持续增加.垃圾网页泛指一切不是真为访客提供有价值内容或者信息为目的,而以欺骗搜索引擎、骗取点击获得利益的网页,主要指依靠采集工具大量复制抄袭其他网站内容的网页.由于垃圾网页的存在,它们并不考虑自己网页的真正质量,而通过各种各样的方法来让自己的网页获得更高的排名,严重影响广大的用户在互联网上的搜索体验,浪费了用户的有效时间,大大降低了搜索引擎公司的信誉.因此,在互联网中如何区分垃圾网页和高质量网页以及找出存在的垃圾网页是信息技术急需解决的问题.本文工作主要针对垃圾网页的排序算法展开.目前主流搜索引擎的基本算法是PageRank算法,在PageRank算法中,网页的Pr值被平均地分配到它所指向的网页,垃圾网页也可获得同样的Pr值,使得互联网无法有效区分网页质量.因此,需要研究好的改进方法来判断或剔除垃圾网页.本文针对垃圾网页的过滤算法进行了较深入的探索,主要工作如下:1.为了提高搜索结果质量,必须剔除垃圾网页的影响,而PageRank算法很容易受到Web spam的干扰,使搜索结果精度降低,深入分析了 Web spam技术的不足,提出了一种检测垃圾网页的算法.首先生成HTML标签树,然后深度优先遍历HTML标签树,取出第一个数据域的内容,判断是否使用了 Spaming技术,如果使用则判定为垃圾页面.如果是隐藏Cloaking所使用的标签(Meta域),则取出第二个数据域的内容与后面对应标签的第二个数据域部分比较,如果不相符则判定为垃圾页面.如果是页面重定向所使用的标签,则取出第一个数据域部分内容,如符合非法重定向标准,则判定为垃圾页面.2.提出了一种改进的PageRank算法,该算法通过降低垃圾页面的权值,以避免改进前垃圾页面的Pr值平均分配的不足,从而使最后搜索结果排序不公平现象出现,让垃圾页面在链接的过程中传递较小的Pr值.将改进的算法用于搜索引擎的搜索,并进行了小规模模拟测试,测试结果证明了改进算法对垃圾网页过滤的有效性.
其他文献
科学研究发现,人类视觉系统能够快速并且高效地从复杂的自然环境中发现令人感兴趣的信息。然而,如何通过模拟人类视觉系统来设计视觉显著性检测模型仍是计算机视觉中备受关注
近来年随着并行计算和互联网技术的迅速发展,集群系统开始大量出现,并且由于其性能优越、可扩展性强、成本低廉、可靠性高等特点已逐渐成为高性能计算的主流平台。同时,对于
随着计算机技术的飞速发展,智能系统被广泛的应用于工业生产、国防、航天探索等领域而且变得越来越复杂,呈现出多处理器协同工作的趋势。多处理器上的多类型实时任务调度作为
化学驱是注水开发油藏到中后期的必经阶段,而复合驱则是化学驱技术中使用较多且有成功先例的驱油技术之一。复合驱虽能充分发挥波及和洗油效率的协同作用,但色谱分离效应使规
目的:恶性肿瘤细胞产生的多种生物活性分子,抑制机体的免疫功能,构成肿瘤免疫逃逸的重要机制。灵芝多糖的抗肿瘤作用已被很多实验证实,灵芝多糖可增强细胞免疫和体液免疫。本
金平地块位于金沙江-红河富碱侵入岩带的南段,区内出露的中酸性岩脉主要有正长花岗岩、正长花岗斑岩、细晶正长花岗岩及石英正长斑岩等,呈小岩株、岩脉、岩墙等形态产出,矿物
近年来,遥感技术在矿产勘查和成矿预测方面的应用越来越广泛。运用遥感数据提取蚀变信息可以进行快速的矿体定位,提高找矿效率。东昆仑地区发育典型的石英脉型金矿,热液蚀变
时至今日,癌症仍然是人类最高危的疾病之一。由于基因芯片技术的迅猛发展,海量的癌症基因表达数据能够成功获取并用于研究。利用基因表达数据来分析诊断病症,已成为后基因组
目前我国用于蔬菜生产的温室大棚总面积居世界第一位,但机械化生产水平不高,随着人们生活水平的提高和劳动力的短缺,温室大棚种植对微型机械的需求越来越迫切。现在温室中蔬
信息技术的快速发展,各种类型的多媒体数据以数字化的形式在网络上发表和传播。然而由于网络的不安全性,数字化的多媒体数据很容易受到非法复制、拷贝和篡改。因此,必须对这