垃圾页面检测及其在垂直搜索引擎中的应用

来源 :燕山大学 | 被引量 : 0次 | 上传用户:liongliong530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有许多不足之处,虽然它是更有针对性的搜索引擎,而且只搜索特定主题的信息,但并不排除一些垃圾页面对它的影响,本课题针对能够抗击垃圾页面的垂直搜索引擎进行研究。首先,为了提高搜索引擎的搜索精度,必须清除垃圾页面对其结果的影响。目前页面隐藏技术广泛应用于各类网页,使搜索精度大大降低,而互联网上HTML文本格式的网页占全部网页的绝大部分。通过研究页面隐藏技术的种种形式,分析页面的HTML源代码,设计一种算法检测这种类型的垃圾页面。其次,研究搜索引擎的页面排序算法PageRank。PageRank是用来计算网页重要性的一种排序算法,是用来衡量一个网站好坏的标准。由于该算法在计算过程中没有考虑垃圾页面对网页排序结果的影响,从而导致最终网页的排序不公平。为了使排序公正,修改了PageRank算法,通过给垃圾页面加不同的权值,使其在计算过程中为垃圾页面及其链接页面传递较低的Pr值。最后,利用Heritrix,Lucene和Nutch等开源工具构造能够抗击垃圾页面的垂直搜索引擎,先从互联网抓取页面,然后进行垃圾页面检测,清除部分垃圾页面再建立索引文件,在页面排序过程中使用改进的PageRank算法,使得排序结果更加公正,然后应用该搜索引擎进行实验,通过对比观察,检验搜索效果。
其他文献
图像数据的数量正以惊人的速度增长,它在给人们带来方便的同时,也面临着如何有效地对这些海量数据进行分析、存储和检索的问题。这篇论文主要针对基于区域的图像检索系统中的相
IPTV业务融合了音频、视频和数据等多种媒体形式,是一项重要的电信增值业务。IMS是下一代网络(NGN)业务平面的核心控制子系统,基于IP多媒体子系统(IMS)的IPTV业务架构有利于
层序地层模拟和碳酸盐岩模拟是近年来发展起来的一项新的盆地模拟技术。本文综合考虑了盆地构造沉降、沉积物压实作用、均衡沉降、海/湖平面变化、物源供给量等因素的影响,利
ITU-T G.723.1是国际电信联盟制定的5.3kbit/s和6.3 kbit/s双速率语音多媒体通信编码标准,分别采用代数码本激励预测(ACELP)算法和多脉冲最大似然量化(MP-MLQ)算法。虽然该标
地球空间是与人类活动密切相关的空间环境,而电场是研究空间天气学和空间环境的一个很重要的参量,它的数值大小及其变化涉及到太阳活动、雷暴活动、地震活动及大气环境污染等。星载电场仪主要用于测量空间电场,它所测量出的电场数据也可用于风、云、雷、雨等现象与电离层电信号的对比研究,提供空间电场的科学数据供人们研究电场规律。本课题根据星载电场仪的任务需求,开展了地面检测设备的研究和设计,解决了星载电场仪硬件调试