木基于链接结构分析的Web页面排序算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangyanmin2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet/Web 技术的快速普及和迅猛发展,Web 上信息总量日益膨胀。如何将用户所需信息从这个信息海洋中找到,并按照相关度从大到小排列并返回给用户变得日益迫切,搜索引擎技术应运而生,基于链接分析的Web 页面排序算法是其中最重要的技术之一。基于链接分析的PageRank 算法是目前应用最广泛的页面排序算法。从数学模型上讲,PageRank 算法可以看做是一个马尔可夫随机游走模型,依据当前网页的链接结构计算页面间的转移概率,页面最终的排序值可以由此马尔可夫链的平稳分布唯一给出。   本文首先通过对经典Web结构挖掘算法HITS和PageRank 算法的研究学习,发现经典PageRank 算法容易出现主题漂移现象,而主题漂移现象是由页面链接的均分赋值引起的。在受HITS排序算法枢纽网页思想和PageRank 算法的实验的启发下,本文重新定义了PageRank 算法的排序函数,使得页面链接权值和链入页面的出度和入度均相关,提出了改进的PageRank 算法,这样就避免了页面链接的均分赋值。实验结果表明了算法的查准率有了显著的提高,p@10和p@50 指标均一致性的超过经典PageRank 算法。   在改进的PageRank 算法的基础上,受经典PageRank 算法排序函数公式的启发,可知页面的排序值受三大因素影响。对于页面间的每条链接,我们定义了链接尾端入度影响因子和链接头端出度影响因子,两个影响因子分别用上述三大因素度量,提出了Hybrid Pagerank 算法。实现了可调阀值的页面排序方法,有效的结合了经典PageRank 算法和改进的PageRank 算法的优点,实验结果验证了算法的有效性。
其他文献
经过二十多年的发展,多目标遗传算法由出现逐渐走向成熟。作为遗传算法的一个重要分支,它不仅在学术上得到广泛的研究,在工程应用领域也受到日益重视。它继承了遗传算法不需要搜
ICMN(Intermittently Connected Mobile Network)泛指端节点间的链路连接时断时续的网络。随着自组织概念的渗入,ICMN主要涉及具有自主组网能力的无线网络。这些网络中,节点
基于内容的视频拷贝检测(Content-Based Video Copy Detection),简称视频拷贝检测(CBCD),是数字视频版权保护与内容管理的重要技术手段之一,逐渐引起国内外学者的关注。本文
随着计算机、网络、通信等多种技术的迅速发展,网络视频监控系统得到越来越广泛的应用,目前已渗透到教育、政府、娱乐场所、医院、酒店、运动场馆、城市治安等多种领域。但现
我国是皮革工业大国,但是目前对皮革的分类仍然主要依靠熟练工人的目视辨别,必然很难保证产品的一致性和稳定性。随着电子技术和计算机技术的发展,采用数字图像处理技术将皮
基于信息技术电子通信网络的高速发展,使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心,向学生提供专业知识、专业素养等全方位的支持。通过
信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于
离群检测是数据挖掘的重要任务之一,它的主要目标是从数据集中发现与大部分其他数据点有显著区别的样本。这些数据点往往蕴含着重要的信息,有很重要的使用价值和广阔的应用前
专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重要。本文在分析国内外现有专
为了获得可靠的、可信的、高质量的服务,对服务实施充分的、完全的测试是至关重要的。总体上看,目前的Web服务测试尚处在初级的阶段,研究人员主要通过传统的技术,在原有的测