【摘 要】
:
传统的搜索引擎将网页和链接作为处理单位,对于用户的查询,按照网页与查询的重要程度排序返回给用户,但随着互联网中大量重复网页和作弊链接的存在,使得利用网页排序算法返回
论文部分内容阅读
传统的搜索引擎将网页和链接作为处理单位,对于用户的查询,按照网页与查询的重要程度排序返回给用户,但随着互联网中大量重复网页和作弊链接的存在,使得利用网页排序算法返回给用户的结果越来越无法满足用户的需求。站点作为互联网中更高抽象层次的组成单元,能够展现比网页更全面的信息和信息结构,而且针对站点的作弊行为会更加困难,所以站点排序技术已经成为搜索引擎中一项非常重要的技术。本课题对现有的SiteRank和AggregateRank两种站点排序算法进行研究与分析,总结两种算法的优缺点,针对AggregateRank算法的不足,提出了改进的AggregateRank算法。改进算法引入了语义信息相关性和站点更新频度的改进方法;其中,语义信息相关性通过向量空间模型计算链接文本与网页正文的相关度来调整链接权重;站点更新频度通过计算单位时间内的站点更新规模来调整站点的重要性,可以避免静态大规模站点的作弊行为。为了测试三种站点排序算法的性能和改进方法的效果,设计并实现了一个基于链接分析的站点排序系统,该系统提供了网页链接解析、站点链接解析的功能,建立了链接索引库和链接关系库,能够很好的支持以链接分析为基础的三个站点排序算法。最后,对三种站点排序算法的实验结果利用Kendall距离和Spearman距离进行评价。评价结果表明AggregateRank算法在性能上明显优于SiteRank算法,而改进的AggregateRank算法比AggregateRank算法在性能上提升了3%-10%,这也验证了改进方法的有效性。实现的站点排序系统已经应用于海天园平台中,并取得了很好的预期效果。
其他文献
如何能在保持系统整体性能的同时,有效地进行资源存储和定位,是P2P点播系统中所需要解决的重要问题。在P2P点播系统的服务器、代理服务器以及客户端中,缓存技术在缓解网络传
当前我国的人工智能技术进入快速发展的阶段,其中音频和语音作为智能设备与外界和人类进行交互的重要接口而受到来自于政府、产业界与学术界的广泛关注。国务院提出了人工智能
非真实感绘制(Non-Photorealistic Rendering,NPR)从20世纪90年代中期开始逐渐成为计算机图形学的一个研究热点,是计算机技术和绘画艺术相结合的一个研究领域,指的是利用计算机
随着数字电视的快速发展以及一系列先进的音视频压缩标准的引入,基于多媒体技术的业务迅速走入人们的生活,如IPTV,网络电视等。因此,人们对音频和视频播放效果的关注程度也在
随着Internet和多媒体技术的飞速发展,实时传送视、音频媒体文件的技术成为了热点,同时用户也对视频传输和图像质量有了更高的要求。新一代的视频标准AVS即“数字音视频编解
近年来,随着群体智能[1][2]算法在数据处理分析问题上表现出来的巨大潜力,大批的研究人员投身于其中进行研究。但是这类的群体智能算法往往存在着调节参数过多,所得解不是最
根据锦州电厂动态成本核算与分析系统设计需求,结合发电企业内部信息系统工作协同以及业务集成度亟待改进的现状,本文研究了面向服务架构(SOA)在发电企业应用方案,提出了基于
传统的考试方式需要使用大量的人力物力来印刷、运输试题,效率低、费用高。随着互联网的蓬勃发展,利用计算机网络实现高效、低成本和形式多样的网络考试已成为现代教育的一种
计算密集、耗时长是现代天文数值模拟的主要特点。提高模拟计算的性能,减少计算资源的消耗,在精度和性能之间取得一个最佳的平衡点,一直是天文数值模拟软件设计的关键目标。同时
随着多媒体技术和网络技术的飞速发展和广泛应用,数字多媒体产品的存储、处理和传输变得越来越方便和快捷,多媒体的真实性认证和版权保护问题显得越来越重要。然而,因为多媒