Web链接结构挖掘中HITS算支的分析与改进

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:xiaobaihuo197992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet/Web 技术的快速普及和迅猛发展,它为人们提供了丰富的信息资源的同时,其所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给Web 资源的发掘造成了相当的难度。因此,将数据挖掘技术和Web 结合起来,进行Web 数据挖掘也就随之成为解决Web 挖掘问题的重要途径。   在传统的信息检索技术己经成熟的现状下,从Web 数据本身的特点出发,充分地挖掘Web 上庞大的超链接资源,通过超链接进行搜索,建立有效的Web 信息检索模型,从而找到需要的信息。但传统的基于超链接的网页搜索排序算法是纯粹地基于链接分析(即Web 结构挖掘)来发现权威网页,没有考虑网页的具体内容,存在所谓的“主题漂移”问题,即算法的结果往往包含这样一些网页,它们相互链接密度较高,但在内容上却偏离了查询主题。   本文通过对经典的Web 结构挖掘算法HITS算法的研究学习,针对HITS算法中只考虑Web 页面之间的超链接分析而忽略了Web 页面的内容,从而导致分析结果出现“主题偏移”和主题之间的多重加强关系等不足,提出了一种结合超链接分析和内容相关性分析的关于HITS算法的改进算法——G-HITS算法,该算法通过对不同Web 页面进行内容分析并赋予链接之间不同的权重来实现对HITS算法的改进,一定程度上改善了HITS算法的不足,更好的实现了权威网页的查找。最后通过实验证明G-HITS算法的有效性。
其他文献
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成
随着自动化测试技术的发展,自动化测试技术应用到越来越多的软件测试中,如何将自动化测试技术应用到数据库管理系统功能测试成为一个新课题。可扩展标记语言(XML)以其自身的
目前,图像信息的处理、存储和传输在社会生活中的作用已越来越突出,人们对图像信息的需求也越来越迫切。尽管数码相机和扫描仪传感器的分辨率不断增加,但是新的应用将永远需
随着信息技术的不断发展,企业的信息化管理水平在不断提高。作为一种对员工进行考核和评价的方式,传统的纸质考试已经不能满足信息化管理的需求。越来越多的企事业单位开始使
随着人民生活水平的提高,用电户的不断增加使供电部门抄表工作量大幅增长。传统的人工抄表由于存在诸多弊端已经越来越不能适应现代化管理的需要。自动抄表系统因其效率高、差
生物信息学是由生物学、应用数学、计算机科学相互交叉所形成的学科,而数据挖掘作为一个崭新的计算机应用领域在生物信息学中有着广泛的应用。空间环境生物信息学数据的分析
经典粗糙集理论是上世纪八十年代初由波兰数学家Pawlak[1]首先提出的一种处理不确定性的数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理
随着计算机科学技术和信息技术的发展,中医药学也顺应潮流逐渐实现信息化和现代化。其中,中医症状-证型的辩证分类技术获得广泛关注并取得相应发展,是当前中医药领域主要的研
系统复杂性继续按照摩尔定律增加,而功能复杂性的增加速度则更加迅猛。为解决复杂性增加的问题,EDA行业提出了通过自动化来实现设计抽象(Design Abstraction)的概念。由于设
网络已经发展成为人们生活的重要部分,网络上存储的信息是海量的,而且处于不断变化中。网络用户期望得到个性化的服务,网络服务端需要为其推出个性化服务提供决策参考,用户兴