【摘 要】
:
随着 Internet 技术的迅猛发展,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等日趋明显,针对以上情况,主题搜索引擎悄然出现。主题爬虫作为主题搜索引擎的核
论文部分内容阅读
随着 Internet 技术的迅猛发展,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等日趋明显,针对以上情况,主题搜索引擎悄然出现。主题爬虫作为主题搜索引擎的核心部分,负责抓取用户感兴趣的与某一主题相关的网页,对网络带宽利用率以及搜索效率都有着重要的影响,因此主题爬虫的研究具有重要的意义。
文章对基于Web链接的HITS算法进行了深入研究,HITS算法基于纯链接分析而忽略了对网页内容的分析,因此容易发生“主题偏移”问题。针对 HITS 算法这一缺点,对传统的 HITS 算法进行了改进,提出了一种结合网页内容和链接结构的综合性搜索策略——W-HITS算法。该算法主要在以下方面进行了改进:
(1)去除无效的链接,忽略同一站点的内部链接,给文档作者赋予平等的影响权重,从而使主题选取的结果更加合理客观。
(2)针对传统 VSM 模型中的对全文中所有位置的关键词都采用同样的权重计算法进行了改进,采用了不同位置的关键词采用不同的权重计算方法。
(3)通过对网页内容与查询主题相关度分析,给相应节点赋予主题相关度权值,并通过不断地迭代计算,确保具有较高主题相关度的节点获得较高的权威值。
通过实验验证得到了以下的结论:改进后的算法—W-HITS算法与传统的HITS算法相比,在查全率和查准率方面都有所提高,其在一定程度上抑制了“主题漂移”问题。
其他文献
云资源调度作为云计算领域的一项重要研究内容,对云计算调度系统的性能和用户服务质量具有重要影响,其调度主要分为两个层次:一是虚拟机到物理机的映射调度;二是任务到虚拟机资源
随着多域机电系统复杂性的日益增加,系统层设计已成为机电产品开发过程中不可或缺的环节之一。在系统设计过程中,初步设计方案的生成是其核心问题,即将已知的系统功能元映射到相应的组件层,以实现功能元到组件的自动化匹配映射。目前虽然已有一些对其理论、方法的相关研究,但这些研究大多停留在理论阶段,尚无切实有效的设计工具来支持实现概念设计过程的自动化实现。本文提出了一套较完整的设计思路,自动化地实现了概念设计中
移动互联网时代,网络以其无可比拟的传播速度,成为越来越多人表达诉求、宣泄情感和评论时政的重要途径。同时,与现实生活紧密相关的热点和敏感话题往往由网络引发,进而传输和
随着现代计算机技术和通信技术的迅猛发展,互联网的应用已经成为人们生活中不可或缺的一部分,目前传统网络采用的主流技术包括IP网、ATM网、MPLS等类型,然而以上技术由于其设计
随着互联网技术的不断发展和网络的大规模普及,Web服务越来越成为重要的媒介手段,如何对海量的Web服务进行发布和发现是当前Web服务要解决的关键问题。当前应用于Web服务发现
随着计算机技术的进步和软件规模的不断扩大,各种网络应用系统对于安全高效的访问控制策略,提出了越来越高的要求。传统的基于角色的访问控制模型受限于当时的技术水平,没有
在计算机网络的发展过程中,由于网络技术的不断改进,运营商可能会在不同时期建立了几套不同的网络以提供给客户最优秀的网络服务。但在目前以太网技术大行其道的情况下,绝大
模糊限制语是一种广泛使用的指示词,用来指示使用者模糊的、不确定的观点或表述(即模糊限制信息)。在自然语言处理研究中,模糊限制信息的识别对多类信息抽取任务有十分重要的
计算机动画是计算机图形学和艺术相结合发展起来的高新技术,它主要利用数学、艺术、计算机科学和其它相关知识,在计算机上产生自然连续虚拟真实画面,使个人想象力和艺术才能
社交网络在给用户带来便利的同时,也存在个人隐私泄露的严重风险。论文结合课题组所承担的重大科技专项,研究社交网络隐私保护技术,具有重要的研究意义和应用价值。论文首先