【摘 要】
:
随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互联网信息,用户如何可以快速、准确并且全面地查找到自己所需要的信息已经成为一个非常重要的问题
论文部分内容阅读
随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互联网信息,用户如何可以快速、准确并且全面地查找到自己所需要的信息已经成为一个非常重要的问题。传统的通用搜索引擎面对这一问题已经越来越力不从心,因为一味追求高覆盖率而造成了资源浪费,并且返回给用户的查询结果中经常包含用户不关心的网页。针对这些问题,垂直搜索引擎应运而生,它只收集与用户关心的主题相关的网页。主题爬虫是垂直搜索引擎的重要组成部分,它负责分析网页是否与主题相关和具体的抓取过程。
主题爬虫有两个重要问题:如何判断一个待爬取网页是否与主题相关以及如何调度URL。针对这两个问题,本文在国内外相关研究的基础上,分别提出了一种解决方案:
传统的基于内容评价的URL分析模型虽然准确率较高,但是效率较低,而且可能给予质量不高的网页较高的得分,而基于链接评价的URL分析模型却完全忽略了网页内容,容易造成“主题漂移”问题。本文将两者有机地结合在一起,并引入用户查询来修正主题描述,设计了一种内容评价与链接评价相结合的URL分析模型,通过实验证明了该模型在准确率等性能上的提高。
现有的爬虫URL调度技术都存在着一定的问题,如易形成控制节点瓶颈、URL分配不均衡等。本文针对这些问题设计了一种面向多节点并行爬取的URL调度方案。该方案采用扩展bloom filter模型进行URL去重,采用一致性哈希进行URL分配,采用UDT协议进行URL批量传输。最后将这种方案应用于主题爬虫中,通过实验证明了该方案负载比较均衡,并且可以有效过滤重复的URL。
其他文献
随着汽车数量的日益增加,交通密度的大幅提高,交通紧张、拥挤问题越来越成为城市发展面临的难题。智能交通系统由于其在缓解交通拥挤,提高交通效率方面作用显著,越来越受到人
随着电力营销管理改革的不断深化,传统的电能计量装置检定管理模式已经不能适应新的要求。电能计量检定质量直接影响电能贸易结算的公平、公正和准确,必须引入质量监督机制,规范计量检定行为。本文将多媒体技术、工作流管理技术和业务流程重构(BPR )技术相结合管理电能计量企业的各种流程,实现企业管理流程的自动化。根据电能计量企业的业务流程特点,将系统抽象为几个子系统,并嵌入流程管理,构建可动态重构的业务流模式
随着实时嵌入式系统应用范围的不断扩大,系统复杂性不断提高,由此引发的软件失效现象使软件老化成为研究人员不得不面对的重要问题。了解导致软件衰老的原因并采取相应的自恢
目标识别、场景分析是图像理解的重要内容。如何构建一种通用有效的反馈的框架,适用于多类别目标场景图像分析,是计算机视觉领域的研究难点。本文以图像中有何种目标、目标间
成像技术能够全面而精确地获得病人的各种定量定性数据,为诊断、治疗计划、手术和术后评估提供正确的数字信息。其中,超声影像学技术以其价格低廉、对组织无损伤、实时等优点
本论文依托于四川省青年创新基金课题《视频图像中的目标检测与识别技术研究》以及四川资阳精工砖机厂与笔者所在的实验室合作开发的窑砖卸垛机器人项目立题,主要研究窑砖卸
近年来C语言编程题的自动评判没有较好的解决办法,编程题的阅卷往往采用一种单凭输出结果给定成绩这种方法虽然简便,但不科学,完全忽略了考生的源代码,有些基于源代码的自动
嵌入式系统高速发展,集成电路工艺已经无法满足人们的需求,我们逐渐进入了SoC时代。随着嵌入式系统设计复杂度的逐步提高,传统的嵌入式系统设计方法的错误定位难,开发周期长
由于计算机和通信技术的发展,使得互联网成为信息传递和展现的重要媒介。网络不仅在慢慢的改变着人类的工作和生活方式,而且对经济和文化也产生了巨大的影响。然而,便捷的背
入侵检测技术是网络安全领域中不可或缺的一项重要技术。在主干网络中,入侵检测对所有的数据包逐一进行分析是不切实际的,必然导致检测的滞后,难以达到实时性的要求。目前理