基于网页分块的主题爬虫技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wb95879981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息的多元化发展以及信息量的膨胀速度日益加快,不仅存储成本提高,信息采集也变得越来越难。通用爬虫在工作过程中会消耗大量的网络带宽,造成系统资源的浪费。而且它不太关心搜索到的页面是否符合用户的搜索主题,往往会返回很多与用户并不感兴趣的页面。因此,为了提高爬取效率,改善用户体验度,产生了以主题爬虫为核心的垂直搜索引擎。主题爬虫在页面抓取过程中采取启发式搜索策略,通过计算页面与用户搜索主题的相关度,将与用户搜索主题不相关的页面过滤掉,只下载与主题相关的页面存入待访问队列。网上的信息丰富多彩,如何有效的获取并整合主题内容信息以及如何利用爬虫全面准确地下载主题相关网页是面临的关键技术挑战。本文通过研究主题爬虫技术领域已取得的研究成果,主要对网页分块处理以及候选链接搜索策略进行了深入研究。在基于标签信息和视觉信息的分块布局下,提出了引入主题链接块因子的候选链接搜索算法。具体主要工作如下:(1)基于标签属性与视觉信息进行网页分块。利用<table>标签和<div>标签的布局规律,结合CSS样式表和<style>属性中的视觉信息进行分块处理。首先根据网页设计规律制定分类规则,将内容块分为文本块、链接块和无关块三类。然后进行主题文本块提取,先利用标签属性值进行初步过滤,再与基准块进行相似度计算进行进一步过滤,得到最终符合条件的文本。利用主题链接块提取规则进行主题块匹配,过滤噪音链接,获取所需的主题链接块。本文选取的基于标签属性与视觉信息的分块方法在实际应用中易于实现,避免块间大范围盲目匹配,具有较低的时间和空间复杂度。(2)主题爬虫在爬取过程中,需要先计算待爬取链接队列中的链接权重,按照权重大小决定访问顺序。本文在Shark-Search算法的基础上引入主题链接块权重的概念,提出基于主题链接块的改进搜索策略对网页中的URL进行优先级预测。将链接块中所有子链接的锚文本作为链接相关度计算的主要影响因素,在Shark-Search算法的理论基础上,引入主题链接块权重概念,并结合了链接结构的影响。(3)为了保证系统的有效性,首先在不同的阈值下分别实现HITS算法、Shark-Search算法和本文算法,将三种算法的结果进行对比分析。实验数据证明本文系统在多个阈值设置下都优于其他两种算法。然后对三种算法下的查全率和信息量总和进行了详细比较,并针对语义明确的主题和抽象概念的主题漂移率进行了实验分析,结果证明改进系统性能更优秀。
其他文献
学位
企业自备铁路是主干铁路系统的延伸,也是企业与外界物资流通的主要通道。相对于国家主干铁路系统,企业自备铁路具有站场资源分布密集,作业范围小,机车运行周期短等自身特点。企业
网络已经成为人们工作、学习、生活中必不可少的元素之一。近年来,随着网络技术的蓬勃发展,诞生了很多不同特点、不同类型的网络,其中局域网、无线网传感器网络、自组网、个域网
随着计算机和网络技术的迅速发展,网络数据安全形势日益严峻,如何在开放的网络上安全地传输数据,已经成为网络通信领域中面临的一个重点课题。本文基于winsock2SPI和数据链路层
人体传感器网络由于采用了无线的传输方式、对数据的获取方便、节点体积小、成本低、便于携带等优点,在医疗监护、生物医学、体育训练、动作识别等领域具有很广泛的应用前景。
智能交通系统在国内外得到迅速发展,其主要是处理陆地车辆的信息。目前,没有一个综合性的服务平台,将各种出行信息集成在一起。用户获取想要的出行信息,就要访问不同的网站,这样会
随着并行计算机的迅猛发展,越来越多的领域迫切需要提高大规模问题求解的速度,串行程序并行化能够缩短问题求解时间,为了实现快速并行化,本文进行串行程序自动并行化软件的设
近年来,移动通信、定位技术和物联网迅猛发展,在给我们生活带来便利的同时,也产生了规模庞大的时空轨迹数据。这为时空轨迹数据的研究和应用创造了有利条件。但时空轨迹数据在急
随着网络信息资源的急速增长,用户快速且准确地获取所需信息变得十分困难。搜索引擎的出现解决了用户一部分查询的困难,但是目前该工具实现不了根据用户的需求进行推荐的功能
近年来,随着信息化的高速发展,数据量呈爆炸式增长,分布式存储方式被广泛应用,同时数据可用性也得到了极大的重视。在此情况下,作为一种重要的冗余机制,纠删码被广泛应用于分布式存