论文部分内容阅读
随着Web信息的多元化发展以及信息量的膨胀速度日益加快,不仅存储成本提高,信息采集也变得越来越难。通用爬虫在工作过程中会消耗大量的网络带宽,造成系统资源的浪费。而且它不太关心搜索到的页面是否符合用户的搜索主题,往往会返回很多与用户并不感兴趣的页面。因此,为了提高爬取效率,改善用户体验度,产生了以主题爬虫为核心的垂直搜索引擎。主题爬虫在页面抓取过程中采取启发式搜索策略,通过计算页面与用户搜索主题的相关度,将与用户搜索主题不相关的页面过滤掉,只下载与主题相关的页面存入待访问队列。网上的信息丰富多彩,如何有效的获取并整合主题内容信息以及如何利用爬虫全面准确地下载主题相关网页是面临的关键技术挑战。本文通过研究主题爬虫技术领域已取得的研究成果,主要对网页分块处理以及候选链接搜索策略进行了深入研究。在基于标签信息和视觉信息的分块布局下,提出了引入主题链接块因子的候选链接搜索算法。具体主要工作如下:(1)基于标签属性与视觉信息进行网页分块。利用<table>标签和<div>标签的布局规律,结合CSS样式表和<style>属性中的视觉信息进行分块处理。首先根据网页设计规律制定分类规则,将内容块分为文本块、链接块和无关块三类。然后进行主题文本块提取,先利用标签属性值进行初步过滤,再与基准块进行相似度计算进行进一步过滤,得到最终符合条件的文本。利用主题链接块提取规则进行主题块匹配,过滤噪音链接,获取所需的主题链接块。本文选取的基于标签属性与视觉信息的分块方法在实际应用中易于实现,避免块间大范围盲目匹配,具有较低的时间和空间复杂度。(2)主题爬虫在爬取过程中,需要先计算待爬取链接队列中的链接权重,按照权重大小决定访问顺序。本文在Shark-Search算法的基础上引入主题链接块权重的概念,提出基于主题链接块的改进搜索策略对网页中的URL进行优先级预测。将链接块中所有子链接的锚文本作为链接相关度计算的主要影响因素,在Shark-Search算法的理论基础上,引入主题链接块权重概念,并结合了链接结构的影响。(3)为了保证系统的有效性,首先在不同的阈值下分别实现HITS算法、Shark-Search算法和本文算法,将三种算法的结果进行对比分析。实验数据证明本文系统在多个阈值设置下都优于其他两种算法。然后对三种算法下的查全率和信息量总和进行了详细比较,并针对语义明确的主题和抽象概念的主题漂移率进行了实验分析,结果证明改进系统性能更优秀。