论文部分内容阅读
随着Internet的迅猛发展,网络上的信息呈现爆发式的增长。通用搜索引擎已经不能满足人们对于个性化信息的需求,此时,面向特定领域的垂直搜索引擎应运而生。垂直搜索引擎可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。主题爬虫是垂直搜索引擎中的重要组成部分。主题爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。本文分析了主题爬虫的系统结构、技术原理,重点讨论了爬虫的主题表达、页面的主题相关性分析和主题搜索算法。本文的主要研究工作如下:1)在主题表达方面,基于关键词集合的主题表达不全面、精度不高,对此,本文提出了一种基于关键词动态扩充的表示方法。首先,需要构建一个基本的关键词集合;其次,本文提出了一种基于位置的TF-IDF(Term Frequency-Inverse Document Frequency)加权算法,根据文本在网页中的位置进行加权,可以提取网页的特征词;最后,在爬虫爬行的过程中,利用页面与主题的相似度和单词匹配频率等信息扩充特征词到主题库集合中,进而提升主题表达精度和覆盖面。2)本文分析了Shark Search搜索算法,针对该算法在有些方面的不足进行了改进。在Shark Search算法中,主题爬行策略采用的是链接上下文信息,但是,网页中的链接上下文信息经常充斥着噪音,反而会干扰链接的预测。本文提出利用URL字符本身的信息来替代链接上下文信息。因为URL字符串能代表其指向的网页内容,本文通过分析URL字符串的结构,得到一些启发式信息,利用这些信息可以将URL字符串“翻译”为可识别的文本信息,有利于计算它们与主题的相似度。此外,Shark Search算法是贪婪的,因此,很难在Web图中找到全局最优解,本文引入了隧道分析技术来解决Shark Search算法的贪婪性问题。本文综合基于关键词动态扩充的主题爬行算法和改进的Shark Search算法,将主题表示和主题预测结合起来,从整个系统的角度来提高爬虫的性能。经过实验证明,主题爬虫在精度和召回率上上都有提高,由此说明,本文的方法是有效的。