论文部分内容阅读
时下,网络作为主导信息来源手段对人们的生产生活方式带来了迅速的转变,信息检索的便利性不言而喻。但是,传统的搜索引擎无法使用户在特定时间内得到有效的检索结果。基于此,主题搜索引擎应运而生,终将成为搜索引擎发展趋势之一。主题搜索引擎是在传统搜索引擎的基础上增加了新的搜索引擎服务模式。主题搜索引擎中的爬虫称为主题爬虫。主题爬虫在传统网络爬虫的功能上添加了主题确立和相关性评价两个模块。主题爬虫注重爬行的深度,它的目标是保证尽可能多的爬行、下载与主题相关的网页。它主要需要解决主题确立、相关性分析评价以及搜索算法三个核心问题。本文对主题定义与描述、相关性评价和搜索算法等网络爬虫关键技术做了详细阐述。深入研究了基于向量空间模型(Vector Space Model,VSM)的主题爬虫相关度计算以及搜索算法。通过对传统模型主题爬虫算法的研究分析,提出了一种基于向量空间模型的多粒度SH主题爬虫算法。论文主要工作如下:1.传统的向量空间模型用特征项表示关键词,用TF-IDF方法计算关键词的权重,即通过计算关键词在文本中出现的次数衡量相关度。通过此方法计算结果仅仅是对文本词语的模糊匹配,忽略了Web页面本身结构特点,准确性较差。针对传统TF-IDF计算方法存在的缺陷,对页面中的特征项做了详细研究分析。首先,考虑特征项在相同文本的不同位置和在不同文本的位置权重加入语义分析,很好的区分了他们的分配权值;然后,利用改进的TF-IDF公式计算特征项权重,改进后的计算方法弥补了传统公式中将所有位置一视同仁的弊端;最后,将上述公式计算的权重结果代入向量空间模型中对文本相似度分析计算。与传统模型下的算法相比,改进后的算法更能准确的获取主题相关页面。2.分析Shark-search(鲨鱼算法)和HITS(Hyperlink-Induced Topic Search)算法中的优点与不足。针对Shark-search算法中的噪音链接、广告链接的缺陷和HITS算法中的主题漂移现象(与查询不太相关的普通页面在查询排序中比较靠前的现象称为主题漂移),深入分析Web页面结构。首先,对给定Web页面进行分块处理。处理方法采用VIPS(vision-based page segmentation)算法。VIPS算法的思想:从用户角度观察Web页面,不去详细分析Web页面的内部具体结构,而是把页面中一个语义块作为一个个单一对象研究;基于语义块检测出分隔条,依据分隔条Web页面内部结构被重新构建。然后,采用多粒度Shark-search算法,同时与依赖查询的HITS算法结合进行相关链接的预测。这样,既弥补了Shark-search算法缺乏“全局性”的问题,降低噪音链接干扰,还消除了HITS算法中“主题漂移”现象。3.查全率和查准率是衡量主题爬虫性能优劣的常用指标。本文通过查准率和模拟查全率作为实验的评估指标,比较论文中提出的基于向量空间模型的多粒度SH主题爬虫算法与其它爬虫算法在抓取质量方面的优劣。通过对实验数据的分析和统计,得出本文提出的新型主题爬行算法在爬行质量方面,效果更好。