论文部分内容阅读
随着互联网络技术的迅猛发展,网络资源呈指数形式增长,面向整个网络信息的通用搜索引擎已经不能满足不同领域的用户精确的检索需求,在这种背景下,垂直搜索引擎应运而生。主题网络爬虫是垂直搜索引擎的核心部分,其爬行质量和效率直接决定了垂直搜索引擎的性能。与通用网络爬虫不同的是,主题网络爬虫只抓取与特定主题相关的网页同时过滤无关网页,具有专业,精确,深入的特点。传统的主题网络爬虫通过分析网页的全部内容判定候选链接的相关性,现今的网页内容往往包含多个不同的主题,对网页的全部内容进行计算很可能由于网页中的噪音而影响结果的判定。本文对主题网络爬虫的相关性判定算法和搜索策略进行了研究,针对传统的主题网络爬虫的不足提出一种基于候选链接主题边缘文本的主题爬虫,本文的主要研究工作如下:首先,利用杜威十进分类法的特性绘制二维坐标提取候选链接主题边缘文本。杜威十进分类法是一种层次分类法,由于词的多义性,每个主题关键词对应唯一或者多个的杜威分类号码,根据分类号码可以判定关键词是否是同一主题或者相近主题。候选链接主题边缘文本是一组与锚文本关键词词义相近的关键词,主要包括锚文本关键词和网页正文关键词两个部分。该主题爬虫利用锚文本和与锚文本主题词义相近网页正文判定候选链接的相关性,避免噪音对判定结果的影响。其次,构建朴素贝叶斯文本文本分类器分析候选链接主题边缘文本,指导主题网络爬虫爬行。朴素贝叶斯分类算法是目前为止文本分类中最有效的分类算法。锚文本关键词更能代表候选链接的主题含义,对锚文本关键词加权,突出锚文本关键词在相关性判定时的重要性。最后,查准率和模拟查全率作为实验的评估指标,比较本文提出的主题网络爬虫与其他爬虫算法在抓取质量方面的优劣。统计和分析实验所得的数据,实验结果表明本文提出的主题网络爬虫在爬行质量方面,效果更好。