论文部分内容阅读
随着互联网规模的不断发展扩大,网络数据呈现出了爆发式的增长,改变了人们的生活,逐渐影响各行各业原有的生产经营模式。网络信息资源主要以网页文本为载体,通过内部链接指向,组成结构复杂的信息网络。通用搜索引擎面向全网络进行网页抓取,信息的急速增长使得其在时效性和覆盖面上都很难得到保证。应运而生的垂直搜索引擎以主题爬虫为核心,专注于单一领域信息,灵活性强,很好的满足了人们对于特定主题信息的查找需求。 本论文基于原有的主题爬虫算法框架,针对主题爬虫运行过程中的爬行策略进行研究,采用支持向量机分类模型对网页主题相关性和链接锚文本主题进行分类预测,共同决定待爬取链接的优先级。同时改变链接队列的形式,设置四段式分级链接队列,以提高主题爬虫的工作效率和主题收获率。具体工作内容主要包括: 1)对下载的搜狗实验室网页文本语料集进行数据预处理,如利用ICTCLAS进行中文分词、使用卡方检验选取特征列表、通过计算TF-IDF值来设置特征权重。训练支持向量机分类模型,通过特征维数选择、参数寻优得到表现较好的网页文本主题分类器。 2)将训练得到的网页文本主题分类器嵌入到通用爬虫系统中,在提取网页内部链接的同时保存对应的锚文本信息,抓取到对应网页后进行主题分类,然后对保存的锚文本进行标注,生成锚文本语料集。基于锚文本语料集进行分类模型训练,得到锚文本主题分类器。 3)结合训练得到的两个分类器,嵌入到设计的主题爬虫系统框架中,将URL队列划分为四段链式结构。通过当前网页主题和链接锚文本主题相关性一起决定链接的抓取优先级,压入不同的链中,从而使得主题爬虫能够较快的发现主题相关页面,提高抓取效率。 4)以爬虫的抓取速度和主题收获率作为评价指标,对本文中设计的主题爬虫系统进行测试对比,页面抓取速度达到298/min,主题收获率基本稳定在80%以上,通过对比,论证系统的实际可行性及其相对优势。 最后利用设计实现的主题爬虫以各大门户网站为入口,进行页面抓取,得到体育类网页集,建立索引库,实现信息检索,完成对抓取数据集的简单应用。