论文部分内容阅读
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分。通用网络爬虫会从一个或者多个种子URL链接开始,爬行整个网络上的网页。而主题网络爬虫除了具有能够爬行下载网页的基本功能外,还能够分析链接以及页面内容。主题网络爬虫提供数据资源给面向主题的用户查询,它的目标是抓取与特定主题内容相关的网页,并不追求覆盖整个网络上的网页。主题网络爬虫已经成为网络信息挖掘和获取领域的研究热点,对搜索专业领域的信息资源有着相当重要的意义。本文着重研究了支持向量机算法在主题爬虫中的应用,研究工作有以下几个方面:
(1)研究了支持向量机分类算法原理,并对网页的数学表示方法进行了具体的描述,提出了一种基于支持向量机的网页分类算法,利用支持向量机对网页进行二类分类,找出所需的网页;再利用向量空间模型,对分类好的主题网页进行多类分类。
(2)在构造支持向量机的过程中,为了有效提高分类的召回率,引入了一种偏移因子,该算法对分类函数进行了修正,只需要计算二类分类器,减少了误分类网页数,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和召回率。
(3)围绕着算法和主题爬虫的爬行目标,重新设计了爬虫的工作流程和功能模块,并利用HTTP分析技术,多线程处理技术,增量检测技术实现了基于SVM主题分类算法的主题爬虫Percaspider,并对爬虫的总体性能进行了测试,对结果进行了展示和分析。实验表明,新的主题爬虫在下载速度和准确率上都有理想的效果,保证了爬虫有效性和实用性。