基于支持向量机分类算法的主题爬虫的研究与实现

论文部分内容阅读

网络爬虫为搜索引擎从互联网上下载网页，是搜索引擎不可或缺的组成部分。通用网络爬虫会从一个或者多个种子URL链接开始，爬行整个网络上的网页。而主题网络爬虫除了具有能够爬行下载网页的基本功能外，还能够分析链接以及页面内容。主题网络爬虫提供数据资源给面向主题的用户查询，它的目标是抓取与特定主题内容相关的网页，并不追求覆盖整个网络上的网页。主题网络爬虫已经成为网络信息挖掘和获取领域的研究热点，对搜索专业领域的信息资源有着相当重要的意义。本文着重研究了支持向量机算法在主题爬虫中的应用，研究工作有以下几个方面：（1）研究了支持向量机分类算法原理，并对网页的数学表示方法进行了具体的描述，提出了一种基于支持向量机的网页分类算法，利用支持向量机对网页进行二类分类，找出所需的网页；再利用向量空间模型，对分类好的主题网页进行多类分类。（2）在构造支持向量机的过程中，为了有效提高分类的召回率，引入了一种偏移因子，该算法对分类函数进行了修正，只需要计算二类分类器，减少了误分类网页数，实验表明，它不仅具有较高的训练效率，同时能得到很高的分类准确率和召回率。（3）围绕着算法和主题爬虫的爬行目标，重新设计了爬虫的工作流程和功能模块，并利用HTTP分析技术，多线程处理技术，增量检测技术实现了基于SVM主题分类算法的主题爬虫Percaspider，并对爬虫的总体性能进行了测试，对结果进行了展示和分析。实验表明，新的主题爬虫在下载速度和准确率上都有理想的效果，保证了爬虫有效性和实用性。

其他学术论文