基于支持向量机分类算法的主题爬虫的研究与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhi911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分。通用网络爬虫会从一个或者多个种子URL链接开始,爬行整个网络上的网页。而主题网络爬虫除了具有能够爬行下载网页的基本功能外,还能够分析链接以及页面内容。主题网络爬虫提供数据资源给面向主题的用户查询,它的目标是抓取与特定主题内容相关的网页,并不追求覆盖整个网络上的网页。主题网络爬虫已经成为网络信息挖掘和获取领域的研究热点,对搜索专业领域的信息资源有着相当重要的意义。本文着重研究了支持向量机算法在主题爬虫中的应用,研究工作有以下几个方面: (1)研究了支持向量机分类算法原理,并对网页的数学表示方法进行了具体的描述,提出了一种基于支持向量机的网页分类算法,利用支持向量机对网页进行二类分类,找出所需的网页;再利用向量空间模型,对分类好的主题网页进行多类分类。 (2)在构造支持向量机的过程中,为了有效提高分类的召回率,引入了一种偏移因子,该算法对分类函数进行了修正,只需要计算二类分类器,减少了误分类网页数,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和召回率。 (3)围绕着算法和主题爬虫的爬行目标,重新设计了爬虫的工作流程和功能模块,并利用HTTP分析技术,多线程处理技术,增量检测技术实现了基于SVM主题分类算法的主题爬虫Percaspider,并对爬虫的总体性能进行了测试,对结果进行了展示和分析。实验表明,新的主题爬虫在下载速度和准确率上都有理想的效果,保证了爬虫有效性和实用性。
其他文献
基于布里渊散射的分布式传感系统,工作波长处于长波段,受色散和衰减影响较小,适于长距离传感,而且普通单模光纤的自发布里渊散射,其散射光频移和功率都受环境温度和应变的影