基于SVM的主题爬虫系统研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:lanangel1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断发展扩大,网络数据呈现出了爆发式的增长,改变了人们的生活,逐渐影响各行各业原有的生产经营模式。网络信息资源主要以网页文本为载体,通过内部链接指向,组成结构复杂的信息网络。通用搜索引擎面向全网络进行网页抓取,信息的急速增长使得其在时效性和覆盖面上都很难得到保证。应运而生的垂直搜索引擎以主题爬虫为核心,专注于单一领域信息,灵活性强,很好的满足了人们对于特定主题信息的查找需求。  本论文基于原有的主题爬虫算法框架,针对主题爬虫运行过程中的爬行策略进行研究,采用支持向量机分类模型对网页主题相关性和链接锚文本主题进行分类预测,共同决定待爬取链接的优先级。同时改变链接队列的形式,设置四段式分级链接队列,以提高主题爬虫的工作效率和主题收获率。具体工作内容主要包括:  1)对下载的搜狗实验室网页文本语料集进行数据预处理,如利用ICTCLAS进行中文分词、使用卡方检验选取特征列表、通过计算TF-IDF值来设置特征权重。训练支持向量机分类模型,通过特征维数选择、参数寻优得到表现较好的网页文本主题分类器。  2)将训练得到的网页文本主题分类器嵌入到通用爬虫系统中,在提取网页内部链接的同时保存对应的锚文本信息,抓取到对应网页后进行主题分类,然后对保存的锚文本进行标注,生成锚文本语料集。基于锚文本语料集进行分类模型训练,得到锚文本主题分类器。  3)结合训练得到的两个分类器,嵌入到设计的主题爬虫系统框架中,将URL队列划分为四段链式结构。通过当前网页主题和链接锚文本主题相关性一起决定链接的抓取优先级,压入不同的链中,从而使得主题爬虫能够较快的发现主题相关页面,提高抓取效率。  4)以爬虫的抓取速度和主题收获率作为评价指标,对本文中设计的主题爬虫系统进行测试对比,页面抓取速度达到298/min,主题收获率基本稳定在80%以上,通过对比,论证系统的实际可行性及其相对优势。  最后利用设计实现的主题爬虫以各大门户网站为入口,进行页面抓取,得到体育类网页集,建立索引库,实现信息检索,完成对抓取数据集的简单应用。
其他文献
为了满足高质量语音业务的需求,ITU于1996年制定了G.729标准。G.729具有语音质量高、编码速率低的优点,在无线通讯领域和有线通讯领域都有着广阔的应用前景。本课题的ATM柜员机
随着各种分布式网络和局域网的广泛应用,在许多对时间精度要求严格的应用系统中,高精度时间同步技术成为一项关键性技术。目前国内外许多专家学者都致力于IEEE1588协议的研究与
在图像处理领域中,图像的超分辨率重建技术和图像压缩是两个发展的热点问题。本文从实际应用的要求出发,对二者的结合作了研究,即对压缩图像进行超分辨率重建。论文的主要工
IEEE 802.16标准定义了无线宽带城域网物理层和媒体接入控制层的技术规范。在物理层,标准采用了正交频分复用(OFDM)/正交频分多址接入(OFDMA)等技术,为数据在复杂的无线环境
随着信息化社会的快速发展,网络的规模越来越大,为了更有效的管理、维护好网络资源,我们需要设计出一套全面、准确、直观的纤芯资源管理系统。通过这套系统,我们可以更加直观的了