【摘 要】
:
随着互联网数据的日益增长,网络数据采集的需求和技术也不断的更新,如何只采集指定主题的网络数据并且保证爬取数据的效率成为了人们关注的热点,所以本文主要研究的是主题爬
论文部分内容阅读
随着互联网数据的日益增长,网络数据采集的需求和技术也不断的更新,如何只采集指定主题的网络数据并且保证爬取数据的效率成为了人们关注的热点,所以本文主要研究的是主题爬虫系统。本文采用目前比较流行的python语言实现爬虫框架Scrapy,并基于Scrapy框架编写了自己的爬虫系统,分别构造和测试了 k-近邻分类器和朴素贝叶斯分类器,通过分类器的主题相关度的判断构造了自己的主题爬虫系统。实验过程中主要爬取了网易新闻中主题为汽车行业和科技行业的数据。在实验过程中本文首先做了有关主题爬虫的关键技术的调研,后续研究了HTML文档结构解析、文本向量表示模型、特征选择算法和结巴文本分词工具等技术。然后利用网页的标题、正文创建其所对应的向量。文章中间部分讲述了k-近邻算法和朴素贝叶斯的原理,创建了 k-近邻分类器和朴素贝叶斯分类器,利用k-近邻算法和朴素贝叶斯算法对网页文本内容进行分类,并对分类器进行了测试。通过大量的数据测试后对朴素贝叶斯分类器进行了优化,实现了把与主题相关的网页内容存入数据库中,放弃与主题不相关的网页。最后比较了爬取文本数量不同时分类器的准确率和随着时间增长系统爬取效率的变化。通过对实验数据的分析和总结,本文的主题爬虫系统爬虫对汽车行业的结果的准确率可以达到75%的水平,爬取效率方面朴素贝叶斯分类器的爬取效率略高一些。
其他文献
目的探讨二甲双胍缓释片联合甘精胰岛素治疗2型糖尿病的临床效果。方法选取我院2017年10月~2018年10月收治的160例2型糖尿病患者作为观察对象。所有对象按数字随机分组方法分
本文针对航空惯导设备急需解决的战时抢修问题进行了研究,紧密结合部队实际需求,将抢修理论运用到惯性导航设备上,提出了①纵深二级维修、②战伤抢修人才储备、③航空机载设备的
利用2005—2015年中国制造业从业人员的相关数据,利用HOOVER系数、空间基尼系数和EG系数测度此期间中国制造业人力资源区域聚集程度。结果显示:2005—2015年中国制造业人力资
帮助信息网络犯罪活动罪作为新增设的刑法规范,在共同犯罪领域中,学者普遍将其所规制之行为者认定为帮助犯。但是,这一认识却可能导致了对刑法第287条之二第3款的解释存在逻
土地作为最为基础和重要的资源之一,其重要性不言而喻。农村工作中土地问题一直备受关注,自2016年开展农村土地改革以来,因为土地承包权与经营权所产生、引发的一些列问题也
在轨道交通运营管理中,行车组织是最基本、最重要的工作环节之一,如何使各部门协调联动工作,使学生熟悉自己岗位工作以及与其他相关人员的配合,从全局的观念出发去掌握轨道交
在云计算和大数据时代,针对业务服务运行状态的实时监控与日志数据分析具有非常重要的意义,而为了达成该目标,首先需要构建一个符合企业自身业务场景的集中式日志管理平台的
开发和利用太阳能等可再生、无污染的新能源是解决当今能源危机和环境污染的有效途径。近年来,太阳能发电成为人们关注的焦点,作为实现电能形式转换的SPWM逆变器也成为研究的
阐述了自学高等数学的方法:积极参加面授、认真阅读教材、做好归纳总结、多做习题.
20世纪90年代,文化批评蔚为大观的时候,当代唐宋词研究者亦积极参与其间,许多论著从文学一文化的双向观照中,找到了研究问题的新视点和话语表达的新方式,提出了唐宋词研究的