基于Python的旅游网站数据爬虫研究

来源 :沈阳理工大学 | 被引量 : 4次 | 上传用户:chunyi19871225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展和编程技术的普及,搜索引擎成为了使用互联网的常用工具。搜索引擎大多使用爬虫技术作为核心模块,通过关键词返回用户查询的结果。但是网络信息呈现爆炸式的增长,使得信息的查找和定位也变得困难。为解决上述困境,研究借助Python和Scrapy语言框架基础,以“旅游网站”为爬取目标,通过分析当前现有Web crawler的运行机理、功能单元以及算法程序,试探性的创建一个针对性比较强的网络爬虫,对课题的目标数据进行爬取。在简明给出了爬虫技术的原理和发展现状、介绍爬虫工程中一些关键技术、并着重介绍了在研究中有深刻影响的Cookie和Robot协议之后,论文阐述了以Mongo DB为代表的NOSQL数据库对目标信息数据存储中起到的关键作用,并针对程序开发的流程及关键性的实现细节作出重点介绍。同时,论文还提及了现今爬虫技术开发所涉及的关键性问题,以及具体在本文中采用的实际解决方法。为解决网站的限制困境,重点介绍通过更换Cookie和user-agent伪装来解决上述问题。而原始资源符地址去重和多线程并发的问题,则采用并分析Scrapy自带的解决方案。最后对爬虫进行测试并可视化的进行成果展示,并于对已经作出的研究成果所存在的问题和改进的可能进行论述。
其他文献
肿瘤及其转移涉及一系列复杂的病理过程,与其所处微环境密切相关。肿瘤微环境是一个非常复杂的综合系统,是由肿瘤细胞、非肿瘤细胞以及细胞间质共同组成。常规体外细胞实验和
班主任工作,说到底是"人"的工作,认识到这一点很容易,而要做好这一点则很难.做"人"的工作要求班主任在工作方法上必须灵活而不呆板,深入而不肤浅,准确而不盲目,适度而不过分.
期刊
近年来,贵州职业教育在国家政策的支持下,取得了较快发展,同时也还存在一定的问题。对贵州省高等职业教育的发展现状和问题进行分析,提出了关于高等职业院校教育改革的几点思考。
小麦生育后期,是指小麦从抽穗开花,历经灌浆到小麦成熟收获这一段时间,约40d左右,时间虽短,但却是小麦产量形成的关键时期。因此,搞好小麦后期的田间管理,增加穗粒数,提高粒
随着国际贸易的发展,越来越多的国家受益于经济全球化,对外贸易蒸蒸日上,经过多年的贸易谈判,各国的贸易制度逐渐开放,关税水平已经大幅度的降低,通过调节关税促进国际贸易发
目标跟踪任务是计算机视觉中一个非常重要的研究课题,作为一门交叉了图像处理,信号处理,机器学习,最优化理论,人工智能等多方向的综合学科,近年来在学术界和工业界得到了广泛研究,但是由于目标跟踪算法本身的实现难度高,高质量数据缺失,取得的进展要慢于目标检测,语义分割等更加基础的视觉任务。目标跟踪技术在民用和国防领域应用广泛,是视频监控,城市安防,医学诊断,无人驾驶等概念的关键技术之一。基于深度神经网络的
<正>近年来,上海高中生涯辅导在促进每一个学生的终身发展的需求和高考改革背景下,在上海市教育委员会的统筹下,得以大规模地推进。本文在上海高中226所学校全样本调查的基础