基于亚马逊网站的特定电子商品爬虫设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:vc__
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信技术和计算机的发展极大的促进了网络的普及和发展,近年来,各类电子商务网站飞速发展,一大批B2C、C2C模式的购物网站的出现为消费者提供了更为广阔的选择空间,网络购物的成交额屡创新高。随着网络购物的发展,商品的品类和数量也在逐渐增多,海量的商品信息使得消费者往往无法获得最优惠的商品,优惠网系统就是在这样的背景下提出的。优惠网系统旨在为用户提供及时有效的商品促销信息,为用户提供购物参考。在电子商务较为发达的欧美地区,同类功能的网站已经运行的非常成功,但目前国内尚无推送大型购物网站优惠信息的先例,从实际应用的角度来看优惠网系统在某种程度上满足了广大消费者的需求,有很好的前景。最初的搜索引擎中并没有网络爬虫,随着互联网的发展,网页数量越来越多,信息量越来越大,网络爬虫自动获取网页信息的功能便显示出其优势来。搜索引擎是搜索引擎使用关键字在互联网上进行搜索的程序,是一种在用于在数据库和互联网上检索符合要求的记录的计算机程序。在日志或索引数据中,搜索引擎逐个检索特定的内容的记录,如作者、题目、主题等,在网络中,网络爬虫通过爬行网页获得诸如URL、文档中的文本或者文档的标题等网络索引信息。搜索引擎主要有搜集信息、整理信息和接受查询三个部分的工作,网络爬虫的主要作用在于第一个部分,从最初的几个页面开始爬行到待爬行队列变空或满足结束条件时结束爬行。网络爬虫也可以作为网站链接检查的工具,在链接活性的检查方面具有独特的优势。本文中的爬虫是为优惠商品搜索发布系统提供资源而设计的,优惠商品搜索发布系统是一个为用户网络购物提供方便的系统,用户通过浏览系统推荐的商品信息可以方便快捷的获得优惠商品信息,节省商品搜索的时间,同时系统还可以为购物网站增加销售量。爬虫设计的主要目的是为系统提供分类信息,本文以电子商品分类为例。通过分析AMAZON API获取XML文件,解析后获得树结构的XML文件,应用网络爬虫的相关知识获取商品分类种子列表进而获取相对应的商品信息列表。本文大体包括基于爬虫的种子列表的获取、优惠商品搜索发布系统框架的设计和实现等部分,主要介绍了调用亚马逊API获取XML文件进行解析提取关键字获取推荐商品信息的过程、系统架构总体的架构设计及各功能模块的设计与实现。综上所述,本文设计了基于亚马逊网站的特定电子产品爬虫并将其应用于优惠商品推荐系统,在此基础上系统实现了各模块功能,但在系统安全性、稳定性和操作性方面还有待加强,关键字获取的方法还可以进一步研究,界面美工设计也有不足之处,在未来的工作中会逐步完善。
其他文献
目前,现代医药行业发展迅猛,越来越多的新型药物问世,其中手性药物占据了很大的比例。获得对映体纯的手性化合物有三种方法,分别是以天然产物为基础的分离拆分法、生物工程合成法
<正> 一四十多年前,我国学者冯家升先生曾经得到大同云岗石窟一张关于柔然(茹茹)造像的题铭拓片。冯先生据此撰《蠕蠕国号考》一文,对柔然的名号等问题发表了一些十分精辟的
作为促进人的全面发展的有利助推,“主体性”也在理论与实践的交融中走进人们的生活。面对德育的普遍低效,如何引进主体性理念扬弃传统德育以提高其实效已成为社会和学界争论的
目的:通过氧化损伤标记物8-羟基脱氧鸟苷(8-OHDG)及细胞凋亡标记物半胱氨酸天冬氨酸蛋白酶-3(caspase-3)的检测,分析心肌缺血缺氧、心肌缺血再灌注、心肌细胞氧化应激的病理变化及
海草是生长在潮间带和潮下带的单子叶植物,由海草植物组成的海草床是生态系统服务价值最高的生态系统之一.然而,近几十年人类活动干扰、全球气候变化等因素导致海草床衰退严
分析了内蒙古中小企业信息化建设的现状,提出了发展对策。文章认为,内蒙古的经济实力显然比不上我国东部,而开展企业信息化工作是一项复杂的系统工程,它既要软件和硬件设备的
随着知识经济的到来,知识、信息就是生产力。通过推动企业信息化特别是中小企业信息化来提高企业核心竞争力已成必然。本文通过分析我国开展中小企业信息化的必要性及当前存
汉语程度副词的教学是对外汉语教学的重要组成部分。程度副词与其他各类副词相比,数量较少、语法单一、位置固定,但是每个程度副词本身又各具特点,因此留学生在使用时经常会出现
海岸带蓝碳广义上指盐沼湿地、红树林和海草床等海岸带高等植物以及浮游植物、藻类和贝类生物等,在自身生长和微生物的共同作用下,将大气中的CO2吸收、转化并长期保存到海岸