比价购物平台中网络爬虫的设计与实现

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:sxf_520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及与发展, Internet已深入到人们生活与工作的各个角落,搜索引擎已成为人们获取信息最快捷的工具,网上购物已成为一种生活方式,越来越被大多数人接受。但是网上商品种类繁多、价格高低不同和商家良莠不齐,消费者不得不花费大量的时间在各大购物网站浏览商品、比较价格、权衡性价比,因此,用户很希望拥有这样一套系统来帮助他们完成对商品的选购,在这套系统中包含了各大主流购物网站中热卖产品的信息,通过简单的搜索就能够知道哪个网站售卖的商品最便宜、性价比最高。比价购物平台是一个很好的解决方案,对于该平台来说,如何获取如此庞大的商品数据和价格信息是一个至关重要的问题,正是基于以上背景,本文提出针对其数据来源的解决方案——网络爬虫的设计与实现。本文主要围绕如何设计和实现网络爬虫功能进行研究,在Heritrix网络爬虫的基础上,对某些功能做扩展和定制化开发,本文主要就以下几个问题作了深入讨论:(1)确定种子链接:为网络爬虫提供一个爬行入口;(2)网页抓取的方法:将符合要求的网页保存到本地文件夹;(3)分析和抽取网页内容:提取网页中与商品属性有关的信息;(4)结构化与存储数据:将商品属性逐条提取出来并存储到数据库中;(5)展现商品数据,用于比价。
其他文献
游艇设计与建造对于我国来说还是一个较为新型的专业。就现在的市场形式及工厂需要,设计了65’游艇。本文主要从船体造型设计,船舶结构设计,船舶性能分析及船舶控制系统等方
劳动就业就业规模持续扩大。年末全国就业人员77451万人,比上年末增加198万人,其中城镇就业人员40410万人,比上年末增加1100万人;第一产业就业人员占28.5%,第二产业就业人员占29.3%,第
前几年,造船企业经历了前所未有的快速发展时期,2009年时大部分企业的订单都排到了2012年甚至2013年。但进入2011年,由于世界经济的复苏乏力,世界航运市场持续下滑,造船企业