论文部分内容阅读
随着信息技术的普及与发展, Internet已深入到人们生活与工作的各个角落,搜索引擎已成为人们获取信息最快捷的工具,网上购物已成为一种生活方式,越来越被大多数人接受。但是网上商品种类繁多、价格高低不同和商家良莠不齐,消费者不得不花费大量的时间在各大购物网站浏览商品、比较价格、权衡性价比,因此,用户很希望拥有这样一套系统来帮助他们完成对商品的选购,在这套系统中包含了各大主流购物网站中热卖产品的信息,通过简单的搜索就能够知道哪个网站售卖的商品最便宜、性价比最高。比价购物平台是一个很好的解决方案,对于该平台来说,如何获取如此庞大的商品数据和价格信息是一个至关重要的问题,正是基于以上背景,本文提出针对其数据来源的解决方案——网络爬虫的设计与实现。本文主要围绕如何设计和实现网络爬虫功能进行研究,在Heritrix网络爬虫的基础上,对某些功能做扩展和定制化开发,本文主要就以下几个问题作了深入讨论:(1)确定种子链接:为网络爬虫提供一个爬行入口;(2)网页抓取的方法:将符合要求的网页保存到本地文件夹;(3)分析和抽取网页内容:提取网页中与商品属性有关的信息;(4)结构化与存储数据:将商品属性逐条提取出来并存储到数据库中;(5)展现商品数据,用于比价。