论文部分内容阅读
随着互联网对各个领域的渗透融合,C2C(consumer to consumer,即消费者个人对个人)模式的电子商务得到飞速发展,改变了传统的消费购物方式。各种各样的电子商务网站不断涌现,在为人们提供物美价廉商品的同时,极大的方便了人们的工作和生活。目前我国最受欢迎的购物网站非淘宝网莫属,十年前,淘宝网还只是电商公司阿里巴巴旗下的“网上拍卖”试验品,第一年全年销售额只有8亿元人民币,在2012年,淘宝全年销售额突破了一万亿元大关,前淘宝CEO马云预测,在下一个十年,淘宝将迈入十万亿元时代。从数据的角度来看,当前淘宝上卖家数已突破两千万,而商品数据更是成为海量数据源。如何对海量数据进行数据挖掘,分析出有价值的信息,为商家提供销售指导并增加商品销量具有很强的现实意义及广阔的应用前景。本文针对这一问题,进行了相关的研究与软件开发与设计。本文研究对象为从淘宝网上抓取的箱包内商品数据。就当前情况而言,淘宝网所有数据均存储于其后台服务器数据库中,外部无法全部获取,但本文能通过淘宝网提供的搜索接口,在一段时间内对箱包名目下特定关键字下排名靠前的上千数据进行抓取;以boost下正则表达式为基础进行语法解析,分析出有价值的信息,存储于数据库中;根据特定模型,最终软件能实现分析销售额及销售量、商品销售排名,成交时间、商品销售排名、价格分布、信用分布、卖家排行及卖家地域分布功能。