论文部分内容阅读
电子商务经过最近十年的迅速发展,电商之间的竞争发展已经进入白热化,而且电子商务平台的成交额在社会总的零售消费总和占比逐年攀升。通过阿里巴巴、京东等平台进行消费服务,已经成为人们生活中不可或缺的一部分。现在我们坐在家中就可以享受到全国各地的美食,不用去逛商场就可以穿上靓丽的衣服。现如今,电商行业已经发展平稳。从消费者角度来看,随着人们的收入逐渐增家,消费水平水平逐渐上升,处于社会中级阶层的广大消费者是电子商务发展的主要推动力,也因此电子商务平台吸引了全球各地的商家,这给更多人提供了机会。 一方面随着电商企业市场规模的不断扩大,各家企业都意识到第三方物流已经不能满足企业的需求,各大电商开始纷纷开始创建自己的物流体系。目前大的电商企业如天猫、京东已经逐步建立起来属于自己的完善的物流体系,而其他公司也逐步开始部署自己的物流体系计划。互联网电商的迅速发展,我国的快递物流作为物流行业的一个分支已经成为当今中国不可或缺的一部分。但是相对于自建物流,若使用传统快递行业,必定会使互联网电商发展受到限制,因为无论是服务还是便捷程度,传统快递行业都无法与自建物流体系相媲美。当电商企业建立自有的物流体系可以使消费者更快的享受到购物的乐趣,另一方面,自建物流体系可以更好的帮助电商完成售后服务规划,这是传统物流体系无法完成的任务。 随着电商逐渐完善自己的物流体系,商品的需求预测成为商品销售规划和物流管理的重要环节,尽可能准确的把握影响需求的影响因素以及变量对结果的影响程度有利于提高预测的准确性。从而帮助商家做出决策,做到统筹优化,对于未来一段时间销量可能增加商品,及时补充商品用于销售。对于商品未来销量可能下滑情况,及时通过促销降价等手段,减少商品库存,最大程度上减少电商商家损失。另外一方面,电子商务的迅猛发展,带动了快递行业的迅速崛起,如何优化物流效率,提升客户体验,让每一件商品在尽量短的时间内送到客户的手中,是提升经济发展,带动企业良性循环的重要一环。物流行业为当代经济发展提供了有力支持,在国家经济改革、产业重构方面也起着重要的作用。 经过对国内外相关文献研究发现,大部分基于需求预测的研究大部分都是基于时间序列模型、简单多元线性回归模型、BP神经网络模型等。一方面以往的研究所涉及的数据集规模较小,目标变量相关的自变量的选取较为困难且较为主观。在通过时间序列进行模型训练时,会用到目标变量和时间变量,如果存在其它和目标变量强相关的变量,单单使用时间序列模型,其他有价值的变量则不会进入模型训练,由此带来的信息损失是很大的,这是在有价值变量充足的情况下,时间序列模型的预测效果不如机器学习算法的原因。另一方面,时间序列模型对于变量的稳定性有较高的要求,在外部影响很大的商品需求预测中,使用时间序列模型具有不可控因素。若使用神经网络对商品需求进行建模,则很容易出现过拟合现象,因为神经网络对于数据集里的变量个数以及数据包含的样本数量都有较高的要求。 本课题所使用的数据集是阿里巴巴旗下的电商淘宝、天猫商品从20141010至20151227的商品销量及其粒度特征变量,这些商品分布在全国各地仓库。共有20多万种商品、3亿多条商品历史销售纪录信息。课题的目标是通过数据挖掘算法来对商品未来两周的销量进行预测,也就是预测商品在未来两周的目标库存。我们可以通过机器学习算法来准确预测商品的需求的变化规律,对未来一段时间,全国和区域性的需求量进行预测。同时考虑到每个商品都有补多补少成本,我们根据预测值再对每件商品出现的成本进行优化,从而做到全局最优化,从而降低总成本,提升整个社会的供应链的效率。 通过对数据进行异常值清理、数据变量进行滑动窗口构造特征、训练集和测试集的划分等一系列数据处理工作,设计了把回归预测问题转换为分类问题来进行商品需求预测的独特思路,最终建立了基于Xgboost的Stacking算法模型,可以对未来商品的需求量进行精准预测。同时还对比了时间序列模型、随机森林模型、GBDT、单个Xgboost模型之间和本课题使用模型的效果差异,并分析了造成这种差异的原因以及各模型的适用情况。 本课题研究的方法对于研究商品需求预测具有很好的效果,而且对于新数据具有很强的泛化能力。算法模型在课题研究中已经证明了其对于商品预测的有效性,这样所研究的课题便可以应用到工业实践当中去,帮助电商企业和第三方卖家及时掌握未来商品销量动态,以此来优化库存,提高收益,减少损失。本课题在数据竞赛中获得较好的成绩,相关企业也会借鉴模型思路,改进现有算法,优化供应链决策。