论文部分内容阅读
近年来,随着互联网的快速兴起,O2O这类电子商务模式不断发展,伴随着智能手机的普及渗透到人们工作生活的各个领域。应运而生的即时配送服务领域也随之不断发展壮大。比如O2O外卖平台初期通过烧钱补贴,粗犷发展,获得客观的用户数量,其市场的蛋糕也在不断扩大。不过随着用户增多,平台的运营和即时配送服务的资源调配也随即紧张起来。因此,面对源源不断的用户订单数据,为了提高平台的支撑能力,根据已有的大量历史数据预测未来的消费者行为是业内常见的做法。通过精准的预测,能更有针对性的对不同需求的客户提供更精准的服务,提升消费者的满意度和服务质量。也能够合理分配即时配送服务的资源,提高平台的运营能力。因此,本文从这一角度出发,利用平台积累的历史数据,挖掘即时配送服务订单地理区域的特征规律,尝试将订单地理区域依照客户的地址分布情况划分成不同的子区域。在不同子区域的内部划分不同顾客层次(如高端,中端,低端)。将客户层次精细化。进而从订单的总地理区域层级,子区域层级,以及客户层级三个方面进行需求预测。并利用分层预测算法协调预测结果,提升预测的准确性和鲁棒性。从而细致化的提升平台对每个子区域的服务。还能够针对不同层次客户需求充分挖掘平台的调度能力,降低运营成本。本文主要基于某平台的外卖订单数据,研究即时配送服务订单地理区域的划分问题以及不同层次客户的需求预测问题。从以上几个问题出发,本文具体工作内容和结论如下:(1)通过对历史数据的挖掘和定量分析,将整个订单地理区域划分成相同大小的网格状区域,并将订单的实际位置映射到相应的网格内。值得注意的是,网格大小的划分会影响后续的实验,因此在网格大小的评判方面,本文利用订单相关信息构造基础特征,根据无核二次曲面支持向量回归(SQSSVR)对网格区域的订单均价进行拟合。根据拟合的结果评估网格的大小情况,以此作为网格调整的基础。(2)在确定的网格划分基础上。采用数据挖掘的方式,提取网格订单数量等信息。对网格化的订单地理区域进行了研究,通过对网格进行密度聚类,将即时配送服务订单地理区域进行区域聚类划分,形成多个子区域。在此基础上借鉴RFMD模型结合模糊C-均值算法对每个子区域实现客户层次(高端,中端,低端)的聚类和划分。(3)由以上的聚类,可以获得三个层级的数据。分别是总区域的订单数据,子区域订单数据,以及各子区域下的不同层次客户数据。根据描述性统计构建相关的特征维度。为了预测未来一段时间的需求,将特征输入至SQSSVR模型获得不同层级的预测结果。同时,也选取线性回归,支持向量回归,神经网络,以及目前主流的集成学习方法Xgboost进行对比实验。(4)在SQSSVR的预测基础上,考虑由于不同层次客户这一级别的数据噪声较大且预测不稳定,选择基于历史比例的自上而下的分层预测算法对已预测的不同层次客户需求进行协调处理,从而提高预测的整体精度及稳定性。本文的主要结论:(1)基于历史数据,根据SQSSVR拟合情况确定即时配送服务订单地理区域的网格大小,获得网格的特征和规律,建立并解释顾客层次与其需求所处区域的关系,实验证明,网格区域的订单均价与网格所处经纬度,纬度,用户数,以及优惠力度存在相关性。(2)通过基于日均订单数的网格密度聚类算法。在调整Eps和MinPts参数的基础上,能够将整个订单地理区域聚类划分为几个子区域。不仅在地理上按照客户的真实订单划分,也打破了以往通过行政区域划分的局限性。(3)即时配送服务需求预测方面,鉴于SQSSVR的非线性以及鲁棒性较好的特点,本文选择SQSSVR对未来一段时间的需求进行预测。同时对比多元线性回归,支持向量回归,神经网络,集成学习算法Xgboost。通过实验证明SQSSVR确实在预测即时配送需求方面有着不错的表现。除此之外,从不同层级的角度看,针对整个即时配送订单地理区域SQSSVR预测效果普遍较高且稳定,而随层级下移,尤其是客户层级方面,本文所选用的模型都存在预测不稳定的情况。说明底层数据的噪声加大,影响了预测结果。(4)在不同层次客户需求的预测方面。由于最底层——不同顾客需求数据的波动加大,导致所选择的机器学习方法的预测结果失真。参考意义减弱。因此,选择通过基于历史平均的自上而下的分层预测算法对底层预测结果修正。实验证明分层算法能够在一定程度上提升预测效果。提高整体底部预测的准确率。并且在保证不同层次上顾客需求预测值完整性的同时也协调提高它们的预测质量。