论文部分内容阅读
随着企业物流信息化水平不断提高,互联网的普遍运用,产生了海量的物流数据,大量的数据中隐藏着重要的信息。为了提高企业的核心竞争力,给客户提供更优质的物流服务,物流企业需要不断提高决策效率,因此如何从大量的物流数据中获取有价值的信息,辅助企业日常经营活动中的决策,成为企业面临的一个重要问题。通过对物流的路径数据进行数据挖掘分析,发现频繁移动的路径模式,从而获取关于货物流向的知识,预测货物的移动信息,找出异常的移动货物。通过频繁的路径模式,还可以深入了解物品在移动过程中的详细情况,以及这些频繁的路径隐含着的一些移动趋势信息。通过发现的频繁路径模式,可以为企业物流业务经营提供有力的决策支持,从而优化物流环节,从而降低整个物流成本。本文在系统的介绍了数据挖掘、云计算和物流路径相关理论基础上,阐述了物流路径频繁模式挖掘理论知识,并针对物流路径数据特点,采用云计算的MapReduce模型对数据挖掘的序列模式基本算法进行并行化改进,最后用改进的算法对物流路径进行挖掘分析,发现频繁路径模式。在相关研究理论的基础上,本文首先对物流路径频繁模式挖掘进行了相关研究。先阐述了物流路径频繁模式应用,接着,由于物流路径是一种序列数据,参考序列模式的相关定义,定义了物流路径频繁模式挖掘的相关概念,并采用序列模式挖掘算法中的基于Apriori思想的算法发现物流路径频繁模式。接着针对物流路径数据的特点,采用了MapReduce并行计算模型,对序列模式挖掘的基本算法AprioriAll进行改进。由于基于Apriori思想的序列模式挖掘算法对物流路径数据进行分析时,需要多次扫描数据库,并且会产生大量无用的候选序列,当数据量很大时,会占用大量的计算资源。MapReduce是云计算环境的并行计算模型,本文将序列模式挖掘的算进进行并行化改进,使之能适用于MapReduce计算模型。最后将改进的算法用于物流路径频繁模式发现,研究结果表明本文的研究思想是可行的。