论文部分内容阅读
随着信息技术的快速迭代与发展,各行各业产生了规模庞大、结构复杂、种类繁多的数据。从未知的数据中获取有实际应用价值的信息,是数据挖掘的主要目标。其中,致力于发现数据项之间存在的普遍联系的关联规则技术是数据挖掘的一个主要研究领域。在大数据环境下,单一计算机的运算能力已经不足以应对海量数据的高效处理需求,这使得并行化技术逐渐成为当前的研究热点。通过对传统的关联规则算法进行改进,并与分布式计算模型相结合,实现算法对海量数据的并行化处理,已经成为了一个重要研究方向。目前已提出的基于Can树的并行关联规则增量挖掘算法解决了传统的Apriori、FP-Growth等算法需要对数据库进行多次扫描的问题,在进行增量挖掘时有着较好的性能表现,并且具有了一定的并行化性能。但仍然存在以下问题:(1)如何有效地降低Can树结构的空间占用;(2)如何显著提升频繁项的挖掘效率;(3)如何进一步增强MapReduce计算集群的并行化性能。针对以上问题,在研究与分析关联规则算法以及MapReduce计算框架等相关知识的基础上,提出了两种并行关联规则增量挖掘算法:(1)基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG(MapReduce-based parallel association rules incremental mining algorithm using information entropy and genetic algorithm);(2)基于粗糙集和归并剪枝方法的并行关联规则增量挖掘算法MRPARIRM(MapReduce-based parallel association rules incremental mining algorithm using rough set and merge pruning)。这两种改进算法的主要研究工作如下:(1)基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于信息熵的相似项合并策略SIM-IE(Similar items merging based on information entropy)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次提出基于遗传算法的DST-GA(Dynamic support threshold obtaining using genetic algorithm)策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘,避免了冗余的频繁模式挖掘导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法的运行速度。(2)基于粗糙集和归并剪枝方法的并行关联规则增量挖掘算法MR-PARIRM针对大数据环境下基于Can树的增量关联规则算法存在的树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MRPARIRM。首先,该算法设计了一种基于粗糙集的相似项合并策略RS-SIM(Rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(Merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(Dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力。