论文部分内容阅读
频繁模式是数据挖掘研究关注的主题之一,在图数据挖掘中,频繁模式需要在其模式中嵌入结构,其在图数据中的应用主要为从图数据中挖掘频繁出现的子图模式或其演变模式,例如,闭图模式、稠密模式、近似模式。这些模式可用于对图数据进行分类、聚类、索引构建和相似性搜索。开放环境应用下海量数据体量巨大、类型繁多、关系复杂,需借助带标签的图模型进行建模,并通过并行计算技术来提高图数据频繁模式挖掘算法的可扩展性。针对上述问题,本文侧重研究带标签图数据频繁模式的大规模并行挖掘,主要工作如下: (1)研究图数据的近似频繁模式,该模式不仅具有频繁项集的特点,也具有子结构的特点:近似模式为图中顶点属性的子集,子集中元素之间必须通过图的路径相连通。在挖掘中既能表示图数据中频繁连通的结构特征,也能避开目前频繁子图挖据中需要解决的子图同构验证问题。 (2)利用近似频繁模式的反单调性,提出基于Apriori的挖掘算法:首先结合马尔科夫链和信息数据流动模型给出近似频繁模式的支持度计算方法,然后通过预处理技术把图数据集转换成事务数据集。然后把算法部署在开源分布式并行编程框架Mapreduce中,实现模式挖掘的并行化。 (3)针对基于Apriori模式挖掘算法在挖掘过程中产生过多候选项集和多次扫描数据库的问题,提出基于FP-Growth的模式挖掘算法LCPP。进一步,针对LCPP算法中数据集随意分组导致的节点负载不均衡问题,引入均衡分组思想,提出基于位置进行组划分的策略,提高集群节点的工作效率。并在分布式并行编程框架Mapreduce中进行算法部署,实现模式挖掘的并行化。 理论分析及实验证明,并行的近似频繁模式挖掘算法能有效地兼顾算法效率及算法可扩展性。