图数据频繁模式并行挖掘研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:doudouhuijia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式是数据挖掘研究关注的主题之一,在图数据挖掘中,频繁模式需要在其模式中嵌入结构,其在图数据中的应用主要为从图数据中挖掘频繁出现的子图模式或其演变模式,例如,闭图模式、稠密模式、近似模式。这些模式可用于对图数据进行分类、聚类、索引构建和相似性搜索。开放环境应用下海量数据体量巨大、类型繁多、关系复杂,需借助带标签的图模型进行建模,并通过并行计算技术来提高图数据频繁模式挖掘算法的可扩展性。针对上述问题,本文侧重研究带标签图数据频繁模式的大规模并行挖掘,主要工作如下:  (1)研究图数据的近似频繁模式,该模式不仅具有频繁项集的特点,也具有子结构的特点:近似模式为图中顶点属性的子集,子集中元素之间必须通过图的路径相连通。在挖掘中既能表示图数据中频繁连通的结构特征,也能避开目前频繁子图挖据中需要解决的子图同构验证问题。  (2)利用近似频繁模式的反单调性,提出基于Apriori的挖掘算法:首先结合马尔科夫链和信息数据流动模型给出近似频繁模式的支持度计算方法,然后通过预处理技术把图数据集转换成事务数据集。然后把算法部署在开源分布式并行编程框架Mapreduce中,实现模式挖掘的并行化。  (3)针对基于Apriori模式挖掘算法在挖掘过程中产生过多候选项集和多次扫描数据库的问题,提出基于FP-Growth的模式挖掘算法LCPP。进一步,针对LCPP算法中数据集随意分组导致的节点负载不均衡问题,引入均衡分组思想,提出基于位置进行组划分的策略,提高集群节点的工作效率。并在分布式并行编程框架Mapreduce中进行算法部署,实现模式挖掘的并行化。  理论分析及实验证明,并行的近似频繁模式挖掘算法能有效地兼顾算法效率及算法可扩展性。
其他文献
本文研究工作主要围绕以下2个方面进行: 第一、提出了一种基于健壮主成分分析方法的无监督异常检测方法。首先,引入了健壮距离估计以解决传统入侵检测方法对训练样本的离群
随着计算机网络与数据库技术的迅速发展和广泛应用,商业智能系统中的分析型处理(OLAP)在各种商业领域中扮演越来越重要的角色。随着数据处理技术在企业的成功应用,传统的OLAP数据
SAT问题(Satisfiability problem),是第一个被证明的NPC(Non-deterministicPolynomial Complete)问题,在计算机科学理论和应用中具有重要的意义。对于理论研究,它是计算复杂性理
随着Internet技术与多媒体技术的飞速发展,多媒体通信已经成为人们之间交流信息的重要手段,多媒体信息的安全与保密显得越来越重要。对于多媒体信息,如常用的图像信息,传统的加密
近年来,随着无线局域网(WLANWirelessLocalAreaNetwork)的高速发展和IEEE802.11标准的不断普及,在WLAN中如何对实时业务提供更好的服务质量(QoSQualityofService),引起了人们广
网格信息服务是网格系统中负责管理资源信息的一系列服务集合的统称,其中包括资源描述、资源发现、资源监控和资源推荐等。随着资源规模的日益扩大,资源信息总量急剧增加,如何高
数据库知识发现(KDD)与机器学习相比,它的一个很重要的特点就是数据量巨大,因此要求学习的效率必须很高;另外,由于数据库知识发现最终是面向人的,因此人们也希望获取的规则能尽量
网络的广泛应用使网络安全日益成为一个突出的课题。入侵检测系统(IntrusionDetectionSystem,简称IDS)是近年来网络安全研究的热点,它是指用于对计算机和网络上违反安全策略的
随着Internet的飞速发展,计算机网络已经在社会、经济、文化和人们的日常生活中扮演着越来越重要的角色。人们在使用计算机网络的同时,也深深的注意到网络安全的重要性。随着网
Internet技术的普及与发展使得国际互联网日益成为当今信息资源最为丰富的计算机网络,如何在互联网上快速有效地搜索出所需要资源已成为人们普遍关心的问题之一。要实现信息