大图上频繁子图挖掘算法的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:mike1983mm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种通用的数据结构,正在越来越多地被用来建模科学数据,如何开发有效的并且高效的图挖掘算法从图数据库挖掘感兴趣的模式引起了广泛的关注。目前存在两类不同的图数据中频繁子图挖掘问题,即图集合上和单个大图上挖掘频繁子图,虽然在单个大图上挖掘频繁模式的应用更普遍,但是提出的挖掘的算法并不是很多,目前存在的算法或者是启发式算法,挖掘过程中会丢失很多的频繁模式或者是计算量大又不容易扩展到大图模式中的算法。因此本文在分析现有的频繁模式挖掘工作的基础上,对单个大图的频繁子图挖掘进行了深入的研究。首先分析了目前的单个大图上挖掘频繁子图的单机算法,提出了免子图同构测试的基于深度优先扩展子图的单机算法。其次,随着数据量的增大,图集合不能完全加载到内存,虽然一些基于磁盘的图数据库挖掘的解决方案已被提出,但是访问图数据产生的开销,磁盘I/O的代价是非常高的。目前还没有高效的完整的精确的可扩展的并行的单个大图的频繁子图挖掘的算法,本文提出了基于最大团的频繁计数的并行频繁子图挖掘算法。再次,本文在提出的基于最大团的频繁计数的频繁子图挖掘并行算法的基础上,进一步对算法进行了优化。生成频繁1-子图阶段时,对图数据进行图划分,使得map任务尽量负载均衡。在生成候选子图阶段对出现的重复的(k+1)·子图,直接去重,不必等到子图支持度计算阶段再去重,降低通信消息量。在子图支持度计算阶段,新加入六处剪枝方法尽量避免求最大团的问题,提高效率。挖掘频繁子图整个过程中不再使用默认的partition方法,定制新的Partitioner解决reduce过程中的负载不均衡的问题。最后,由于最大团的计算是NP-hard问题,因此有必要找到一种时间复杂度低的定义子图支持度的方法替代覆盖图的补图的最大团的计算问题。因此本文又提出了基于AMNI频繁计数的子图挖掘算法。总之,本文主要研究了单个大图的频繁子图挖掘问题,并针对其中的不足,提出了高效的解决方案。大量的实验验证了本文方案的高效性和准确性。
其他文献
产品评论信息的意见抽取是一类与文本的情感分类相关的研究,是当前智能信息处理、网络信息挖掘中的研究热点。情感词的自动发现与意见抽取是这类研究中的关键技术。 本文在
空间数据库中的方向关系在地理信息系统和图像数据库等领域都有着重要应用,它经常作为空间查询中的选择条件。而方向关系查询的效率也成为近年来学术界普遍关心的问题。本文研
地下管网是城市基础设施的重要组成部分,是城市赖以生存和发展的物质基础。基于GIS的地下管网数据管理系统,很难进行地下管网信息的三维综合研究和查询分析。本文在分析地理
近年来,随着信息时代的飞速发展,以及高等院校的扩大招生,高校计算机的数量急剧增多,大大提高了机器的使用效率。但从管理角度来看,绝大多数计算机机房采用的均是人工管理模式,削弱
随着计算机技术的迅速发展,信息安全问题逐渐受到人们的重视,于是为了满足信息时代的安全要求,产生了生物特征识别技术。目前常用的生物特征识别技术主要有人脸识别、指纹识别、
对异构构件库群协同检索的研究是当前研究的热点。针对单构件库在构件描述、分类以及检索上的特点和不足,以及目前异构的多构件库协同检索研究的进展状况,提出一种基于XML的异
机器翻译可以说是计算机出现以来人们的梦想和追求。由于机器翻译极具研究的挑战性和应用的迫切性,而被列为当代科学技术十大难题的之一。特别是在全球化、网络化的浪潮中,如果
虚拟化技术具有增强系统弹性和扩展性、提高资源利用率以及能够满足灵活多样的应用需求等诸多优势而成为云计算系统的重要支撑技术。而虚拟机资源调度技术又是该领域的核心技
彩音(Color Call,CC)业务是一种由主叫用户定制在主被叫用户的通话过程中播放预先定制的背景音乐,为主被叫的通话场景创造预想通话气氛的音乐类业务。 中国移动于2003年推出
人脸检测是指在一幅指定图像中,在不考虑人脸的三维姿态、光照等条件下,发现人脸和位置信息的过程。人脸检测是一项艰巨的工作,主要原因是人脸特征在人脸模式中的提取是一项非常