论文部分内容阅读
随着计算机与信息技术的发展,数据挖掘技术已经广泛应用到人工智能、模式识别、生物信息等许多领域。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理论研究,并试图利用结构化数据挖掘方面的经验和方法来帮助解决新问题。因此,基于图的数据挖掘就是本文所致力研究的课题。目前,在图挖掘领域中迫切需要解决的问题是如何提高在图挖掘算法中的效率。由于频繁子图挖掘会产生巨大的结果集,在一定程度上制约了算法性能,而最大频繁子图挖掘可以有效缩减频繁子图的结果集。因此,本文重点研究基于闭图的频繁子图挖掘算法和图分类算法,并提高算法效率。针对以上问题做以下几个方面的研究。首先,在研究闭图模式挖掘典型算法的基础上,提出了一个新的频繁子图挖掘算法BPCG。算法使用了一种新结构表存储频繁子图集,从而无需扫描图集就可直接扩展最频繁邻接边及计算频数阈值;算法又利用兄弟剪枝策略和删除局部频繁边,缩小搜索空间并减少不必要的操作。其次,基于改进的频繁闭图挖掘算法,以频繁闭图挖掘结果作为特征候选集,又提出了一种图分类算法CGC,并说明了如何提取分类特征及构造分类器的方法。最后,本文通过实例以及实验对BPCG算法进行了说明和验证,这种新的频繁子图挖掘算法处理较大图集时在运行时间上表现出了明显的优势。本文还通过实验证明了CGC算法的执行效率以及准确性。