论文部分内容阅读
数据挖掘是通过仔细分析大量数据揭示有意义的关系、趋势和模式的过程,图挖掘是数据挖掘的一个分支,它的研究任务包括频繁子图挖掘和最大频繁子图挖掘。与频繁子图挖掘相比挖掘最大频繁子图并不丢失信息,而且挖掘最大频繁子图得到少量的结果有助于对结果的理解和应用,但是当前的算法中仍然存在子图同构的问题,本文的重点内容如下。首先,当前算法中规范编码计算效率很低,本文基于结点不变的原则提出新的规范编码计算方法,提高规范编码的计算效率。并且提出应用有向无循环图来计算支持度的方法,该方法通过节点之间的关系来判断某图在图集中是否存在超集,进而计算它的支持度。其次,针对判断两个频繁k子图是否可以进行连接时的子图同构问题,提出了FSG-MaxGraph算法。算法提出两个定理,在删除边进行子图同构之前应用定理进行判断,减少子图同构判断的次数。再次,针对当前算法存在的挖掘难度大的问题,提出Top-Down算法,Top-Down算法通过改变挖掘策略来避免计算最大频繁子图的所有子图的支持度,降低挖掘难度。最后,通过实例以及实验对FSG-MaxGraph算法、Top-Down算法挖掘效率和正确性进行验证,同时通过理论与实验相结合判断这两种算法分别在哪种情况下具有相对更高的挖掘效率。