论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展,在各个应用领域的数据库中储存了大量可以广泛使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。频繁模式挖掘应运而生,它是数据挖掘的一个重要组成部分,其主要任务是挖掘在数据集中频繁出现的模式。在现实世界中,许多应用包含的都是连续的序列和数据流,例如DNA和蛋白质序列等。但是,实际上各个事件是很少独立发生的,彼此之间密切相关。因此,对多序列结构的研究可以有效地帮助我们挖掘出那些至关重要的模式。本文主要研究的是“带通配符的多序列模式挖掘”。尽管目前已有的多序列模式挖掘算法中包含了通配符,但是这些算法受到字母表的制约,产生大量候选项集,时间与空间效率很差。本文将引入one-off条件,不但能够制约候选项集的规模,提高时间与空间性能,还能够使挖掘得到的模式更加灵活,具有更广泛的应用价值。鉴于此,本文的主要研究内容如下:(1)对频繁模式挖掘以及带通配符的频繁模式挖掘进行了探讨与研究。(2)提出了M-OneOffMine算法:此算法满足one-off条件、Apriori性质。在生物DNA序列上的实验证明,在多序列集上,在相同的问题环境下,M-OneOffMine算法比现有的MCPaS算法具有更好的时间性能。在两种算法挖掘的频繁模式的相似度高于80%的情况下,我们的算法能够挖掘到更多的频繁模式。在单序列集上,相较于MPP算法,不仅能够挖掘到更多的频繁模式,而且在时间消耗方面仅仅是MPP算法的1/2。(3)带通配符的频繁模式挖掘系统的设计与实现,主要展示了该课题的一些经典算法,为今后的学术交流以及研究提供了一个平台。