论文部分内容阅读
数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一,这门技术自兴起以来因其广阔的应用前景和深远的现实意义受到学术界的广泛关注,而其中的关联规则挖掘问题,因其丰硕的研究成果和自身理论的逐渐成熟,正在形成一个比较完善的研究体系并带动整个数据挖掘技术快速发展。
自从Agrawal等学者于1993年首先提出了关联规则挖掘问题以来,诸多的研究人员对关联规则挖掘问题进行了大量的研究,提出了很多高效的算法,然而大多数方法都未考虑时间因素的影响。但在现实世界中,时间是数据本身固有的因素,在数据中常常会发现时序语义问题。时序数据的出现使得有必要在数据挖掘中考虑时间因素,在现实中,附加上某种时序约束的规则将可以更好地描述客观现实情况,因而也会更有价值,称这样的规则为时序关联规则。
现阶段对时序关联规则的挖掘主要集中在周期性关联规则挖掘、循环关联规则挖掘和日历关联规则挖掘几个方面。由于周期性和循环模式是建立在单一的时间粒度上,而日历模式是建立在多时间粒度上,这与实际生活中的年、月、日,时、分、秒等多粒度时间表示更加吻合,因此基于日历的时序关联规则挖掘研究更有实用价值。
本文主要研究基于日历的时序关联规则挖掘。首先在查阅国内外大量文献资料的基础上,对数据挖掘技术和关联规则挖掘技术进行了概述,对关联规则挖掘的典型算法进行了分析,并对时序关联规则挖掘的概化算法进行了描述。然后基于日历代数,提出了一种基于日历的时序关联规则挖掘算法BCTAR,该算法旨在发现基于给定的日历格的所有的时序关联规则,即发现所有的频繁项集和日历模式的匹配,算法只需扫描数据库两次。另一方面,基于模糊日历代数,提出了一种模糊时序关联规则的挖掘算法BFCTAR,该算法旨在发现用户指定的复杂日历下所有的频繁项集。实验结果分析说明,这两个算法是高效、实用的。