论文部分内容阅读
数据挖掘是从大量存储于数据库、数据仓库及信息仓库的数据中挖掘出用户感兴趣的知识的过程。目前,在数据挖掘研究中,对关联规则的研究开展的比较积极和深入。关联规则是数据挖掘研究中的一个重要的研究内容,是完成数据挖掘任务的一个重要方法。多维关联规则能提供关于研究数据更为有用的信息,因此在此基础上的研究也是一件十分具有实际意义和广泛应用的工作。本论文在关联规则挖掘技术和在线分析处理(OLAP)技术深入分析的基础上,设计和实现了基于J2EE平台的分布式多维关联规则挖掘系统。
文中详细介绍了关联规则挖掘的基本理论和目前主要的研究方向及其主要算法,频繁项目集的生成是关联规则挖掘中的关键问题。文中分析了并行挖掘算法和分布式挖掘算法,以及单OLAP服务器系统上关联规则挖掘的缺点。在此基础上改进并提出了并行多维关联规则挖掘算法和增量更新算法。
论文首先对关联规则挖掘算法和OLAP理论作了全面的分析,尤其是对并行关联规则挖掘算法和多服务器系统进行了深入的研究。将联机分析处理技术(OLAP)同有效的并行关联规则挖掘算法结合起来,提出了改进的挖掘算法,这种挖掘算法具有稳定性、多维性、多层次的特点。然后重点讨论了基于J2EE构架的挖掘系统的应用体系结构,这种结构提高了系统的可靠性、可重用性和可维护性。
论文最后对系统进行全方面的优化,具体包括数据仓库的优化以及系统的整体优化。