论文部分内容阅读
网络技术和数据库技术的发展带动了企事业单位的信息化建设,日积月累,使得企事业数据库和数据仓库中存储了大量的数据,且很多大型企事业数据库是分布架构的.如何从分布环境下的企事业数据库中挖掘对企事业决策者有用的知识是一个具有挑战性的研究课题.近十年来,人们对分布多库环境下的数据挖掘技术进行了广泛而深入的研究,取得了许多研究成果,使其在商务管理、生产控制、市场分析、工程设计和科学探索等方面得到广泛应用,正日益受到了广大研究者的高度重视.该文就此领域从全局频繁项目集及全局最大频繁项目集挖掘与更新、数据库相似性度量及全局属性约简方法三个方面入手,进行 了较为深入的研究.论文工作的主要成果表现在以下几个方面:(1)改进了传统的全局频繁项目集挖掘方法,提出一种新的基于FP-tree的全局频繁项目集挖掘模型.在此模型中,FP-tree可压缩存储各局部数据库,通过传送条件模式基或条件频繁模式树可减少网络通讯量,因而可为分布多库环境下的全局频繁项目集挖掘提供一种新的框架.(2)引入条件概念格的概念,提出一种新的基于条件概念格的全局最大频繁项目集挖掘模型.在此模型中,通过在各站点并行建立的条件概念格可获得所有的全局最大频繁项目集,为概念格在分布多库环境下的数据挖掘技术研究提供了新的思路,也为数据挖掘的模式可视化表示提供新的途径.(3)提出基于FP-tree的全局最大频繁项目集挖掘与更新模型,为在分布多库环境下含有较长模式的全局频繁项目集挖掘与更新提供了新的方法.(4)提出基于FP-tree的全局频繁项目集更新方法.在该方法中,利用已挖掘的全局频繁项目集和已建立的FP-tree可有效提高全局频繁项目集的更新效率.(5)提出基于条件概念格的全局最大频繁项目集更新方法.在该方法中,利用已建立的条件概念格可有效提高全局最大频繁项目集的更新效率.(6)提出基于最大加权频繁项目集的数据库相似性或相关性判别模型.在该模型中,不仅考虑项目集的频度还考虑项目集中各项目的重要性,确保挖掘出包含重要项目的项目集,从而提高数据库相似性判别准确度.(7)提出一种基于关联规则的单决策表属性约简模型,为单决策表的属性约简提供了一种新的框架.该模型可借用高效的关联规则挖掘算法,算法的可扩展性好,可用于大型决策表的属性约简,有效拓展了粗糙集的应用范围.(8)提出分布环境下的多决策表属性约简框架,将单机环境下的属性约简推广到分布环境,为分布环境下的粗糙集应用研究提供新的途径,也使粗糙集在分布环境下的应用成为可能.