论文部分内容阅读
关联规则是数据挖掘中的重要方法与技术,在关联规则挖掘中,频繁的I/O操作必定会影响关联规则的挖掘效率,减少I/O操作的方法主要是:减少扫描数据集的次数;降低需要计算支持度的候选项目集的数量,并使候选项目集的数量与频繁项目集的数量接近。候选项目集数量的减少可以节省处理部分候选项目集所需的计算时间和存储空间,但是随着网络和经济的发展,分布式系统越来越多,在进行数据挖掘时,分布式关联规则在各节点间的协商与竞争、信息利用和网络通讯效率上存在的问题日益突出,严重影响关联规则挖掘的应用。利用关联规则的特点构建关联规则树,对树的搜索策略、分类策略及参数选择进行了研究。本论文的主要研究成果如下:(1)提出了基于压缩事务矩阵相乘、用户感兴趣项集和项集重要性的Apriori算法的改进方法针对关联规则挖掘的主要算法Apriori存在主要问题提出了减少数据库内部事务的方法、基于用户感兴趣项集和项集重要性的改进算法、基于压缩事务矩阵相乘的Apriori改进算法,并通过实例对改进前后的算法进行了分析比较。改进或优化后的算法减少了数据库扫描的次数、I/O操作次数和减少了需要计算支持度的候选项目集的数量,使其与频繁项目集的数量接近,节省了处理部分候选项目集所需的计算时间和存储空间,提高了关联规则的挖掘效率,解决了关联规则存在的主要问题。(2)提出了一套新的分布式关联规则挖掘算法CD算法、FDM算法等,这些算法存在的主要问题是不能很好地处理分区数较多的情形。把分布式关联规则挖掘算法作为一个决策问题,对支持度与支持数在数据库的不同分区间的传输进行协调。设计了全局支持度阈值函数H和局部支持度阈值函数P,对它们的优化是一个非常重要的开放的问题,在数据不对称时能快速地恢复,较好地克服了某些通讯障碍。分布式双重决策挖掘算法通过不采集大集合中所有的项目集来减少通讯,这些算法在一定程度上解决了DARM算法的通讯复杂性问题和线性的n和|C|通讯复杂性问题。新算法即使在数据不对称或者分区不平衡时依然很有效。对于这些算法的行为,给出了实验结果,并且说明了在不同设置环境中这些算法是如何实现的。(3)提出了基于文本关联规则挖掘的判定表归纳算法,构建了混合分类模型在人工智能研究中,分类是一个重要的问题。任何一种分类算法的目的都是通过给定一些想要建模的训练数据建立一种分类模型,并通过此模型来对新的样本进行分类或者获得可用数据的更好的理解。关联规则树分类器的精确度、复杂度和训练代价折衷使得它成为数据挖掘的强有力的工具。关联规则树对孤立点和主要的候选因素采用一种统一的方法处理,有效地降低输入数据噪声的影响,孤立点和主要候选因素对TDIDT算法都是不好处理的。和传统的判定表推理机不同,传统的推理机每次只发现一条规则,而关联规则树同时可发现多条规则。关联规则树不存在I/O瓶颈问题,其归纳过程比一般的判定表和规则推理机快,关联规则树可以通过有效的、可度量的方式建立分类模型。构建的分类器比利用标准的TDIDT方法建立的判定树更小。(4)提出了一种启发式的自动选择最佳规则集的方法关联规则树算法的第一步就是挖掘出训练数据集中的可能规则。如果预先给定的置信度阈值不合适就可能达不到预期的目标。如果实际数据集的支持度阈值设的太高就找不到关联规则也构造不出合适的判定表。此外,高的置信度阈值不一定有高的分类准确度,算法的训练时间也会显著的提高。在关联规则树中引入最小置信度阈值选择方法,在所设计的分类模型中,其参数可以自动适应,提高了关联规则树分类器的速度和准确度。(5)设计了基于关联规则挖掘的滑坡监测模型在滑坡区的典型不稳定体上设立监测点,通过定期监测这些点的变化获得滑坡区形变监测的数据,根据一定的目的对这些原始监测数据进行清理和转换,最后利用关联规则进行数据挖掘和知识发现的方法,达到滑坡监测的目的是可行的。其最后的知识结果简洁、明了,表达方式和人们的思维决策方式一致,并和滑坡区的自然现实一致,挖掘结果是可靠的。