论文部分内容阅读
数据挖掘作为一门新兴的交叉学科,其主要任务是面对庞大的应用数据库,研究并探索有效的信息提取方法,从海量信息库中提炼隐藏的有用信息。本文在分析传统关联规则算法的基础上,发现大多算法产生频繁项集时需要先产生候选项集,并且需要多次遍历整个数据库进行模式匹配。为了提高算法的运行效率,本文利用粒计算计算代价小的特点,用粒计算代替传统的模式匹配;同时,为了避免对整个数据库进行扫描,提出利用完全图划分挖掘区域的方法,只在可能产生频繁项集的范围内进行挖掘。主要研究内容如下:1、GRC_G算法。总结学习他人经验,对粒计算理论进行分析,把粒计算引入到关联规则挖掘中,提出了二进制粒和完全组合粒的概念;提出一种利用完全图缩减挖掘区域的方法。最后,给出该算法,并通过仿真实验证明了该算法具有较好的性能。2、T_GRC_G算法。分析常见的实际数据库中记录信息的多种属性特征可知,其中所蕴含的某些属性间的关联规则往往是遵循一定的规律成对共存,然而进行简单的频繁项集挖掘不能有效地发现这些规则。因此对GRC_G算法进行改进,并提出了挖掘双向关联规则的算法T_GRC_G。建立强双向关联规则和强弱双向关联规则的概念;为减少冗余规则的产生,提出一种删除冗余规则的方法。给出该算法,并通过仿真实验证明该算法能够有效地减少冗余规则的产生,并且能够发现也许会更有意义的强弱双向关联规则。3、MD_GRC_G算法。GRC_G算法虽然有效,然而在很多情况下,人们感兴趣的知识往往出现在多维空间中。为此,以GRC_G为基础提出该多维关联规则挖掘算法,通过事务投影的方法挖掘多维频繁项集,并在此基础上进行关联规则的产生。给出该算法,并通过仿真实验证明了该算法能够有效地发现多维关联规则,并且时间效率较高。4、为了更好的证明本文所提出的改进算法的有效性和实用价值,本文在实验室仿真测试算法性能的同时,选择中医药方剂数据库进行实际挖掘实验。实验结果表明本文的改进算法确实能够有效地发现实际应用中的有趣关联规则。目前,中医药领域尚未有引入数据挖掘理论进行研究的完善而成熟的先例。