论文部分内容阅读
数据挖掘是从海量数据库中发现人们感兴趣的、隐藏的、前所未知的知识。它涉及数据库、人工智能、机器学习、模式识别、知识工程、面向对象、信息检索和可视化等一系列技术。经过十多年的发展,它已成为关系数据库中最有前景的研究和应用领域之一。关联规则是数据挖掘的重要模式之一,它的研究有着极其重要的理论与实际意义。
Apriori算法是挖掘布尔关联规则的经典算法,而该算法在空间和时间复杂度上有着难以克服的局限性,存在多次扫描数据库和产生大量候选集的性能瓶颈。本文提出了一种基于链表变换的算法,详细地描述了链表的构造、插入和变换操作及由这些操作产生频繁集的整个过程。该算法只需扫描两次数据库就可发现所有频繁集,且不需产生大量的候选集,另外因完成链表变换的基本操作已有高级语言函数库的良好支持,故算法具有很高的效率。实验表明,所提新算法在一定数据集范围内相对于Apriori算法具有优越性。
由频繁集生成用户感兴趣的且具有价值的规则,是关联规则算法研究的重要内容。基于支持度和置信度的框架模型有可能生成支持度和置信度都很高,但却是用户不感兴趣的规则。本文在分析经典兴趣度模型的基础上,提出了一种新的兴趣度模型来消除虚假规则的误导。实验表明新的兴趣度模型与经典兴趣度模型具有一致的结果,但相对于经典兴趣度模型具有更好的粒度,更有利于挖掘否定项的关联规则。
本文研究了关联规则生成过程中可能出现的规则组合指数爆炸的问题,通过在支持度和置信度框架中引入兴趣度改进函数来使问题得以解决。本文最后根据简单匹配的思想,定义了两个规则的距离,从而实现了用聚类算法对生成的规则做整理,使用户得到更清晰的信息。