论文部分内容阅读
数据采集和存储技术的进步使得人们拥有数据的能力急剧提高,并且已有数据还在不断呈指数级的速度增长。隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述以及对其将来发展趋势的预测,这些信息在决策制定的过程中具有极其重要的参考价值。数据挖掘技术是对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解;发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。离群数据挖掘是数据挖掘的一个新兴课题,在实际生活中有着广泛的应用。对离群数据的发现分析,往往可以使人们发现一些真实的、但又出乎意料的知识。目前,离群数据挖掘正逐渐成为数据库、机器学习、统计学等领域研究人员的研究热点。关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,因此,关联规则挖掘的研究和应用已经得到了数据库、人工智能及统计学等领域里学者的极大关注,并取得了不少的研究成果。传统的关联挖掘算法大多是基于Apriori算法,该类算法在挖掘密集数据库时遇到了很大的困难。Apriori算法是一个逐层迭代和候选产生-检测算法。算法扫描数据库次数与最大频繁项集的长度相等,随着数据库规模增大,最大频繁项集长度增加,算法扫描数据库耗时将大大增加;大量候选项集的产生将占用大量CPU计算时间。此外,大量中间结果的产生,也使内存瓶颈问题非常突出。为了解决密集数据库上关联挖掘困难的问题,论文在第二章介绍了一种基于Apriori算法的改进算法。新算法针对Apriori算法不足之处作如下改进:引入兴趣度以消除不需被重视的规则,从而解决了规则没有价值,甚至错误的问题;在数据结构中包含信息的标识符链表Tidlist,并对1-频繁项集L1作幂集运算,以达到扫描原数据库仅需一次的目的从而极大的提高了挖掘的效率。关联规则挖掘的目标是找出满足最小支持度、最小信任度的属性值及属性值组合,而离群数据挖掘的目标是搜索小于某一阈值(即最大离群支持度maxsup)的数据项集。本文针对数据挖掘中的离群挖掘,将基于关联规则的挖掘思想应用其中,形成基于关联规则的离群数据挖掘。文中将改进的Apriori算法应用到离群数据挖掘中,实验结果说明了此方法的高效性并且具有高效性和实用性。离群数据挖掘系统是离群数据挖掘理论与实际应用之间的一个桥梁,其在离群数据挖掘研究中扮演着重要的角色。本文在前文对关联规则挖掘方法在离群数据挖掘中应用研究的基础上,提出了一个包含关联规则挖掘算法的离群数据挖掘系统的框架,并对其中的关键技术做了详细的分析。