论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系。通常,对于一个规则的衡量有两个标准:支持度和可信度。挖掘关联规则的问题就是找出这样的一些规则:他们的支持度和可信度分别大于用户指定的最小支持度和最小可信度。长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。 FP-增长算法是一种基于模式增长的频繁模式挖掘算法,它只需要两次扫描数据库,避免了大量候选项集的产生,效率比Apriori算法快一个数量级。然而,此算法也存在着局限性和不足。它的不足和局限性主要表现在以下三方面:①FP-增长算法只是用来挖掘单层、单维的频繁模式,并且只能设定统一的最小支持度,这将会导致丢失支持度较低的有效集合。②当数据库很大或挖掘时设置的最小支持度阈值很小时,构造基于整个数据库的FP-树不能存放入内存,使得FP-增长算法不能很好地对大型数据库进行挖掘。③在构造FP-树的过程中,必须对数据库中每个事务的每个频繁项逐个进行判断,决定如何插入到树中,严重影响了算法效率。 本文针对FP-增长算法的不足,设计了一种新的算法——MPFP算法,新的算法很好地解决了算法的不足。MPFP算法有以下几种优点:①可以挖掘多维、多层数据,并在不同层次间可以指定多个不同的最小支持度来进行关联规则的挖掘。②对于大型数据库采用了将数据库划分成投影数据库的集合并对生成的投影数据库构造能够存放于内存的FP-tree树。③在构造基于投影数据库的FP-树时,采用了一种树和投影技术相结合的方法,按层次构造基于投影数据库的FP-树。算法具有良好的可伸缩性,同时大大提高了系统的性能。 然后,根据新的关联规则挖掘算法——MPFP算法,结合航运企业业务的实际情,设计了面向航运企业的数据挖掘模型RS--MINER,在挖掘模型RS一MINER的实现过程中,运用支持多平台的JAvA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等,并对获得的模式进行了简单的解释和评估。RS一MINER挖掘模型以航运行业为背景,功能完善,操作简单,可扩展性强。