多维多层数据挖掘算法MPFP的设计及其应用研究

被引量 : 1次 | 上传用户:guisq2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系。通常,对于一个规则的衡量有两个标准:支持度和可信度。挖掘关联规则的问题就是找出这样的一些规则:他们的支持度和可信度分别大于用户指定的最小支持度和最小可信度。长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。 FP-增长算法是一种基于模式增长的频繁模式挖掘算法,它只需要两次扫描数据库,避免了大量候选项集的产生,效率比Apriori算法快一个数量级。然而,此算法也存在着局限性和不足。它的不足和局限性主要表现在以下三方面:①FP-增长算法只是用来挖掘单层、单维的频繁模式,并且只能设定统一的最小支持度,这将会导致丢失支持度较低的有效集合。②当数据库很大或挖掘时设置的最小支持度阈值很小时,构造基于整个数据库的FP-树不能存放入内存,使得FP-增长算法不能很好地对大型数据库进行挖掘。③在构造FP-树的过程中,必须对数据库中每个事务的每个频繁项逐个进行判断,决定如何插入到树中,严重影响了算法效率。 本文针对FP-增长算法的不足,设计了一种新的算法——MPFP算法,新的算法很好地解决了算法的不足。MPFP算法有以下几种优点:①可以挖掘多维、多层数据,并在不同层次间可以指定多个不同的最小支持度来进行关联规则的挖掘。②对于大型数据库采用了将数据库划分成投影数据库的集合并对生成的投影数据库构造能够存放于内存的FP-tree树。③在构造基于投影数据库的FP-树时,采用了一种树和投影技术相结合的方法,按层次构造基于投影数据库的FP-树。算法具有良好的可伸缩性,同时大大提高了系统的性能。 然后,根据新的关联规则挖掘算法——MPFP算法,结合航运企业业务的实际情,设计了面向航运企业的数据挖掘模型RS--MINER,在挖掘模型RS一MINER的实现过程中,运用支持多平台的JAvA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等,并对获得的模式进行了简单的解释和评估。RS一MINER挖掘模型以航运行业为背景,功能完善,操作简单,可扩展性强。
其他文献
偏心分注井测调联动工艺继承了常规偏心注水工艺技术优势,井下管柱、执行标准、测试技术管理、堵塞器投捞等技术保持不变,实现了连续可调水嘴、测试数据实时直读、边测边调、
随着知识经济时代的到来,世界各国的竞争已演变为知识的竞争、人才的竞争。而人才的竞争从根本上说,是取决于人才的智力潜能的开发和利用。目前,大力培养人才,尤其是培养具有
自动化控制灌溉将充分发挥现有的节水设备作用,优化调度,提高效益。文章简要介绍了远程自动化控制系统的结构形式、工作原理及在节水灌溉中的应用。研制和推广节水灌溉控制新
电视剧名是剧作者争取潜在观众的关键。电视剧名选用好的词语,不仅可以传达电视剧的主题思想,还能激发观众的观看欲望。采用定量分析的方法,通过对2017年上半年国家广播电影
知识分子问题和党的事业密不可分,尤其是在知识经济时代来临,国际科技、人才竞争目益激烈的条件下,处理好知识分子问题具有极大的理论和现实意义。本文着重研究毛泽东和邓小平知
泻白散针对肺中伏火之病机而设,应用于治疗久咳、鼻衄、小儿多发性抽动症、便秘等疾病,拓宽了其临床运用范围,收效满意。
配送中心作为现代物流的重要一环,对于调节库存,实现资源优化配置,具有十分重要的意义。配送中心能否高效运转,不仅关系到企业竞争地位的高低和市场份额的大小,也关系到行业
口腔组织健康被世界卫生组织列为人类健康的十项标准之一,其中牙周病是口腔的两大类主要疾病之一。慢性牙周炎(chronic periodontitis)是最为常见的一类牙周病,约占95%以上,临
目的分析公务员群体的心理健康状况,为公务员心理健康促进工作提供依据。方法对1995—2012年间的73篇采用90项症状自评量表(SCL-90)研究公务员心理健康的文章合并样本29 954
本文首先分析了当前大学生就业中常见的心理问题的现状及其对学生造成的危害,然后针对这些问题提出了可行的解决办法,高校应该关注大学生的心理问题,运用适当的心理学方法对