含负项目的一般化关联规则算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dong33261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和互联网的普及以及数据库技术的发展,各个应用领域的数据库中都积累了海量的数据,通过数据挖掘分析和理解这些数据,揭示其中隐藏的有用信息成为当前最为活跃的研究领域之一。其中关联规则挖掘是数据挖掘的一个重要模式,具有重要的理论价值和广泛的应用前景。 关联规则就数据项之间的相关性来说,可以有正负关联规则之分。当前,正关联规则的挖掘受到了广泛的关注,而对于包含负属性或负项目的关联规则并未给予足够的重视。然而在很多应用领域中,事物的否定因素也是非常重要的信息来源,因此有必要研究事物负属性之间的关联关系。 论文基于传统的正关联规则和对新兴的负关联规则定义的修改,提出了含负项目的一般化关联规则。现有的挖掘负关联规则以及含负项目的关联规则算法为数不多,而且本质上都是基于Apriori思想的迭代算法,需要对数据集进行多次扫描,同时生成大量的候选频繁项集。论文提出一种新的挖掘含负项目的频繁项集算法,即基于频繁模式树的算法。该算法借用FP_growth算法中频繁模式树这种压缩存储事务的数据结构,通过频繁模式树进行模式扩展,挖掘含负项目的频繁项集。由于该算法的基本思想类似于FP_growth算法,因此具有无需多次扫描数据库,不用生成大量候选项集的优点。除此之外,该算法与直接使用FP_growth算法挖掘含负项目的频繁项集算法相比,无需对原始数据库进行负项目的扩展,也不用再构造并销毁额外的数据结构,只需在原始的频繁模式树上修改,在时间和空间的开销上都具有一定的优势。实验表明,论文提出的算法比现有的同类挖掘算法和直接FP_growth算法具有更好的效率。 另外,论文在借鉴Apriroi性质的基础上,提出了一个置信度性质,并引入了兴趣度作为关联规则的第三个测度参数。论文基于置信度性质和兴趣度阈值,并借用Apriori算法,从挖掘出的含负项目的频繁项集中提取出含负项目的一般化关联规则。论文另外对含负项目的一般化关联规则的矛盾性进行了讨论。实验结果表明,论文提出的改进算法是正确有效的。
其他文献
随着Internet的迅速普及,电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。本课题的研究内容是基于内容挖
Internet的迅速发展为人们获取信息和服务提供了新的途径,基于互联网的开放的学校管理信息系统已经成为一种重要的管理信息模式,它在提高工作效率、较为及时的提供各类教务信息
雾天条件下,由于大气中微粒的散射作用,成像设备获取的图像的亮度和颜色均受到影响,图像的质量严重下降,大大降低了视频图像的应用价值。本文在对基于增加对比度的图像增强方
随着计算机技术的广泛应用,对应用的需求不断增强,同时也带来了相应的问题,例如在人工智能、知识管理等多个领域,一个主要问题就是如何通过对具体领域中的概念进行一种通用的描述
数据挖掘是近年来发展十分迅速而且非常活跃的研究领域。关联规则挖掘是数据挖掘中的一个重要课题,关联规则挖掘侧重于确定数据中不同属性域之间的联系,找出满足特定要求的数据
随着科技进步和计算机网络技术的飞速发展,信息产业及其应用得到了巨大发展。政府、金融、电信等企事业单位及个人用户等对网络的依赖程度越来越高,同时也由此带来了信息安全
随着移动通信技术的快速发展,移动设备得到迅速普及。将有线网络环境下的数据应用扩展到移动应用领域成为当前研究热点和重点。1997年,根据卫生部的部署,医院信息化建设项目得到
随着“信息爆炸”时代的到来,分布式数据库得到了广泛应用。查询作为数据库应用的核心功能,在分布式环境中更具有复杂性。如何在分布式环境上进行优化查询,是衡量分布式数据库系
针对传统建模方法存在的基于ECA规则的工作流模型不易图形可视化以及不能很好支持复杂业务;基于Petri网及其变形的工作流建模在描述复杂业务过程时会使模型变得极度复杂且难于理解;基于活动网络的工作流模型缺乏柔性等问题,本文提出了一种基于扩展ECA规则的工作流建模方法。该方法不仅利用ECA规则的动态交互特性来描述模型,而且在结构上和主体组成上扩展了ECA规则,解决了ECA规则的语义在描述复杂过程时能力
作为智能控制的一个重要分支领域,基于神经网络建模的非线性系统鲁棒自适应控制近年来引起了人们越来越多的重视。本文就此领域的相关问题展开一系列研究,主要研究了一类非线