事务间关联规则挖掘技术研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:pploa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。而关联规则挖掘作为数据挖掘中的一项根本性任务,其目标是在事务项目中找出所有的并发关系(Co-occurrence Relationships),这种关系也被称为关联。本文对传统的事务间关联规则算法和现有的负关联规则算法进行了系统的分析和总结,在此基础之上提出了新的算法思想,主要包括下面两个方面:首先,本文提出了以用户为研究对象,通过对大量用户的行为建立模型,来推测与其具有相似性的用户的可能行为。提出一种新的双策略模型,按照用户对网站的兴趣度将源数据库分割成为两类库,然后对其使用马尔可夫预测模型和事务间关联规则进行兴趣度预测,将复杂的源数据进行修剪,减少了多次重复扫描数据库的工作量,同时也减少了无用规则的产生,能更真实的反映用户的兴趣趋向,在增大算法精确度的基础上也有效的提高了算法的执行效率。其次,针对负关联规则挖掘问题,总结现有的挖掘负规则规则的方法,如利用兴趣度、相关性等,并指出其在挖掘负关联规则时仍然存在的不足。提出将相关系数和卡方检验相结合的方法,修正了单单使用兴趣度来度量相关性时产生的歧义,通过计算得出的结果来确定其是正规则、弱规则或者负规则,不仅能通过挖掘规则来使我们得到传统关联规则挖掘中得不到的潜在信息,还能甄别出传统关联规则挖掘中存在的误导规则,提高关联规则的实用性和适用性。在现实情况中,事务和事务之间总是存在着因果联系,而关联规则的任务就是找出这些联系。但是随着数据库的增大,数据项的冗余,关联规则结果的增多,数据挖掘的准确效率问题和关联规则结果的可信度问题越加凸显,通过双策略将数据库分而治之,通过负规则检验将误导规则去除,为关联规则挖掘理论研究提供了新的思路。
其他文献
随着文化建模的发展,背景知识开始用于预测恐怖组织在特定背景下的恐怖行为。组织的背景知识会影响组织采取的恐怖行为,因此利用组织的背景知识可以提高预测结果的准确率。目
多年以来企业和云提供商一直使用虚拟化的云平台运行应用程序,并且都是在虚拟机中运行。虚拟机技术提供整个硬件层的虚拟化,虽然实现了资源的隔离与控制,但使用成本较高。容
随着信息技术的飞速发展,人们日常的生活已离不开互联网。互联网给人们带来便捷的同时,由于多数网站不符合无障碍标准,使得残疾人无法像健全人那样方便的获取互联网信息。为
煤矿井下分站是煤矿监测监控系统的重要组成部分,是连接井下各数据采集模块与地面监控中心站之间数据传输的桥梁,承担了对井下各参数的采集以及实现分站和中心站之间所有数据
在教学管理部门的数据库中,存储了大量的学生各门课程的成绩数据,这些数据中隐藏着许多有价值的重要知识,如何挖掘出这些知识,对学生的学习和教学管理部门的教学管理,具有重
随着Internet的发展及信息的全球化,人们对不同语言的信息需求越来越多。对于大多数不精通外语的用户来说,想要获取需求的信息存在一定的难度。因此有研究者提出了对跨语言信息
随着生物分子序列数据的快速增长及人类基因组计划的实施,生物信息学逐渐发展起来。在生物信息学中,序列比对问题是生物信息学中最基本的也是最重要的问题之一,通过序列比对可以
随着近年来移动计算的快速发展,能耗问题越发地成为移动端图形应用的瓶颈。因此,限制绘制过程所需的能耗已成为新的需求。这篇文章中,我们提出了一个具有实时优化能耗功能的
脑组织图像分割在医学图像分析中具有重要的理论与应用价值。现有的很多图像分割方法都是基于传统统计学理论,是基于样本数趋于无穷大的渐近理论,而对于高维特征、小样本数的问
近年来,随着电子摄影产品的迅速普及,数字图像以惊人的速度涌现在网络上。如何从海量的图像中检索出所需图像成为一个亟待解决的问题。合理的图像标签顺序对图像检索和分析有