Apriori-TIDS算法设计及其在教育决策信息挖掘中的应用

来源 :上海海事大学 | 被引量 : 9次 | 上传用户:zlzlzl567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘起源于20世纪90年代初期,它是知识发现过程中的一个关键步骤,也是当前知识发现领域中的一个研究热点。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数据项集之间有趣的关联或相关联系。 本文结合研究课题《教育管理决策中的关联规则挖掘》进行了一系列的研究,重点研究了经典挖掘算法的缺陷及其改进的途径,并将其应用到教育管理决策挖掘中,主要研究工作包括以下几方面内容: (1) 对关联规则挖掘的经典算法进行了分析。关联规则挖掘最经典的算法是Apriori算法,该算法的最大的缺陷在于需要重复扫描数据库来计算侯选项集的支持度计数,从而严重影响了算法的运行效率。本文通过分析该算法扫描数据库所需要的时间开销来具体说明这一不足之处。 (2) 针对Apirori算法的这一缺陷,本文提出了一种改进的算法——Apriori-TlDS(Apriori Transaction Identifier Set)算法。Apriori-TIDS算法的特点在于:利用事务的TID集合来计算侯选项集的计数。即:在首次扫描数据库生成候选1-项集的同时,记住包含每一个项集的事务标识符TID集合。这样,只要统计侯选项集所对应的TID集合的元素个数,就可以得到该侯选项集的支持度计数,从而找到频繁项集。生成下一级侯选项集时,只需将用于相连接的两个频繁项集的TID集合相交,就得到了该侯选项集的TID集合。依次类推,直到找到所有的频繁项集。与Apriori算法不同的是,Apriori-TIDS算法只在产生侯选1-项集时需要遍历一次原数据库,其他侯选项集的支持度计数的计算只需统计相应TID集合的元素个数即可,而不必象Apriori算法那样反复的遍历数据库,从而大大节省了访问数据库的时间。 本文从理论上论证了Apriori-TIDS算法的可行性,并根据关系数据库的特点,将该算法编写为ORACLE后台存储过程,应用于关系数据库的多维关联规则挖掘。为便于比较,我们将原Apriori算法也编写为ORACLE数据库存储过程,实验证明,
其他文献
无线局域网是计算机网络与无线通信技术相结合的产物,在开放的信道中传输数据,这是无线局域网与局域网的最大差别。无线局域网的物理层传输技术决定数据传输速率,采用何种传输技
脑电信号作为与大脑活动联系最为直接的生理信号而成为了情感研究领域与人机交互领域的热门课题。现代的人机交互系统大部分都不能有效地识别人类的情感状态并驱动机器来执行
智能网(IN,Intelligent Network)是在原有通信网的基础上,为了快速方便地提供新业务而设置的一层叠加网络。CAMEL(Customized Applications for Mobile network Enhanced Logic
随着国内通信市场进入成熟阶段,基础语音业务的利润空间逐步减小,语音增值业务成为运营商和增值业务提供商关注的焦点之一。与此同时,建立合理科学的语音增值业务管理系统成为推
随着现代城市的发展,地下管线已成为人民生活和经济活动的命脉,也成为城市赖以生存和发展的物质基础。利用先进的地理信息系统技术和方法实现对地下各类管线的管理,满足行政管理
形状对齐技术是计算机视觉和计算机图形学等领域的研究热点之一。需要解决的主要问题是快速准确的对齐空间中的两个或者多个物体,以便形状对齐技术可以更好的应用在文物修复
事务作为数据库发展过程中最基本的概念之一,已在各种电子商务平台、企业信息化平台中获得了日益广泛的应用。然而,在全球网络化大潮汹涌澎湃的今天,Internet已经逐渐替代以
本文分析了当前输变电施工进度网络图优化存在的主要问题和当前优化技术的发展趋势和现状。深入研究和分析了粒子群优化算法,根据算法的进化公式,提出了四种优化模型、并分析
本文论述了基于统计的汉语自动分词系统的原理和过程。本文首先回顾了分词的发展历史,总结了分词的目标,分析了分词存在的问题,总结了前人对基于语料库的统计分词理论的研究
随着相关技术的快速发展,视频图像处理技术在智能交通、智能安防等很多行业与领域取得了成功应用。面对当前大型会场越来越普及的现实情况,在线准确把握会场状态,提高服务质