基于数据流的频繁项集挖掘算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:haungmg666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机技术、信息存储技术及互联网高速发展的今天,越来越多的企业提高信息化程度。在企业的实际应用中,数据挖掘正在被频繁的提起,作为一个多学科交叉应用领域的数据挖掘技术正在各行各业的决策活动中扮演越来越重要的角色。数据挖掘(Data Mining,简称DM)又称数据库中知识发现(Knowledge Discovery from Database),它是在海量的数据中抽取出未知且有价值的模式的一个非平凡过程,它的最终结果便于理解,是目前数据库研究领域的热点问题之一。本文主要介绍了基于数据流的频繁项集挖掘的基本概念和相关知识,介绍了经典频繁项集挖掘算法并对其优、缺点进行分析,主要研究工作包括以下两方面:第一、本文提出了一种基于WCF-tree加权滑动窗口数据流元项集挖掘算法(TWEM算法)。首先,考虑到数据在不同时间窗口内的重要性,允许用户定义窗口个数和各窗口权值;其次,利用WCF-tree挖掘闭项集;最后,结合各等价类内项集与相应元项集支持度不完全相同,保持一种可估算的关系的特性,挖掘元项集。实验结果表明,TWEM算法缩小了搜索空间,提高了程序的运行效率。第二、本文提出基于矩阵的数据流频繁模式预测算法(MFP算法)。MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要。该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集。实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的。信息量的不断增长和人们对数据挖掘技术应用的不断增加为频繁项集挖掘技术的发展提出了新的挑战,在未来的工作中要根据数据流本身的特点在存储空间和执行时间上提高算法的运行效率。
其他文献
随着Web服务的广泛应用与推广,Web服务技术已成为下一代面向服务计算的有效解决方案。但是网络上存在大量具有相似功能而非功能属性不同的服务,这样如何从这些海量的服务中快
随着数码采集设备的普及和多媒体技术的发展,互联网上的视频数据急剧增长。面对海量视频数据,如何进行视频的存储、组织、管理和分析,已经成为视频领域最主要的方向。目前处
随着经济全球化,社会消费结构、消费水平、消费市场随之发生了深刻的变革。为了增强竞争力,企业扩大规模、改变经营模式和生产结构,在生产管理中信息量成倍的增长。高效的仓
由于网络的异构性和接收者需求的多样性,源点需要根据实际情况为不同接收点进行多速率组播。分层组播将原始数据分层,根据不同接收者的情况进行多速率传输,被认为是解决网络
随着大数据时代的到来,互联网每天都会产生大量的文本信息,词语作为文本的基本组成单位,对词语语义的理解是文本处理的基础工作之一。词语相似度计算,是用一个具体的数值表示
如今,人们更习惯通过社交网络来了解时事,发表观点。随着微博的逐渐普及,越来越多的用户开始关注并使用微博,微博成为目前最流行的网络平台。微博话题为人们讨论热门事件提供
随着科技的飞速发展,现代生产和生活中用到的设备越来越先进。设备能否有效的运行,关系着经济效益甚至人们的生命安全。因此,有必要对故障诊断技术进行研究。由于故障诊断知识本身具有不确定性、不精确性,如何表示故障知识以及对其进行推理,是故障诊断系统需要解决的关键问题。Petri网作为一种图形化建模工具,可以很直观地表示系统并发、动态行为,将Petri网引入故障诊断领域,具有重要的理论价值和现实意义。模糊P
随着人们对高性能计算和分布式资源共享需求的增加,传统模式的计算和资源共享已经不能满足人们的需求。人们希望可以像访问电力资源一样随时随地的通过网络获取所需的计算、
无线传感器网络是由大量传感器节点组成的一种无线自组织网络。通过部署在监测区域,实现对该目标区域的实时数据监测和传输。因其广阔的应用前景,受到了人们越来越多的关注。由
在计算机染色配色的实际应用中,我们通常需要根据织物颜色的RGB值来求出相应的染料配比。本文通过对实验数据的分析,利用最小误差平均值法和牛顿迭代法建立相应的数学模型,最