数据流中频繁项集挖掘算法及其应用研究

来源 :五邑大学 | 被引量 : 1次 | 上传用户:mistbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流研究是目前一个新兴的热门领域,国内外学者提出了各种数据流处理的技术、算法和具体应用。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、高速的、数据分布随着时间而改变的数据序列。数据流频繁项集挖掘是数据流挖掘领域的基本问题之一,已经引起国内外研究者的广泛关注,提出了许多有效的数据流频繁项集挖掘算法。针对数据流的特点,论文对数据流处理模型和数据流挖掘中的关键问题做了介绍,对当前的一些数据流频繁项集挖掘算法进行了分析,比较和总结。本文在此基础上,提出了一种实时的挖掘数据流近似频繁项的算法(NEC算法)和基于滑动窗口的数据流频繁项集挖掘算法(SWFPT-Miner算法)。NEC算法在允许的偏差范围内,能有效地挖掘数据流中的所有频繁项。在有限的存储空间和及时处理数据流的前提下,降低了数据项的最坏处理时间,满足在线实时分析处理要求,提高了输出结果的精确率。理论分析和实验验证了这种方法的有效性。SWFPT-Miner算法采用分段的思想,逐段挖掘频繁项集,通过挖掘局部频繁项集,可以有效地挖掘所有的频繁项集。通过滑动窗口技术,可以快速获取最近一个时期内的频繁项集。分析和实验表明算法有较好的性能。最后,在研究数据流频繁项挖掘的基础上,实现了一个基于数据流挖掘的网站排名应用系统。
其他文献
如今,网络上存在着大量的异构数据源,其中包含有海量的文本数据(FlatText),关系数据,以及XML等半格式化数据.这些数据源往往表达着相似甚至相同的语义,但彼此之间却是异构的.
本文主要探讨基于XML的电子表格文档格式转换技术。由于XML语言具有开放、可扩展等特点,越来越多的文档格式开始采用XML语言描述,其中包括UOF和Open XML。为保证文档的安全性和
本文提出了一个应用于无线传感器网络的定位算法。该定位算法具有可扩展、分布式和距离无关等特点。在无线传感器网络中,位置信息对无线传感器网络的应用至关重要。高精度、低
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数
当前,全球信息技术产业正着一场声势浩大的“云计算”浪潮。云计算的资源存储在云供应商的虚拟机集群上,本地计算机只需要通过互联网发送一个任务请求,云端就能够根据用户的
互联网技术的发展日新月异,参与到网络中的用户越来越多,各类方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博、网易微博等,极大的改变了人们获取信息
你真的了解自己的网站吗?每天有多少人访问您的网站?现在有谁正在您的网站上?他们做了什么?他们从何而来?搜索引擎为您带来多少点击?访问者搜索的关键词是什么?您的哪个栏目
随着移动互联网与智能手机的普及,人们处理事务的方式已经从线下转移到线上,申请书签字、在线购票与换票、开锁等日常生活事务都可以用手机来完成。因此本文设计并实现了一个
道路交通标志提供指示、警告信息,规范驾驶员的行为,为安全、便利的驾驶提供可靠保障。交通标志自动检测与识别作为驾驶辅助系统的首要任务之一,近年来受到越来越多的关注。
随着移动互联网的蓬勃发展,面对海量用户数据,如何对其进行有效存储成为一个亟待解决的问题。压缩存储技术借助高效的压缩算法对用户数据进行压缩后存储,极大减小了数据存储