一种面向数据流的频繁模式挖掘算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zdx_comeon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在爆炸式增长的Internet面前,许多用户表现得不知所措,因而无法快速有效的利用网络上大量有用的知识。与搜索引擎或网站导航等技术相比,个性化推荐可以主动收集用户的个性信息,为不同用户提供不同的访问建议,数据挖掘技术则是个性化推荐中信息收集的有效手段。近年来,信息技术的发展为数据挖掘提供了一些新的数据源,进而发展出一些新的挖掘技术,如从WWW上相关数据中抽取用户感兴趣的、潜在有用的模式和隐含的信息的Web挖掘,在数据流上动态地发现数据变化情况的数据流挖掘等等。本文将Web挖掘与数据流挖掘技术结合起来,以数据流上的频繁模式挖掘方法处理Web点击流数据,更为及时地把握用户的访问行为变化,更好地为个性化推荐系统提供有用信息。 本文研究了大量现有的数据流上频繁模式挖掘算法,在传统字典树结构的基础上,提出一种改进的结构——IL-TREE,用以直接定位所需模式,以达到快速更新模式以及快速启发式增长的目的。结合启发式思路与倾斜时间窗方法,提出一种新的时间窗口策略,可以对新模式进行更为准确的估计,并且提供更细的窗口粒度。结合IL-TREE与启发式倾斜时间窗,提出了FPIL-STREAM算法,能够以较快的速度实时挖掘数据流中的频繁模式,并提供较细粒度的查询。 本文介绍了我们的个性化推荐原型系统SmartWeb,并说明了各模块的相关任务以及对应数据源。在SmartWeb系统中,FPIL-STREAM算法针对的数据源是Web点击流数据,本文根据其特点对FPIL-STREAM算法做了一些改进,引入兴趣度阈值以防止过多无用模式被发现。改进算法以类FP-TREE的结构保存最近一些数据,降低了兴趣度阈值带来的模式发现延后问题的严重性,并给出了改进后的时间窗估计策略。
其他文献
随着Internet的不断发展,老一代的网络协议已经不能够满足目前网络飞速发展的要求,特别是网络地址匮乏的问题,已经严重阻碍了网络的发展。为了解决这些问题,IETF提出了新一代的网
随着计算机及网络技术的日益发展,分布式系统或并行计算环境及应用得到了越来越多的重视与研究。分布式系统或并行计算环境常需要可靠的广播通信来保证分布式进程间的相互通
光伏新能源发电近年来得到了蓬勃发展,但大量的光伏能源并入交流主网后,也给交流主网的稳定可靠运行带来了诸多问题。光伏微电网因其可以很好的协调解决这些问题而成为研究热点,而光伏直流微电网相比于光伏交流微电网在伏发电的利用和控制方面具有更多优势。因此,本文以光伏直流微电网为研究对象,针对系统在并网与离网稳态、并网与离网间相互切换暂态、大电网故障穿越等三种不同状况下的能量协调控制展开了研究。(1)研究提出
本论文结合CIMS(计算机集成制造系统)和EAI(企业应用集成)技术的发展,对企业进行各个应用系统之间集成时企业应用集成的层次、实现方法和结构体系、中间件技术平台选择等方面
目前对网格环境下数据资源的研究和开发工作主要侧重于文件系统,但是数据库系统对于许多应用在数据存储、访问、组织、授权、重组等方面都有重要的作用。GdbAdmin系统致力于
本文通过对绘图机及以往光栅复制法的研究,针对传统光栅复制法印制光栅的长度有限,不能满足大幅面超大幅面喷墨绘图机定位的应用要求。提出了分段曝光、连续印制的设计思路,可获
本文在对国内外OLAP的理论研究和应用现状进行了广泛了解和深入分析的基础上,结合实际的工程实践,对OLAP技术和系统从两个方面作了一些探索和研究。一是对OLAP技术的基础理论
虚拟现实是一种高度逼真的模拟人在自然环境中的行为的人机界面,视景的生成与显示是虚拟现实技术中一项关键技术。本文通过对传统非结构网格的生成技术进行分析、研究的基础
学位
在计算机网络中,电子商务、视频会议和远程教育等业务中所涉及组播通信技术是当前研究的热点。组播是指同一信息从源节点传送到网络中多个目标节点(并不一定是所有节点)的通信
数字水印技术是信息隐藏领域的一个新的研究热点,是一种全新的数字产品版权保护技术,它是通过把特定的秘密信息以不可感知的形式嵌入到图像、文本、语音、视频等各种数字媒体中