论文部分内容阅读
在爆炸式增长的Internet面前,许多用户表现得不知所措,因而无法快速有效的利用网络上大量有用的知识。与搜索引擎或网站导航等技术相比,个性化推荐可以主动收集用户的个性信息,为不同用户提供不同的访问建议,数据挖掘技术则是个性化推荐中信息收集的有效手段。近年来,信息技术的发展为数据挖掘提供了一些新的数据源,进而发展出一些新的挖掘技术,如从WWW上相关数据中抽取用户感兴趣的、潜在有用的模式和隐含的信息的Web挖掘,在数据流上动态地发现数据变化情况的数据流挖掘等等。本文将Web挖掘与数据流挖掘技术结合起来,以数据流上的频繁模式挖掘方法处理Web点击流数据,更为及时地把握用户的访问行为变化,更好地为个性化推荐系统提供有用信息。
本文研究了大量现有的数据流上频繁模式挖掘算法,在传统字典树结构的基础上,提出一种改进的结构——IL-TREE,用以直接定位所需模式,以达到快速更新模式以及快速启发式增长的目的。结合启发式思路与倾斜时间窗方法,提出一种新的时间窗口策略,可以对新模式进行更为准确的估计,并且提供更细的窗口粒度。结合IL-TREE与启发式倾斜时间窗,提出了FPIL-STREAM算法,能够以较快的速度实时挖掘数据流中的频繁模式,并提供较细粒度的查询。
本文介绍了我们的个性化推荐原型系统SmartWeb,并说明了各模块的相关任务以及对应数据源。在SmartWeb系统中,FPIL-STREAM算法针对的数据源是Web点击流数据,本文根据其特点对FPIL-STREAM算法做了一些改进,引入兴趣度阈值以防止过多无用模式被发现。改进算法以类FP-TREE的结构保存最近一些数据,降低了兴趣度阈值带来的模式发现延后问题的严重性,并给出了改进后的时间窗估计策略。