论文部分内容阅读
数据挖掘为自动和智能地把海量的数据转化成有用的信息和知识提供了强有力的手段,尤其是在网络迅速发展和电子商务竞争不断激烈的今天,数据挖掘的作用更加的凸显。序列模式挖掘是数据挖掘重要的研究课题之一,是指从序列数据库中寻找频繁子序列作为模式的知识发现过程,在很多领域都有实际的应用价值,如客户购买行为模式的分析、Web访问模式的预测、疾病诊断、自然灾害预测、DNA序列分析等。随着以人为中心的交互式应用和数据的动态更新背景的日益增多,频繁模式的动态维护需求不断增长,这些都不断地刺激人们寻找更好的解决办法来尽可能地降低挖掘的代价,因而动态数据库的增量式序列模式挖掘成为序列模式挖掘在未来的研究热点。本文基于序列模式挖掘、Web服务器日志和电子商务等相关理论知识,运用文献研究、实证分析及定性定量分析相结合的方法对电子商务网站基于服务器Web日志的增量序列模式挖掘问题进行了研究,文章主要从以下四个方面展开:第一,整理和分析先前序列模式挖掘算法的相关文献资料。介绍序列模式挖掘的概念、作用和国内外研究现状,归纳现有序列模式挖掘方法中亟待解决的问题;从基本序列模式,闭合序列模式,多维序列模式,周期序列模式等不同角度对相关理论进行了梳理,为本文增量挖掘算法的提出以及特征分析提供理论基础。第二,结合理论研究,在借鉴算法优点基础之上,提出一种适于Web访问序列模式的增量挖掘算法。该算法采用扩展网格结构作为存储结构,具有占用空间小和获取信息便利的优势,同时能够根据数据库动态变化而变动结构。针对数据库更新、网站结构变化和最小支持度阈值调整三种影响挖掘结果的情况提出相应算法,为模型的构建奠定了基础。第三,构建基于Web日志的增量挖掘模型。模型分为四个模块,第一块是网站结构内容分析;第二块是数据预处理;第三块是Web访问序列模式增量挖掘算法的实现;第四块是实验结果的分析与解释。第四,本文以购物网站的真实Web日志数据为研究对象进行实例分析。运用SQL-server2005实现数据的预处理过程,通过Visual C++6.0SP6软件编译算法对数据运行测试,并根据挖掘结果,从管理学的角度为购物网站设计者提出一些建议。经实验证明,基于Web日志的增量序列挖掘算法IncWTP可以适应数据库动态变化特征,利用先前已发现的信息来挖掘网站用户访问序列模式,避免重新挖掘整个数据库,并当Web日志数据库更新或支持度阈值调整时,挖掘效果和效率均高于当前普遍使用的数据挖掘方法。