论文部分内容阅读
随着信息技术的迅速发展和Internet的普及,Web日志资源越来越丰富。如何充分利用这些资源,从中提取出用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘,其研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及提供在电子商务中的决策支持。
本文主要从以下五个方面对Web日志挖掘进行了系统研究。第一,对Web挖掘、Web日志挖掘的定义、分类和过程进行了概述,阐述了本文的研究背景、Web日志挖掘的研究现状和面临的问题;第二,介绍了XML技术及其在Web日志挖掘中的应用;第三,结合XML的优势和Web日志数据的半结构化特点,提出了一种基于XML文档存储的Web日志挖掘系统模型,并具体地分析了Web日志挖掘预处理过程;第四,详细介绍了XML模式与关系模式映射方法,并用代码具体实现了其中的一种XML格式的文档在关系数据库中的存储方法;第五,对关联规则挖掘理论特别是关联规则挖掘算法进行了研究。
关联规则挖掘算法中,很多算法都基于Apnori算法进行计算。本文对Apriori算法进行了分析研究,针对该算法的不足提出了一种优化改进算法Apriori_SQLBit,从三个方面考虑对算法进行改进:(1)根据用户浏览页面的时间,构建了用户浏览兴趣度权值。在产生频繁项集时,采用了加权的支持度和可信度,这样挖掘出的关联规则将更符合用户兴趣;(2)降低候选项集中Gk候选项的数量。利用频繁(k-1)-项集Lk-1产生Gk之前先对Lk-1进行一次裁剪,从而减少候选项集,裁剪的依据是,在Lk-1中,如果某子项的加权支持度小于最小加权支持度,则该项不可能是频繁k-项集Lk的项;(3)采用位图权值格式来存储事务数据项集,能方便地进行支持度的计算。
为了验证改进的算法是行之有效的,本文选择了两个数据库作为试验:酷秀网(http://www.kuxiu.com)的用户访问日志和浙江理工大学校庆网(http://xq110.zstu.edu.cn/)的日志数据。基于这两组数据,本文针对各种不同的最小支持度对优化改进算法进行了测试,然后对多种算法下的实验结果进行了比较,其结果充分说明了Apriori_SQLBit优化改进算法能有效地提高关联规则挖掘的效率。