基于XML和关联规则的Web日志挖掘研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:qq380612428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展和Internet的普及,Web日志资源越来越丰富。如何充分利用这些资源,从中提取出用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘,其研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及提供在电子商务中的决策支持。 本文主要从以下五个方面对Web日志挖掘进行了系统研究。第一,对Web挖掘、Web日志挖掘的定义、分类和过程进行了概述,阐述了本文的研究背景、Web日志挖掘的研究现状和面临的问题;第二,介绍了XML技术及其在Web日志挖掘中的应用;第三,结合XML的优势和Web日志数据的半结构化特点,提出了一种基于XML文档存储的Web日志挖掘系统模型,并具体地分析了Web日志挖掘预处理过程;第四,详细介绍了XML模式与关系模式映射方法,并用代码具体实现了其中的一种XML格式的文档在关系数据库中的存储方法;第五,对关联规则挖掘理论特别是关联规则挖掘算法进行了研究。 关联规则挖掘算法中,很多算法都基于Apnori算法进行计算。本文对Apriori算法进行了分析研究,针对该算法的不足提出了一种优化改进算法Apriori_SQLBit,从三个方面考虑对算法进行改进:(1)根据用户浏览页面的时间,构建了用户浏览兴趣度权值。在产生频繁项集时,采用了加权的支持度和可信度,这样挖掘出的关联规则将更符合用户兴趣;(2)降低候选项集中Gk候选项的数量。利用频繁(k-1)-项集Lk-1产生Gk之前先对Lk-1进行一次裁剪,从而减少候选项集,裁剪的依据是,在Lk-1中,如果某子项的加权支持度小于最小加权支持度,则该项不可能是频繁k-项集Lk的项;(3)采用位图权值格式来存储事务数据项集,能方便地进行支持度的计算。 为了验证改进的算法是行之有效的,本文选择了两个数据库作为试验:酷秀网(http://www.kuxiu.com)的用户访问日志和浙江理工大学校庆网(http://xq110.zstu.edu.cn/)的日志数据。基于这两组数据,本文针对各种不同的最小支持度对优化改进算法进行了测试,然后对多种算法下的实验结果进行了比较,其结果充分说明了Apriori_SQLBit优化改进算法能有效地提高关联规则挖掘的效率。
其他文献
目前,企业工作流技术的研究成果未能有效满足企业工作业务发展的需求,在企业过程工程从理论到实践再到理论再指导实践的发展过程中,企业工作流技术研究正处于实践到理论的提
中国书画水墨的计算机仿真研究,是计算机图形学和中国书画艺术发展的交汇点,无论在科学还是在艺术层面,都有着深远的意义和影响。用计算机模拟绘制各种艺术风格的图像也是计算机
水电仿真软件是一个大型综合的实时仿真系统,能够真实地反映了整个电站的运行工况,实现在多种工况下的机组启动、停机和正常运行的监视及操作。水电仿真软件采用纯粹的软件方
信息技术的迅速发展使数据库的应用得到了极大的普及,数据库管理系统作为数据库存储和处理数据的核心软件,实现了更有效和更安全的创建、管理和保存大量的数据,其实现中的各
随着计算机和网络的普及,计算机系统和网络的安全问题日益突出。入侵检测是解决网络安全问题的主要方法之一。入侵检测分为基于误用的方法和基于异常的方法。异常检测是检测任
基于内容的图像检索(Content-basedImageRetrieval,简称CBIR)技术近年来得到了快速发展,现已广泛地应用于图像处理、计算机视觉和商标图像数据库等领域。该技术主要是利用图像
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。
词义消歧一直是计算语言学领域的一个重要研究课题,对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响,可以帮助解决语言信息处理中的一系列理论
移动IP技术的出现,使人们得以在不改变移动节点IP地址的情况下,实现了对本地系统的远程访问,简化了网络的管理。但是,在移动IP传输数据的过程中,数据随时有可能受到攻击者的拒绝服
在医学图像处理领域,肺部肿瘤的分割是一项具有实际应用价值的课题。基于精确的肺部肿瘤分割结果,可以进行相应的三维重建、分析解剖结构和计算肿瘤体积等相关研究,从而为医生提