基于XML和关联规则的Web日志挖掘研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户：qq380612428

【摘要】

：

随着信息技术的迅速发展和Internet的普及，Web日志资源越来越丰富。如何充分利用这些资源，从中提取出用户所感兴趣的信息数据，是当前计算机领域的一大挑战。Web日志挖掘就是利用

【作者】

：

钟保辉

【机构】

：

浙江理工大学

【出处】

：

浙江理工大学

【发表日期】

：

2007年期

【关键词】

：

Web日志数据挖掘 XML 关联规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的迅速发展和Internet的普及，Web日志资源越来越丰富。如何充分利用这些资源，从中提取出用户所感兴趣的信息数据，是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘，其研究目的在于发现用户浏览网站的行为规律，改善站点的结构和页面间超链接结构，提高站点服务质量以及提供在电子商务中的决策支持。本文主要从以下五个方面对Web日志挖掘进行了系统研究。第一，对Web挖掘、Web日志挖掘的定义、分类和过程进行了概述，阐述了本文的研究背景、Web日志挖掘的研究现状和面临的问题；第二，介绍了XML技术及其在Web日志挖掘中的应用；第三，结合XML的优势和Web日志数据的半结构化特点，提出了一种基于XML文档存储的Web日志挖掘系统模型，并具体地分析了Web日志挖掘预处理过程；第四，详细介绍了XML模式与关系模式映射方法，并用代码具体实现了其中的一种XML格式的文档在关系数据库中的存储方法；第五，对关联规则挖掘理论特别是关联规则挖掘算法进行了研究。关联规则挖掘算法中，很多算法都基于Apnori算法进行计算。本文对Apriori算法进行了分析研究，针对该算法的不足提出了一种优化改进算法Apriori_SQLBit，从三个方面考虑对算法进行改进：(1)根据用户浏览页面的时间，构建了用户浏览兴趣度权值。在产生频繁项集时，采用了加权的支持度和可信度，这样挖掘出的关联规则将更符合用户兴趣；(2)降低候选项集中Gk候选项的数量。利用频繁(k-1)-项集Lk-1产生Gk之前先对Lk-1进行一次裁剪，从而减少候选项集，裁剪的依据是，在Lk-1中，如果某子项的加权支持度小于最小加权支持度，则该项不可能是频繁k-项集Lk的项；(3)采用位图权值格式来存储事务数据项集，能方便地进行支持度的计算。为了验证改进的算法是行之有效的，本文选择了两个数据库作为试验：酷秀网(http://www.kuxiu.com)的用户访问日志和浙江理工大学校庆网(http://xq110.zstu.edu.cn/)的日志数据。基于这两组数据，本文针对各种不同的最小支持度对优化改进算法进行了测试，然后对多种算法下的实验结果进行了比较，其结果充分说明了Apriori_SQLBit优化改进算法能有效地提高关联规则挖掘的效率。

其他文献

基于模型驱动的工作流运作环境的研究

目前,企业工作流技术的研究成果未能有效满足企业工作业务发展的需求,在企业过程工程从理论到实践再到理论再指导实践的发展过程中,企业工作流技术研究正处于实践到理论的提

学位

模型驱动工作流引擎企业工程

中国书画水墨的计算机仿真研究

中国书画水墨的计算机仿真研究，是计算机图形学和中国书画艺术发展的交汇点，无论在科学还是在艺术层面，都有着深远的意义和影响。用计算机模拟绘制各种艺术风格的图像也是计算机

学位

中国书画水墨计算机仿真艺术风格物理模型

水电仿真软件中调节模块的实现与优化

水电仿真软件是一个大型综合的实时仿真系统,能够真实地反映了整个电站的运行工况,实现在多种工况下的机组启动、停机和正常运行的监视及操作。水电仿真软件采用纯粹的软件方

学位

水电仿真软件调节模块模糊PID算法实时工作间微粒群算法

NHSecure索引和并发控制机制的研究与实现

信息技术的迅速发展使数据库的应用得到了极大的普及,数据库管理系统作为数据库存储和处理数据的核心软件,实现了更有效和更安全的创建、管理和保存大量的数据,其实现中的各

学位

索引并发控制B/S模式安全数据库数据库管理系统

基于自适应谐振理论的网络异常检测及其优化方法

随着计算机和网络的普及，计算机系统和网络的安全问题日益突出。入侵检测是解决网络安全问题的主要方法之一。入侵检测分为基于误用的方法和基于异常的方法。异常检测是检测任

学位

自适应谐振理论网络异常检测优化方法权值矩阵

基于形状描述的商标图像检索研究

基于内容的图像检索(Content-basedImageRetrieval，简称CBIR)技术近年来得到了快速发展，现已广泛地应用于图像处理、计算机视觉和商标图像数据库等领域。该技术主要是利用图像

学位

商标图像检索遗传算法计算机视觉

三维微阵列频繁闭模式挖掘算法的研究与实现

人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。

学位

生物信息学微阵列芯片三维频繁闭模式挖掘MFCC算法基因表达值

基于最大熵原理的汉语词义消歧与标注语言模型研究

词义消歧一直是计算语言学领域的一个重要研究课题，对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响，可以帮助解决语言信息处理中的一系列理论

学位

最大熵原理词义消歧词义标注知识融合词义自动标注语言信息处理

移动IP网络的安全性分析及解决方案研究

移动IP技术的出现，使人们得以在不改变移动节点IP地址的情况下，实现了对本地系统的远程访问，简化了网络的管理。但是，在移动IP传输数据的过程中，数据随时有可能受到攻击者的拒绝服

学位

移动IP网络网络安全网络管理拒绝服务攻击MIPV4协议

基于CT图像的肺部肿瘤三维分割研究

在医学图像处理领域，肺部肿瘤的分割是一项具有实际应用价值的课题。基于精确的肺部肿瘤分割结果，可以进行相应的三维重建、分析解剖结构和计算肿瘤体积等相关研究，从而为医生提

学位

肺部肿瘤计算机断层扫描图像三维分割算法水平集理论模型深度学习理论模型

基于XML和关联规则的Web日志挖掘研究

其他学术论文