基于关联规则的Web日志挖掘技术研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:hechangying1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着个人计算机的普及和Internet技术的迅速发展,越来越多的人开始从网上寻找、搜集所需要的资源,来满足各种需要。Web服务器以日志的形式记录了用户的这些行为,同时随着人们网上活动及交易的日益增多,以及大容量存储设备的出现与运用,Web服务器上的日志记录也越来越多,这使得深入研究用户浏览站点的行为规律以及分析Web站点的性能,改善网站拓扑结构和页面间的超链接结构,为用户提供更好的服务成为可能,由此产生了Web日志挖掘。本文以西安科技大学50周年校庆日志记录为基础,主要从以下几个方面对Web日志挖掘进行系统的分析与研究。首先对数据挖掘、Web数据挖掘、Web日志挖掘进行了概述,详细介绍了日志记录的内容与格式,并给出了Web日志挖掘的流程;其次对Web日志挖掘中数据预处理技术进行了分析与研究,详细分析了传统的数据预处理阶段中的各项任务,并在此基础上对预处理的步骤进行了简化,这个简化算法从会话识别直接到事务识别,而不经过路径补充;接着介绍了关联规则的一些基本概念,然后重点讲述了基于关联规则的挖掘频繁模式的经典算法——Apriori算法,通过实例分析了Apriori算法求频繁项集的具体过程,并根据网站的拓扑结构提出了一个改进算法,然后结合实例说明了改进的Apriori算法是有效且可行的;最后介绍了用频繁项集求关联规则的方法,设计并实现了一个简单的数据挖掘原型系统,通过日志数据得到了关联规则,并采用实际网页截图的形式对关联规则进行了分析,结果表明通过这样的挖掘分析,有利于了解用户的浏览习惯与改善站点的设计。
其他文献
作为信息系统核心的数据库管理系统,保存着大量敏感信息。需要采取有效措施防止非法用户的访问。仅有自主访问控制,不能控制信息在不同安全级别的主体间传播。强制访问控制通
无线传感器网络的资源很有限,却集成了监测、控制以及无线通信等多种功能。因此,无线传感器网络资源的节省显得尤为重要。网络编码理论的提出,为提高网络性能、节省网络资源
随着互联网(Internet)近几年来的飞速发展,互联网上提供的信息也呈现爆炸式的增长态势,面对Web信息以几何级数不断增长的情况,如何能够快速获取对用户更有价值的、更有质量的信息
P2P已经成为近年来的研究热点,它具有可扩展性,容错性等特点,在P2P环境下进行资源定位是P2P研究的核心问题,目前P2P已经应用于很多领域,但如何在大规模的P2P网络中进行可扩展
随着计算机技术和网络通信技术的迅猛发展,视频业务的普及已成为不可阻挡的潮流。在这股浪潮中,仅对视频传输协议进行监测的业务已不能满足市场的需求,而对视频质量进行监测
无线传感器网络的飞速发展产生了一系列新的应用,同时也带来了技术上的新需求和新挑战。传感器网络灵活多变、自组织等特色奠定了独特而广泛的应用背景。由于传感器网络中的
RFID(无线射频识别)技术具有广泛的应用前景。如何从大量的、语义隐含的RFID原始数据中,实时监测出具有高级语义的复杂事件,为企业决策和管理提供数据支持,是当前研究的热点
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使
随着人们对广域网上分布资源共享需求的与日俱增,网格技术已逐渐成为实现互联网环境下资源共享的主要方式之一。为了更有效地解决网格资源发现问题,在分析了传统衡量资源相似
随着我国经济迅速发展和计算机的普及,建立与之相适应的审计和监督机制已经迫在眉睫。本文在深入学习和研究SOA的先进架构理念和企业服务总线技术的基础上,提出了BEA Aqualog