【摘 要】
:
本文从理论、算法和应用三个层次研究了关联规则算法在Web日志挖掘中的应用。首先系统、全面地分析和论述了数据挖掘技术以及Web挖掘技术,着重研究了Web日志挖掘过程中各环节
论文部分内容阅读
本文从理论、算法和应用三个层次研究了关联规则算法在Web日志挖掘中的应用。首先系统、全面地分析和论述了数据挖掘技术以及Web挖掘技术,着重研究了Web日志挖掘过程中各环节的关键技术,特别是Web日志挖掘的数据预处理过程。其次,对关联规则挖掘的定义、性质、挖掘过程、挖掘算法以及研究现状进行了综述,对关联规则经典算法中的Apriori算法进行了深入研究与分析,针对其需要反复扫描事务数据库,造成大量I/O开销,影响关联规则挖掘效率这一不足之处,提出了新的改进算法Imp_Apriori算法,主要思想为:基于在实际关联规则挖掘中,项的数目远小于事务数目这一事实,提出将事务数据库转换成项数据库,项数据库以项为索引,其记录是涉及该项的事务的集合,之后挖掘就直接在项数据库上进行。针对Apriori算法和Imp_Apriori算法,开发出两个测试程序,对同样的数据集在相同支持度和置信度条件下,两种算法各自挖掘的时间进行比较,从而验证了算法改进的可行性。最后,在对Web日志挖掘理论和算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的“招生信息网”上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。
其他文献
随着当前各种手持设备、无线设备及信息家电等嵌入式产品的迅猛发展,嵌入式系统正在应用到社会生活的各个领域当中,便携式媒体播放器(Portable Media Player,PMP)成为人们日
教育的改革,不仅仅是教育思想的更新和进步,也是教育技术和手段的改进和提高。在各种教育机构的教学过程中,考试都是一个重要的环节,是衡量考生知识和能力的重要手段。随着计算机
随着现场总线技术应用的越来越广泛,出现了各种现场总线标准。其中,CAN总线标准作为一种技术先进、可靠性高、功能完善、成本合理的远程网络通讯控制方式,已被广泛应用到各个自
数字水印技术作为信息隐藏技术研究领域的重要分支,是实现多媒体版权保护与信息完整性保证的有效方法。与图像和视频水印技术相比,数字音频水印技术面临着更大的挑战。本文主
近几年,随着信息技术,无线通讯技术和计算机硬件技术的迅猛发展,移动数据库应运而生。 移动数据库也称为随身携带的数据库,它是指支持移动计算环境的分布式数据库,通常应用在掌
相同的问题可用多种算法解决,而所采用的算法质量的优劣直接影响算法甚至程序的效率,算法的质量直接体现在算法复杂度上。本文旨在样条权函数神经网络的基础上,研究第一类分
本文对赤峰学院自行设计开发的计算机应用基础课课程考试系统进行了介绍。该考试系统是一套基于Client/Server(客户端/服务器)架构的多层分布式网络考试软件系统。系统功能全
在信息检索方面,基于关键词和主题分类的传统的检索技术越来越不能满足用户的需求,而且由于网络用户的知识背景的差异和自然语言的多义性导致网上信息检索的查全率和查准率较