一种频繁子树挖掘算法在Web日志挖掘中的应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cjwmyzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网(Internet)的迅速发展,尤其是基于互联网的Web站点的广泛应用,Web已经成为目前世界上最丰富、最密集的信息来源。而日趋成熟的数据挖掘技术正好为Web数据的挖掘提供了技术基础。Web挖掘作为数据挖掘技术在Web数据分析与处理中的延伸,自然成为了当今数据挖掘领域中比较活跃的研究课题。Web挖掘技术主要包含了Web的内容挖掘、结构挖掘和使用挖掘。它们分别挖掘Web站点页面文件的内容、结构和用户对站点的使用信息。频繁模式挖掘是数据挖掘的核心任务之一,国内外学者在频繁项、序列模式挖掘方面已有较深入的研究。但是新兴的生物信息、数字图书馆、电子商务等领域提出了在复杂结构化数据中挖掘频繁子结构的要求。特别地,从有序标签树数据库挖掘频繁子树可为Web日志挖掘中的Web用户行为模式分析及Web用户分类、聚类等应用提供重要知识。频繁子树挖掘的一个重要研究方向是从标签树数据库中挖掘频繁子树。此前的研究表明,基于模式增长方法的序列模式挖掘算法在大型数据库上表现出较高的效率。可扩展频繁子树挖掘算法(SFTM)把模式增长方法运用到有序标签树数据库的频繁子树挖掘,并在此基础上改进了对搜索空间树的剪支方法。通过设计实现一个以频繁子树挖掘算法为核心的Web日志挖掘工具Webloger,把SFTM算法应用到Web日志数据的挖掘。在Webloger提供的框架下,把SFTM算法与一般算法分别在人工数据集和真实数据集上进行实验对比。实验结果表明SFTM算法是有效的,并且其搜索空间比一般算法有较好的收敛性,尤其在Web日志数据上较传统算法具有一定的优势。
其他文献
随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个
随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,因此人们希望能够对其进行更高层次的分析,以
本体技术已经发展成为知识表示、知识管理、知识共享、知识复用的主流技术之一,正成为Web信息检索、异构数据集成、数字图书馆、GIS、语义Web等研究领域共同关心的一个核心技
动态二进制翻译器能够在运行时将针对源体系结构编译的软件动态翻译成目标体系结构的软件并使之运行。尽管随着新的体系结构不断涌现,动态二进制翻译器技术越来越流行,但是动态
无线传感器技术的快速发展使得传感器网络的应用成为了现实,将传感器网络部署到监测区域后,可以源源不断地获得目标区域的相关数据。大多数无线传感网络应用中,传感器节点的
网络与信息系统是现代社会最重要的信息基础设施,已经渗透到社会的各个领域。保障网络和信息系统的安全关系到国家的存亡、经济的发展、社会的稳定。公开密钥基础设施PKI(Publ
随着计算机技术及人工智能等技术的发展,说话人识别在近几年也有了长足的进展。自从Reynolds提出将GMM(Gaussian Mixture Model,高斯混合模型)用于说话人识别之后,GMM便一直是说
随着人类对海洋开发的越来越重视,智能水下机器人(AUV ,Autonomous Underwater Vehicles)应用技术的相关研究也越来越深入。在当前AUV技术的各种研究领域中,环境认知是关键技
IP多媒体子系统(IMS)是第三代移动通信核心网络的重要组成部分,最初由第三代伙伴组织(3GPP)在第5版本中提出。IMS以IP承载网络为基础,采用SIP核心控制协议,提供对IP多媒体业务的
论文介绍和总结了网格计算中的关键技术——网格调度以及网格QoS的国内外研究现状,针对目前研究中存在的问题和不足,重点研究了面向QoS的网格调度优化机制和其中的资源筛选方法