基于序列模式的Web日志挖掘

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:lleii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源,即信息迷失。当前我们主要采用搜索引擎来检索Web上的信息,但是大多数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。 直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘,从用户在Web上浏览行为数据中获取用户的浏览模式,根据用户的行为模式,改进站点的设计和服务,开展个性化服务和构建智能Web站点。 针对上面提出的问题以及解决办法,本论文系统地阐述了从数据挖掘、Web数据挖掘到Web日志数据挖掘整个过程。本论文使用了基于序列模式的挖掘算法对Web日志进行了挖掘,并对算法进行了实验,给出了实验结果,证明了本方法的有效性。 本论文首先介绍了当前Internet的发展以及数据挖掘在Web中的应用,并着重介绍了数据挖掘的相关概念以及技术,然后介绍了数据挖掘领域中Web日志挖掘相关方法,其中重点介绍了基于序列模式的Web日志挖掘技术。接下来论文详细阐述了Web日志挖掘的整个过程,从Web日志数据的预处理工作(数据净化、用户识别、会话识别、路径补充、事务识别)到使用序列模式对经过预处理的数据进行挖掘的方法。在Web日志挖掘算法中,使用了一种基于广度优先的序列模式挖掘算法,并对算法进行了详细的描述。我们使用java语言对算法进行了实现并对Web日志进行了挖掘,并且得出了挖掘结果。最后我们对挖掘结果进行了仔细的分析以及把该算法的挖掘结果与其他算法的挖掘结果进行了对比,实验证明我们的算法能有效挖掘出Web日志中的序列模式。最后,对论文作出了总结并对将来的工作做了展望。
其他文献
电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人的滥用。
随着互联网等信息技术的高速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如
网络技术的发展带动了远程教学的发展。但目前的远程教学平台有两个主要的缺点,一是采用实时视频的方式让师生面对面地进行学习的不多见,即便有也多采用CS结构,用专有的客户端进
本文结合西北工业大学航空微电子中心所承担的科研项目,作者负责高性能嵌入式微处理器“龙腾R2”验证和定点主控部件优化。在此基础之上,作者对“龙腾R2”微处理器上实现在线调
网络系统每天产生大量网络管理信息。引入数据挖掘技术对海量网管数据进行分析和处理,并将结果应用于计算机网络故障诊断对提高网络管理的灵活性、可靠性和稳定性具有重要意义
随着星上处理和星际链路技术的出现,卫星网络已经发展成为覆盖全球的新型互联网,并在通信领域中的地位不断提高。卫星网络具有覆盖范围广、布置迅速、组网灵活、抗毁性强且不
近年来,基于生物免疫原理的入侵检测技术受到研究人员的普遍关注。生物免疫系统承担着与入侵检测系统类似的任务,有效地保护了生物体,使之免受外来侵害。因而,研究如何将生物免疫
随着网络和分布式系统技术的飞速发展,大规模分布式系统数量将急剧增加。为了简化分布异构环境,人们采用自治域(Autonomous Domain)的方法将这种环境进行分割,因此从安全角度
如何实现软件工程工具信息共享是软件工程研究领域的热点之一,目前有多种方法:工具接口,中间格式,工具总线和信息库等。本文分析比较上述方法,针对目前软件工程教学实践的需要,利用
随着Internet的广泛普及以及计算机网络技术的飞速发展,现在越来越多的商业业务是通过Internet应用平台来实现的。为了适应发展需要,越来越多的企业信息系统和电子商务系统使用