基于中小型站点的Web日志挖掘

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:li_qinglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘是W曲挖掘的分支之一,也是发展前景及应用价值最高的部分之一,是传统数据挖掘的延伸,与传统数据挖掘对象是结构化数据不同的是,Web日志挖掘的对象是半结构化的日志文件。日志文件记录了一个网站所有访问者的浏览行为,Web日志挖掘通过分析日志文件,得到访问者的浏览行为,访问模式,兴趣目标等信息,通过这些信息,一方面可以调整网站运营策略,使网站内容更符合用户兴趣爱好,一方面可以根据用户访问行为判断其需求趋向,调整企业或公司产品生产计划,更进一步,可以根据分析得到的用户访问模式,针对不同地址或不同用户的访问显示不同的页面,形成动态智能站点。 在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户操作系统类型、浏览器类型等。W曲日志挖掘过程一般由预处理、模式发现、模式分析组成,其中预处理阶段是最关键的一步,预处理包括日志合并、日志净化、用户识别、会话识别、事务识别五个阶段。本文在概述数据挖掘的基础上,介绍了W曲挖掘的概念、分类及现状,并重点讨论了W曲日志挖掘预处理阶段的各项技术及方法,对如何清洗过滤Web日志中保存的内嵌元素访问信息进行了深入研究及实验,提出了一种新的净化方法以细化数据粒度,对W曲日志中的机器人访问记录清洗算法进行了探讨,最后,实现了一个监视指定服务器端口同时在数据库中记录访问服务器数据包的系统,将尽可能详细的用户访问行为转化为数据项保存到数据库中,为将来实现更精确的数据挖掘打下良好基础。 最后文章总结了论文工作的主要成果及需要改进的地方,对本领域未来发展作出展望。
其他文献
本文首先对已有的P2P结构和算法进行了深入分析和讨论,对现有的Chord算法进行改进,提出了一种改进结构——MultiChord。它是一种基于层次的Chord系统,为网格数据服务的分领域管
本文实现了一个基于J2ME的手机游戏对话状态机系统,系统完整的实现了对话资源的服务端处理,网络传输,手机界面显示与操作.系统采用了多层结构,上层由状态机语言来描述用户界
在VoIP(Voice over IP)技术中,由于不同的节点产生不同的QoS,在一个IP网络上,如果各个转发节点采用的QoS技术不相同,数据流的分类规则、优先级设置规则也各不相同,那么对某一
近年来,随着计算机技术、网络技术和智能卡技术的迅速发展,校园“一卡通”系统,作为校园URP系统中一个重要的子系统,正逐步应用于各个大学校园中。它是一个集个人证件、住宿
近年来,随着蓝牙技术应用的领域越来越广泛,在ACL链路上传输视频/音频已经成为蓝牙网络的主要业务。这种业务使得在Piconet网中的Slave具有了对延迟要求比较高的、同步的CBR
本文对TSP中计划跟踪和度量方法进行了研究。主要工作如下: 1对小组软件过程开发流程进行了分析与研究。针对其循环迭代的特点,提出了一个针对TSP的改进的软件项目计划和跟
随着计算机网络的快速发展,计算机网络的安全问题变得越来越重要。身份认证是网络安全技术的一个重要组成部分,它限制非法用户访问网络资源。本文详细讨论了“一次性口令”认
随着数字电路、无线通信等技术的发展,无线传感器网络技术已在许多应用领域获得越来越广泛和深入的应用。无线传感器网络可以使人们在任何时间、地点和任何环境条件下获取大量
图像拼接技术有效地解决了高分辨率与宽视野之间的矛盾,已经成为数字图像研究领域的一个技术前沿。本文在深入研究和学习图像配准和图像融合技术的基础上,针对现有的图像配准与
本文对P2P文件共享系统中的恶意代码防治策略进行了研究。文章通过分析这些P2P恶意代码的传播方式,提出了一种应用于P2P文件共享系统的恶意代码防治策略。防治策略的核心是一