基于中小型站点的Web日志挖掘

来源 :北京机械工业学院北京信息科技大学 | 被引量 : 0次 | 上传用户：li_qinglong

【摘要】

：

Web日志挖掘是W曲挖掘的分支之一，也是发展前景及应用价值最高的部分之一，是传统数据挖掘的延伸，与传统数据挖掘对象是结构化数据不同的是，Web日志挖掘的对象是半结构化的日志文

【作者】

：

孔昊

【机构】

：

北京信息科技大学

【出处】

：

北京机械工业学院北京信息科技大学

【发表日期】

：

2006年期

【关键词】

：

日志挖掘内嵌元素机器人记录访问监视器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web日志挖掘是W曲挖掘的分支之一，也是发展前景及应用价值最高的部分之一，是传统数据挖掘的延伸，与传统数据挖掘对象是结构化数据不同的是，Web日志挖掘的对象是半结构化的日志文件。日志文件记录了一个网站所有访问者的浏览行为，Web日志挖掘通过分析日志文件，得到访问者的浏览行为，访问模式，兴趣目标等信息，通过这些信息，一方面可以调整网站运营策略，使网站内容更符合用户兴趣爱好，一方面可以根据用户访问行为判断其需求趋向，调整企业或公司产品生产计划，更进一步，可以根据分析得到的用户访问模式，针对不同地址或不同用户的访问显示不同的页面，形成动态智能站点。在挖掘Web用户使用记录时描述用户访问的数据包括：IP地址、参考页面、访问日期和时间、用户操作系统类型、浏览器类型等。W曲日志挖掘过程一般由预处理、模式发现、模式分析组成，其中预处理阶段是最关键的一步，预处理包括日志合并、日志净化、用户识别、会话识别、事务识别五个阶段。本文在概述数据挖掘的基础上，介绍了W曲挖掘的概念、分类及现状，并重点讨论了W曲日志挖掘预处理阶段的各项技术及方法，对如何清洗过滤Web日志中保存的内嵌元素访问信息进行了深入研究及实验，提出了一种新的净化方法以细化数据粒度，对W曲日志中的机器人访问记录清洗算法进行了探讨，最后，实现了一个监视指定服务器端口同时在数据库中记录访问服务器数据包的系统，将尽可能详细的用户访问行为转化为数据项保存到数据库中，为将来实现更精确的数据挖掘打下良好基础。最后文章总结了论文工作的主要成果及需要改进的地方，对本领域未来发展作出展望。

其他文献

支持数据网格的P2P框架及元信息管理的研究与实现

本文首先对已有的P2P结构和算法进行了深入分析和讨论，对现有的Chord算法进行改进，提出了一种改进结构——MultiChord。它是一种基于层次的Chord系统，为网格数据服务的分领域管

学位

P2P框架元信息管理数据网格系统网格数据数据管理分领域管理

基于J2ME的游戏对话状态机设计

本文实现了一个基于J2ME的手机游戏对话状态机系统,系统完整的实现了对话资源的服务端处理,网络传输,手机界面显示与操作.系统采用了多层结构,上层由状态机语言来描述用户界

学位

状态机语言状态机引擎XML序列化J2ME平台游戏对话状态机

基于VoIP的QoS实现技术

在VoIP(Voice over IP)技术中,由于不同的节点产生不同的QoS,在一个IP网络上,如果各个转发节点采用的QoS技术不相同,数据流的分类规则、优先级设置规则也各不相同,那么对某一

学位

VoIPQoS多功能策略控制器SIP丢包率延迟

基于校园“一卡通”系统的PKI的设计与实现

近年来,随着计算机技术、网络技术和智能卡技术的迅速发展,校园“一卡通”系统,作为校园URP系统中一个重要的子系统,正逐步应用于各个大学校园中。它是一个集个人证件、住宿

学位

校园智能卡一卡通非接触式IC卡校园数字证书网络通信协议PKI技术

面向QoS的蓝牙Piconet网MAC层调度算法的研究与改进

近年来,随着蓝牙技术应用的领域越来越广泛,在ACL链路上传输视频/音频已经成为蓝牙网络的主要业务。这种业务使得在Piconet网中的Slave具有了对延迟要求比较高的、同步的CBR

学位

蓝牙Piconet调度算法Qos

TSP中计划跟踪和度量方法研究及改进

本文对TSP中计划跟踪和度量方法进行了研究。主要工作如下： 1对小组软件过程开发流程进行了分析与研究。针对其循环迭代的特点，提出了一个针对TSP的改进的软件项目计划和跟

学位

软件工程小组软件软件度量

基于一次性口令的局域网身份认证的研究

随着计算机网络的快速发展,计算机网络的安全问题变得越来越重要。身份认证是网络安全技术的一个重要组成部分,它限制非法用户访问网络资源。本文详细讨论了“一次性口令”认

学位

身份认证一次性口令系统Kerberos协议RSADES

无线传感器网络中面向多连接查询的数据卸载策略研究

随着数字电路、无线通信等技术的发展，无线传感器网络技术已在许多应用领域获得越来越广泛和深入的应用。无线传感器网络可以使人们在任何时间、地点和任何环境条件下获取大量

学位

传感器数据卸载卸载策略信息收集无线通信网络技术

基于快速收敛蚁群算法的图像拼接技术研究

图像拼接技术有效地解决了高分辨率与宽视野之间的矛盾，已经成为数字图像研究领域的一个技术前沿。本文在深入研究和学习图像配准和图像融合技术的基础上，针对现有的图像配准与

学位

图像拼接图像配准图像融合SIFT特征匹配蚁群算法

P2P文件共享系统中的恶意代码防治策略

本文对P2P文件共享系统中的恶意代码防治策略进行了研究。文章通过分析这些P2P恶意代码的传播方式，提出了一种应用于P2P文件共享系统的恶意代码防治策略。防治策略的核心是一

学位

对等网络文件共享恶意代码网络安全

基于中小型站点的Web日志挖掘

其他学术论文