论文部分内容阅读
Web日志挖掘是W曲挖掘的分支之一,也是发展前景及应用价值最高的部分之一,是传统数据挖掘的延伸,与传统数据挖掘对象是结构化数据不同的是,Web日志挖掘的对象是半结构化的日志文件。日志文件记录了一个网站所有访问者的浏览行为,Web日志挖掘通过分析日志文件,得到访问者的浏览行为,访问模式,兴趣目标等信息,通过这些信息,一方面可以调整网站运营策略,使网站内容更符合用户兴趣爱好,一方面可以根据用户访问行为判断其需求趋向,调整企业或公司产品生产计划,更进一步,可以根据分析得到的用户访问模式,针对不同地址或不同用户的访问显示不同的页面,形成动态智能站点。
在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户操作系统类型、浏览器类型等。W曲日志挖掘过程一般由预处理、模式发现、模式分析组成,其中预处理阶段是最关键的一步,预处理包括日志合并、日志净化、用户识别、会话识别、事务识别五个阶段。本文在概述数据挖掘的基础上,介绍了W曲挖掘的概念、分类及现状,并重点讨论了W曲日志挖掘预处理阶段的各项技术及方法,对如何清洗过滤Web日志中保存的内嵌元素访问信息进行了深入研究及实验,提出了一种新的净化方法以细化数据粒度,对W曲日志中的机器人访问记录清洗算法进行了探讨,最后,实现了一个监视指定服务器端口同时在数据库中记录访问服务器数据包的系统,将尽可能详细的用户访问行为转化为数据项保存到数据库中,为将来实现更精确的数据挖掘打下良好基础。
最后文章总结了论文工作的主要成果及需要改进的地方,对本领域未来发展作出展望。