论文部分内容阅读
随着Internet技术的快速普及和迅猛发展,万维网(World Wide Web,WWW或者简称Web)成为世界上规模最大的公共数据源。Web站点、内容都以指数级别增长,用户如何在浩瀚的信息中选择感兴趣的内容变得十分困难。对于Web站点设计者,如何根据用户的浏览行为,改善站点结构设计,提供个性化服务,挖掘站点的商业价值,具有重要的意义。用户访问Web站点的记录,Web服务器、代理服务器都会以一定的格式记录下来。Web日志挖掘是Web数据挖掘的子领域,从Web服务器日志中提取感兴趣的知识模式。数据预处理过程则是Web日志挖掘过程中最基础,最繁杂,最重要的步骤。本文主要分析研究了Web日志挖掘数据预处理过程的相关算法和系统应用,主要工作有:1.本文系统地介绍了数据挖掘、Web数据挖掘的概念和分类,然后到Web日志挖掘的概念和过程,详细阐述了Web日志挖掘技术知识及其流程,重点研究了数据预处理过程的相关方法及系统应用。2.本文实现了Web日志挖掘预处理阶段的常用算法包括数据清洗、用户识别、会话识别、路径补充等,针对统计语言模型应用于会话识别的不足,采用ERR、SER和F-measure等作为评测方法,为参数选择和系统评价提供了依据,然后给出了会话识别方案,并进行了实验仿真,证明具有较高的应用价值。3.将预处理阶段的会话识别结果作为数据源,本文研究了基于N-gram的站点请求预测和缓存策略。针对Zhong Su等人提出的基于N-gram的请求预加载算法,提出了优化方法,根据当前的用户浏览路径将多个预测请求预先加载,提高请求预测的命中率,通过实验证明提出的优化方案比原方案具有更好的命中率。最后,结合现有缓存策略,提出了基于N-gram站点请求预测和缓存方案。该方案需要结合具体的应用环境进行线上调整参数。