Web日志挖掘数据预处理算法研究与实现

论文部分内容阅读

随着Internet的迅猛发展,尤其是Web的全球普及,大大丰富了Web上信息量。通过对Web的挖掘,可以从Web页面中提取所需的知识；对总的用户访问行为、频度、内容进行分析,可以得到关于群体用户访问行为和方式的普遍知识,用来作为改进Web服务设计的依据。而且更重用的是,通过对这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,将其应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中用户识别和会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高用户识别和会话识别算法进行研究。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,重点研究了Web日志挖掘技术及其步骤,研究了数据预处理的过程和方法,包括用户识别技术和会话识别技术等。本文的主要工作是,实现了预处理各阶段的常用算法,在此基础上,首先提出了一种基于启发规则的用户识别算法,它使用IP地址和用户访问时间等信息去识别日志中的不同用户,实验结果表明,该算法比基本用户识别算法有着更好的性能,甚至对于小型日志文件系统也适用。其次,给出了会话识别的定义,并对传统的预先设定时间阈值的方法进行了优化,给出一种动态时间阈值调整策略,在此基础上具体描述了算法,实验证明会话质量得到了提高。

其他学术论文