论文部分内容阅读
本文研究了聚类和关联规则等与Web使用挖掘有关的理论和技术基础,提出了Web使用挖掘的系统框架,阐明了从Web数据预处理、Web用户访问路径模式发现、Web聚类分析和特征规则挖掘等方面开展对Web数据进行使用挖掘的研究思路.在Web使用挖掘的数据准备方面,系统地研究了Web数据预处理的数据清理、用户识别、会话识别、路径补充和事务识别等过程,设计了有关算法,并实现了Web数据预处理的自动化系统,同时用实际Web网站服务器中的日志数据加以验证.在Web用户访问路径模式发现方面,研究了用户访问模式挖掘的理论和方法.在分析基于偏爱度的用户访问路径挖掘模式的基础上,提出了基于页面层次和喜爱度的用户浏览频繁路径获取方法,并实现了原型系统,阐明了全面考虑支持度、用户浏览时间和页面层次三种因素的用户浏览频繁路径发现技术.在Web聚类方面,系统地研究了度量聚类对象相似度的方法,并根据Web特点,研究了基于页面间链接距离的页面聚类方法.在Web用户聚类方面,探索了一种基于矩阵变换的Web用户聚类方法,系统地考虑聚类对象之间的相互作用和影响.现有的Web关联规则挖掘主要考虑对用户访问页面的支持度和信任度.本论文结合Web使用挖掘的特点,研究了带有时间戳的Web关联规则挖掘方法,并研制了相应的原型系统.论文还研究了从用户网站登录信息中挖掘出与商品销售有关的知识的方法,提出了运用背景知识与面向属性归纳挖掘特征规则的思路.论文通过试验,实现了挖掘特征规则的原型系统,进一步提高了对规则的解释能力.