论文部分内容阅读
随着Internet的迅速发展,网站的信息量呈指数增长,如何从这些海量数据中抽取潜在的、用户感兴趣的知识是一个非常重要和有意义的课题。Web日志挖掘正是以此为目标应运而生的。Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而有利于网站设计人员掌握用户的喜好和访问习惯,改善Web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,更好地为用户提供服务。论文主要从以下几个方面对Web日志挖掘进行分析和研究:(1)提出了基于XML的web日志挖掘数据源模型XWMM提出了一种基于XML的web日志挖掘数据源模型XWMM。该模型提供方便和精确的数据源搜集方式,搜集的数据内容齐全,实现来自访问日志的用户浏览记录和用户对网页操作记录的有机融合,有较高的会话识别精度和性能,支持多维的web挖掘分析。(2)提出了一种基于频繁特征子序列的聚类算法提出了一种基于用户频繁特征子序列的Web日志聚类算法,该算法首先通过构建MNP树改进了WAP算法,产生用户频繁特征子序列及其出现概率集合,然后综合考虑页面顺序,研究了访问序列相似度的计算方法,建立用户访问序列相似度矩阵,从而获得聚类结果集,进而可以通过计算各类的中心,得到用户典型访问序列,能有效地挖掘用户群的访问模式,具有较好的聚类质量和性能,为电子商务个性化服务提供了依据。(3)设计了基于XML的web日志挖掘的原型系统XWMS,并进行了初步实现设计了基于XML的web日志挖掘原型系统XWMS,并进行了初步实现。对系统应具备的功能如数据采集、数据预处理、模式挖掘、挖掘结果处理等涉及到的技术细节进行了详细描述,并将前面研究的模型和算法集成到系统中来,初步验证了模型和算法的合理性和优越性,并具有一定的应用价值。