论文部分内容阅读
当今基于B/S的互联网应用日益广泛,各类网站所提供的功能和服务也越来越丰富,然而在智能化方面表现得不够理想。比如,网站结构缺乏灵活性;提供的服务或信息分布不合理,未能充分考虑到用户的需求;信息的访问路径未能考虑到信息的重要性和普遍关注性等等。如果网站能够根据用户的行为模式自动的学习,改良自身的组织结构和表现形式,即所谓自适应Web站点,无疑将极大的方便用户的使用。 本文在分析了Web日志记录结构及涵义的基础上,结合山东大学威海分校研究生处WWW站点,对Web用户访问模式挖掘的整个过程进行了详细的描述,并提出了若干建设性的技术方法。 本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应Web站点的应用上,将数据挖掘技术、数据库技术与Web技术相结合,在分析网站逻辑结构的基础上,通过对用户访问模式的数据挖掘,对已存在的Web站点的结构及站点内的页面进行调整和改善,使其具有自适应能力和优化能力,使各类信息和服务以更有效的方式提供给用户。首先分析进行Web日志挖掘的数据基础及在进行挖掘前需要的数据准备工作,包括数据清洗、用户识别、会话识别等数据预处理过程。其次,提出一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,区别于常用的基于树形结构的Web路径分析技术,在候选集的生成和剪除过程中减少了候选集的数量,提高了发现模式的精确性和效率,并且避免了“交易变质”的问题。同时还考虑到增量日志挖掘技术的问题。利用Web日志挖掘获得的规则和模式对已存在的Web站点的结构及站点内的页面进行调整和改善。包括链接位置的变动,增加/删除页面间的链接等,运用页面聚类的结果可方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面等,从而实现站点组织结构的优化。 运用数据挖掘技术分析用户的访问模式,同时考虑到多种相关因素,可动态的改变网站的组织结构。通过这种网站结构的调节,可以优化网站结构,提高动态网站的服务性能和服务质量,具有很大的研究和应用价值。 利用Web日志挖掘得到的用户访问模式来调整和改善Web站点的结构及站点内的页面,在理论上和应用中都还存在着一些问题需要做进一步的研究。如分