论文部分内容阅读
随着网络信息的飞速增长,Internet发展为当今世界上规模最大的信息库,己成为人们获取信息资源的重要来源。伴随计算能力的增长,智能算法的运用及大规模数据存储技术的成熟,面对缤纷复杂的Web空间,如何从海量数据的网络中发掘所需信息成为人们所关注的一个主要问题。
由于受限于网络带宽,用户往往需要忍受较长的访问延时,如何减少延时就成了进一步要研究的问题。Web挖掘技术是数据挖掘技术在WWW上的应用,它从大量的WWW资源中提取出隐藏的有用信息,提高WWW的服务效率,把这一技术应用于网页预取,通过在用户浏览当前网页的时间内提取用户将来最有可能访问的网页来降低访问延时,对于提高Web服务的质量,具有十分重要的现实意义和广泛的应用前景。
本文在介绍Web挖掘和Web预取的基础上,首先分析利用Markov模型和序列模式分析进行预取模型构造的方法。Web日志挖掘是通过分析Web日志记录以发现用户访问Web页面的模式,在Web日志挖掘中,会话识别是影响到Web日志挖掘的重要因素,我们对传统的会话识别方法进行改进,提出基于统计特征的会话识别方法,通过使用统计值来动态设定访问时间阂值来识别会话。
Markov预取模型是基于历史的预取模型,是对用户以往的使用记录的统计,再根据这些统计信息来决定预取。为了帮助人们更有效地从Web上获取知识,我们改进了没有考虑到页面的重要程度以及网站结构对页面预耿影响的传统的Markov模型,提出的CPM模型。它能结合页面内容及站点结构来调整状态转移矩阵。我们在真实数据上进行实验,对请求命中率和字节命中率进行分析比较,可以获得更精确的预取结果,并对系统编程实现中的关键技术,包括模块结构、数据结构以及选用的算法等进行说明。