Web挖掘技术在Web预取中的应用研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:lulu1984129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的飞速增长,Internet发展为当今世界上规模最大的信息库,己成为人们获取信息资源的重要来源。伴随计算能力的增长,智能算法的运用及大规模数据存储技术的成熟,面对缤纷复杂的Web空间,如何从海量数据的网络中发掘所需信息成为人们所关注的一个主要问题。 由于受限于网络带宽,用户往往需要忍受较长的访问延时,如何减少延时就成了进一步要研究的问题。Web挖掘技术是数据挖掘技术在WWW上的应用,它从大量的WWW资源中提取出隐藏的有用信息,提高WWW的服务效率,把这一技术应用于网页预取,通过在用户浏览当前网页的时间内提取用户将来最有可能访问的网页来降低访问延时,对于提高Web服务的质量,具有十分重要的现实意义和广泛的应用前景。 本文在介绍Web挖掘和Web预取的基础上,首先分析利用Markov模型和序列模式分析进行预取模型构造的方法。Web日志挖掘是通过分析Web日志记录以发现用户访问Web页面的模式,在Web日志挖掘中,会话识别是影响到Web日志挖掘的重要因素,我们对传统的会话识别方法进行改进,提出基于统计特征的会话识别方法,通过使用统计值来动态设定访问时间阂值来识别会话。 Markov预取模型是基于历史的预取模型,是对用户以往的使用记录的统计,再根据这些统计信息来决定预取。为了帮助人们更有效地从Web上获取知识,我们改进了没有考虑到页面的重要程度以及网站结构对页面预耿影响的传统的Markov模型,提出的CPM模型。它能结合页面内容及站点结构来调整状态转移矩阵。我们在真实数据上进行实验,对请求命中率和字节命中率进行分析比较,可以获得更精确的预取结果,并对系统编程实现中的关键技术,包括模块结构、数据结构以及选用的算法等进行说明。
其他文献
随着计算机技术、网络技术的快速发展,分布式仿真在许多领域得到了广泛应用和推广。HLA是一个通用的技术框架,它提供了一种通用技术规范,要求建立一个高层次的仿真体系结构,
随着中国市场经济改革的不断深入和世界经济一体化程度的不断提高,中国的银行业将面临越来越激烈的市场竞争,为了适应新形势下银行经营管理的需要,企业信息化建设的直接目标
程序设计能力是衡量大学计算机专业学生能力和水平的一个重要标志。提高学生的程序设计能力,必须通过大量的编程练习。而教师及时评测学生的代码,并给出反馈,有着重要的意义。目
随着软件产业的不断发展,软件系统的规模和复杂度剧增,“软件危机”的隐患也日渐突出。研究表明,产生诸多问题的最重要因素不是编程,而是需求,因为需求提取、需求分析、需求验证等
本论文以皮革自动切割CAM系统为背景,以鞋样为主要研究对象,研究了图形的矢量化及检测技术,实现了闭合曲线的高精度矢量化,解决了项目中鞋样的精确匹配问题。 本文所作的主要
随着科技和经济的高速发展,信息技术带给人类的影响日益扩大,尤其是网络的发展使计算机的应用日益普及.同时也使得信息的安全问题日渐突出而情况也越来越复杂。信息安全的重要
随着数据库与互联网技术的发展,人们每天可以获得的数据及信息量呈指数级增长。为解决随之带来的如何从浩瀚的数据海洋中提取有用的知识以便为决策者提供决策支持的问题,数据挖
随着海洋事业的发展,水下传感器网络越来越受到关注。在海洋监测、海洋信息采集、灾难预防以及辅助导航等方面,拥有广泛的发展前景。水下定位问题作为水下传感器网络的关键部
有关数据流上的变化的挖掘算法研究是近期数据流研究领域的核心内容之一。该文挖掘算法研究的第一部分:已有的研究工作大多数是针对模式、分类等的变化进行探索,其方法以及得
人脸检测作为人脸信息处理中的一项关键技术,近年来成为模式识别与计算机视觉领域内一项受到普遍重视、研究十分活跃的课题。今天,它已远远超出了人脸识别的范畴,在出入安全