论文部分内容阅读
解决Web访问延迟问题的主要方案是缓存技术和预取技术。虽然缓存技术在互联网上有着非常广泛的应用,但是随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改善已不再显著,而预取技术是缓存技术的一种有效补充手段,是突破缓存性能上限的最有效的方法,正越来越成为Web加速技术领域研究的热点。然而预取技术在实际应用中必须解决好两个问题,一是准确预测——决定哪些Web对象值得预取;二是适时预取——根据系统资源状态适时决定实际预取的Web对象及预取的数量。本文针对这两个问题在对Web对象浏览特征进行了深入研究的基础上,提出了一种基于剪枝技术的自适应PPM预取模型,改进了现有的PPM预测模型和预取算法,从而以相对小的网络流量增加率获得相对好的访问延迟缩减率。由于模型自身的自适应性,些模型可用于在线预取中。 论文首先介绍了Internet和WWW起源、发展及现状,提出了互联网所面临的问题及解决方案。然后阐述了预取技术的基本概念及预取系统的分类与结构,并总结了现有的预测算法和预取控制策略。 在简单介绍了现有预测算法和预取控制策略之后,论文重点对Web对象浏览特征进行了深入的研究及实验验证。Web对象浏览特征主要表为用户对web对象访问呈不均匀性,存在某些热点,即Web对象可分为高频区和低频区,并且Web对象高频区和低频区流行度特征分别符合Zipf第一法则和Zipf第二法则;用户在一个网站中的浏览深度是一个随机变量,它服从逆高斯分布态分布。对Web浏览特征的深入研究,为本文提出的预测模型提供了理论依据。 基于Web对象浏览特征,本文提出了基于剪枝技术的PPM预测模型。该模型的核心是基于Web对象浏览特征的PPM预测模型,这种新的预测模型除继承了传统PPM模型简单易实现的特点外,利用Web流行度特征及描述用户浏览深度特征的逆高斯分布,模型在构造过程中对噪声页面及过期数据进行动态移除,分别从纵向和横向上对PPM预测模型规模进行合理控制。实验表明该模型较好地动态预测用户的Web浏览特征,不仅预测准确率和存储复杂度方面都有一定程度的提高,而且有效控制了由预取引起的网络流量。 最后,论文对提出的预取模型在真实Web日志中进行了实验,并对实验结果进行了分析。