论文部分内容阅读
摘要:文件分发系统是互联网中信息传播的重要平台,由于网络带宽、存储等资源有限,随着用户数和业务量的日益增加,系统资源紧缺与用户需求之间的矛盾日益突出。这些矛盾不仅影响了服务质量,增加了系统成本,也严重制约了网络业务的演进与扩展。本文对大规模文件分发系统(PPTV和QQ旋风)的文件下载数据和用户上下线数据进行了分析,发现由副本和带宽分配不合理导致的资源不足、由瞬时拥塞(Flash crowd)引起的资源匮乏和由用户动荡(churn)引发的资源浪费等问题已经异常严重,成为亟需解决的瓶颈问题。本文针对这些问题分别建立了理论模型,并且设计了相应的资源分配策略,主要工作和创新点如下:(1)在对文件分发系统用户上下线数据的分析中,发现了用户在线时长与用户上线时刻相关,通过仿真证明了只有将二者联合才能刻画出用户churn的日周期规律。并且建立了动态离开概率模型,合理解释了这一相关性。(2)针对稳定状态的文件分发系统中资源分配与文件下载请求量不匹配的问题,设计了副本和带宽分配算法。首先综合考虑文件下载请求量均值和方差的影响,从公平性的角度建立了最优副本数分配的目标函数并求解得到了分配算法,使得每个文件的资源与下载请求量之比尽量一致。仿真结果表明下载请求量的均值和方差大小相当时,算法的公平性比传统的按比例分配方式高出50%,方差更大时,可高出约87%。然后提出了副本放置策略的评判标准,发现混合放置流行文件和不流行文件可增大带宽利用率并且减少带宽争抢,但是有损文件的公平性。最后以保证文件公平性为目标,提出了三种用户上传带宽分配算法,包括最优分配算法、集中式启发算法以及分布式启发算法。仿真结果证明分布式算法的公平性比目前广泛应用的平均分配算法高75%,而集中式算法的公平性更是接近于理论最优值。(3)针对Flash crowd发生时文件分发系统服务器带宽消耗大的问题,提出了节点协助的预先副本分配策略。首先基于流体(Fluid)模型,得到了服务器所需带宽与用户到达速率、离开概率和下载速率之间的关系表达式,发现了服务器带宽峰值的产生是由于系统稳定前缺少足够的种子节点。然后提出了预先分配策略,将文件副本在正式发布之前分配给协助节点,以恰当地增加Flash crowd时的种子节点数,缓解服务器的峰值带宽消耗。策略将系统稳定后的所需带宽设为目标峰值带宽,设计协助节点到达速率、任务开始结束时刻等参数。数值仿真及实际系统中的测试均表明,策略可以显著减少超过30%的服务器峰值带宽。(4)针对用户churn导致预约型云下载系统的存储资源利用率低的问题,提出了动态资源分配策略。基于用户churn的马尔科夫模型得到了存储消耗、用户体验和用户churn之间的闭合表达式,并将消耗分解为两部分:等待消耗和下载消耗。以此为基础提出了动态资源分配策略:转换速率策略和递增速率策略,根据用户的ON/OFF状态变化而转换或递增服务器下载速率,从而分别减小两部分存储消耗。通过理论推导和系统仿真将所提策略与恒定速率策略进行了比较,结果表明综合使用两种策略可使存储消耗减少33%。