论文部分内容阅读
如今,大数据时代已经真正到来并逐渐对我们的生活产生了深远的影响。大数据时代中备受关注的是云计算领域的发展,通过人们对云计算概念的不断探索与实践,“云”的理念已经对技术发展有了深刻而远大的影响,也逐渐引起各界的关注。2003年,谷歌发表了核心论文来阐述云计算理念;2006年,亚马逊将云计算技术商业化;近些年,“云”已经触手可及,并可以作为一种服务深入我们的生活。这种环境下,催生了一些云计算平台,OpenStack就是最富代表性的。论文首先整理了相关的基础概念,包含云计算、云平台及虚拟化的知识,同时对现在比较流行的云平台进行了介绍;其次,论文对比分析了几种监控技术在不同场景下的应用;然后,论文对态势评估的概念、特点及评估要素等做了详细的阐述,同时对比了现有的态势评估的方法。基于以上内容,论文最终设计并实现了基于OpenStack云平台的单发/单收多播拓扑结构的监控系统部署方案,进而,通过对监控数据的处理,提出了云平台态势评估的方法。关于云监控系统的设计与实现,论文主要通过改进Ganglia默认的多发/多收的多播拓扑结构,设计单发/单收的拓扑结构,避免所有节点都要接收其他节点的指标数据,进而避免CPU资源不必要的浪费,消除大型集群的运行开销。同时,每个集群的gmetad守护进程使用RRD文件对资源数据信息进行汇聚,并汇总至主控节点,主控节点部署了利用Bootstrap、Highcharts、node.js等技术开发的UI模块,一方面,为管理员提供查看平台资源数据实时变化的平台系统;另一方面,为用户提供任务提交及结果查看等入口。论文中对态势评估方法的研究,主要目的是为了挖掘平台产生的大量数据潜在的价值。由于云平台的规模比较大,资源数据也比较复杂,论文所利用的态势评估方法主要借鉴D-S证据推理法及决策判断法,采用“点”和“段”的资源监控数据或日志信息对平台的健康状态及任务的运行情况进行评估及预测,同时,也可以通过监控数据的变化趋势来反应任务本身的特点,通过一段时间的任务执行情况来判断整个平台或者某个集群的稳定性,通过一些故障提示可以对平台的态势及故障原因进行分析,进而保证平台问题及时得到解决。云监控系统对于一个可靠的云平台来说是必要的,并为平台可用性提供支撑;态势评估方法直接影响云平台数据价值的最大化。最后,论文对所实现的系统进行了功能测试及性能测试,系统所表现出的实时性和稳定性都可以达到论文目标。