论文部分内容阅读
滑坡,属于一种高发并且带来严重危害的地质灾害,滑坡带来的危害包括巨额的经济损失以及惨痛的人员伤亡,并且影响社会的安定。滑坡灾害在我国分布范围较广,如四川、贵州等地的地质构造复杂多样,是滑坡灾害的高发地区。近几年来,随着人类活动的大规模进行,崩塌滑坡泥石流等地质灾害发生频繁,灾害的预防工作尤为重要。因此,提供更加准确的方法来进行滑坡灾害的防治,已经是非常急迫的任务。当灾害发生时,首要任务是做出正确且快速的应急决策,对于灾害管理工作而言,如何能对地质灾害的发生及发展做出快速而准确的评估工作,是一个亟待解决的问题,所以,研究如何提高地质灾害评估的效率更具有研究价值和现实意义。 本文介绍了研究滑坡的意义、国内外对于滑坡研究的进展和现状以及云平台的相关知识和评估模型的基本理论。选取随机森林模型作为实验模型,选取山西省2000年以来的全省地貌、岩土体、地质构造、地震峰值加速度、坡度、降水量等1:50万基础资料,搭建了Hadoop大数据平台,利用MapReduce并行编程框架,通过此并行计算框架对模型进行并行化设计,并对改进后的模型进行有效性验证等工作,实验得到以下结论: 1.在单节点上对模型改进后的准确性进行验证。并行化改进后的随机森林模型精度相对于传统的串行随机森林模型的精度较高,说明改进后的模型具有一定的可行性与实用性。 2.在Hadoop平台上,在机器数目不同的情况下,进行算法执行时间的比较。当选取的滑坡样本数据的总量不变时,平台机器数目增加,算法执行时间减少,说明模型改进后的运行效率提高。 3.进而又考虑了不同的样本总数,在运行1台、2台、3台机器的情况下实验效果:(1)样本数据规模较小为Data1时,随着服务器数量的增加,算法在运行时间上相差并不大。这是因为在Hadoop平台上进行并行计算时,多台设备间要通信以及数据交换,而这一过程对时间效率的损耗很大,算法效率时有下降。(2)当样本数据规模较大时,将单机情况与1台机器参与运算进行对比发现,这一过程曲线斜率最大,也就是说并行化以后的随机森林模型的运行时间的显著减小,说明模型效率明显提高。(3)通过对比机器数目是1台、2台、3台的情况发现,随着机器数量的增加,改进的随机森林模型运行时间确实逐渐下降,但曲线斜率也逐渐减小,说明机器的数目越多,算法效率越高,但与此同时设备间数据通信耗时也在增加,这也是曲线斜率逐渐变小的原因。(4)当机器数目是2台和3台时,Data2, Data3,Data4样本数据集的算法运行时间相对Data1耗时更少。该现象说明,并行化的随机森林模型更适用于大规模数据,优化效果更显著。 本文基本实现了论文的初衷,即通过对评估模型并行化改进,评估效率与精度有所提高,以实现快速评估的目的,为今后地质灾害提出快速应急决策提供依据。