论文部分内容阅读
社交网络仿真是进行社交网络研究的有效手段,然而随着互联网的不断发展,社交网络的规模日益扩大,传统的仿真方法已无法支持对大规模社交网络的仿真研究。随着大数据技术的不断发展,各种大数据技术被应用到各个领域来提升计算性能,其中,Spark在众多大数据处理框架中表现突出,应用非常广泛。日益增长的社交网络规模给社交网络仿真带来了巨大的挑战,利用Spark进行仿真就成为了提升大规模社交网络仿真执行效率的有效途径。针对网络规模的增长给社交网络仿真的数据存取、仿真执行、数据处理和分析带来的困难,本文以大规模社交网络中的信息传播仿真为例,研究基于Spark的大规模社交网络仿真加速方法。论文的主要研究工作和贡献如下:1)针对网络规模过大给社交网络仿真带来的困难,提出了基于Spark的大规模社交网络仿真框架。为了拓展社交网络仿真的处理能力,提升社交网络的计算性能,从大规模社交网络仿真的处理过程入手,提出了基于Spark的大规模社交网络仿真框架,来解决大规模社交网络仿真中数据存取、仿真执行和数据处理分析三个方面的问题。2)基于社交网络仿真的特性和Spark编程模型,实现了基于Spark的大规模社交网络仿真内核。为了提升大规模社交网络仿真执行的效率,根据大规模社交网络仿真的运行机制和模型特征,以大规模社交网络中的信息传播仿真为例,实现了基于Spark的大规模社交网络仿真内核。该内核作为基于Spark的大规模社交网络仿真框架的核心功能组件,提高了大规模社交网络仿真执行的能力,提升了大规模社交网络仿真的计算性能。3)基于大规模社交网络的特征和仿真内核中的信息交互特点,设计了大规模社交网络在Spark中的分区算法,减少仿真内核执行时的跨分区通信。针对集群或云环境进行大规模社交网络仿真时,会产生大量的通信消耗,通过对仿真内核的执行分析以及社交网络的特征分析,将仿真内核的优化问题转化为大规模社交网络在Spark中的分区问题,并设计了分层分区算法,在保证了分区间负载均衡的同时,极大地减少了不同物理节点之间的信息通信,进一步提升了仿真内核的性能。综上所述,本文从大规模社交网络仿真面临的问题着手,结合大数据技术Spark的编程特性,研究了基于Spark进行大规模社交网络仿真的关键技术,以大规模社交网络中的信息传播仿真为例,验证了仿真内核及其优化方法的性能优势。本文的研究成果对大规模社交网络仿真具有的重要理论和应用价值。