基于一致性哈希的分布式图处理访存优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chensheng76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图处理系统作为一种大数据分析工具被用到很多领域中,在图规模不断增大的背景下,对处理系统的扩展能力与并行性提出越来越高的要求,一方面要采取分布式架构实现横向扩展,另一方面还要优化外存储器访问进行纵向扩展,无论是二选其一,又或者兼而有之,均将面临图分区的问题。而最优图的划分计算复杂度很高,所以主流系统往往只是随机划分图数据,从而造成图处理过程中负载动态变化,很难平衡,显著降低网络和磁盘等资源的利用率,拖累了图处理的速度。  在图处理系统中,点状态的更新需要经消息传播,而这些消息则面临着高效传播的问题,如何存储数据使系统能快速寻址影响着系统的性能,与传统的图数据的存储不同,本项研究提出对图数据的存储方式进行优化的方法,使用一致性哈希算法对图数据进行分区和存储,这种图数据的存储方式能解决以下两个方面的问题:第一个问题是快速的寻址,本系统使用红黑树达到快速寻址的目的,寻址时通常仅仅只需要进行少数几次的查找,从而在图处理的每轮迭代中,大量的消息能够高效传播。第二点,动态分区扩展,不同于以往的分布式图处理系统,本系统可以在图处理的过程中动态的扩展分区,由于图处理中每轮迭代的速度由最慢的分区所决定,通过使负载重的分区的再次分区,使其分裂成两个分区,本文也通过定量的控制,使这两个分区实现了对负载的近似均分,这样可以消除热点,加速图处理。本项研究基于上述方法设计和实现了基于外存模式的分布式图处理系统Ecgraph,Ecgraph使用了动态访存优化的策略,根据负载调整图的分区存储,平衡IO,从而提高图处理的性能。  实验中使用不同的算法和包括合成的及真实的各类数据集对 Ecgraph访存优化效果进行了测试,验证了基于一致性哈希访存优化方法的有效性。测试结果表明,随着处理过程推进,经过几轮访存优化之后,一轮迭代时间相对于初始的随机划分的时间减少30%~50%。同时,还跟同为分布式外存模式图处理系统Chaos作了对比,实验证明,在同等条件下,Ecgraph比 Chaos有较好的性能优势,特别是对于偏斜的图,Ecgraph比Chaos执行时间减少了40%~61%。并且,本系统通过实验证明了在集群达到一定规模时,通信的开销不会再有很大变化,从而说明了系统具有很好的横向扩展的能力。
其他文献
随着因特网中各个网络节点上图像数据的急剧增加,图像的种类愈加繁复,每一种类的图像也愈加丰富,这给人们带来了很多便利,但也给海量图像资源的检索带来了很大负担,如何有效
随着空间数据库的广泛应用和计算资源的不断开发,人们对基于位置服务LBS(location-based Services)的期望也越来越高,这意味着LBS必须能处理更复杂的查询。最近邻NN(nearest
由于有线通信方式对应用范围的限制,人们发明了无线移动通信。近年来,无线网络在支持移动性方面的发展非常迅速,再加上交通领域信息化的迫切需求,车载自组织网络VANET应运而
车辆自主驾驶技术在经济、军事、科技等方面具有重要的价值,但在真实交通环境下,智能驾驶研究面临安全、法律等问题。缩微智能车的实验环境相对封闭,缩微智能车的研究不存在安全
片上多核处理器(Chip Multi-Processor, CMP)已经成为高性能微处理器的发展潮流。高速缓存作为处理器与主存之间的重要桥梁,在计算机系统的性能优化中发挥着重要作用。一种能
在计算机图形学中,三维模型通常使用三维网格表现。网格模型凭借着其直观、生动的表现形式,广泛应用于游戏开发、影视制作、工业制造和旅游景观等领域。然而,较大的网格模型受到
云计算的大规模发展以及云服务在终端的按需供给,使得人们越来越多的感受到云计算提供的便利。伴随着环境的动态化、服务的多样化和用户需求的个性化,云环境下的服务选择问题日
随着多模式人机交互技术的发展,手语识别的研究也得到了越来越多的重视。然而传统的、基于计算机视觉的手语识别技术很难实时捕获手的姿势和位置。2010年11月微软推出Kinect作
云计算是当前信息技术领域的热门话题之一,是产业界、学术界等各界均十分关注的焦点。但是,云计算的发展面临许多关键性问题的挑战,而安全问题首当其冲。随着云计算的不断普及,安
图像相似性在基于内容的图像检索、图像匹配、图像识别和图像拼接等领域有着广泛的应用,大多数关于图像相似性的研究都包含在图像检索、图像配准和图像识别等领域的研究中。