高效大规模静态图划分算法的研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhaodaxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络、网页链接、城市道路交通网和大规模集成电路等均可抽象为顶点和边的数量在千万级以上的大规模图(数据),对这类大规模图的高效分析与计算需要在分布式平台上进行。然而,大规模图均衡划分是分布式处理图数据的核心问题,优良的大规模图划分结果可以充分利用集群资源、提升数据处理效率。已有许多研究者以线性规划、多级划分、启发式等方法对大规模图划分问题进行了研究,并提出了许多求解算法。但已有算法存在划分效率低、未充分考虑图结构、划分结果质量差等问题。因此,对大规模图划分算法进行研究与创新,使其能够提升大规模图数据处理任务的计算效率,在大数据分析领域具有极大的理论意义和应用价值。论文选题来源于国家自然科学基金项目,作者针对已有算法缺陷,结合标签传播机制、多目标优化和对大规模图内部结构的研究创新提出了两种新的大规模图划分算法,同时,用所提出的算法优化了Giraph图处理框架中的图划分处理组件,使其图处理框架的性能得到了较大的提升。本文主要工作内容及创新如下:(1)针对传统大规模图划分算法划分效率低、划分质量差且未充分利用分布式平台的问题,本文基于轻量级的标签传播机制,创新提出了一种新的高效平衡大规模图划分算法BGPLP。首先,BGPLP算法将多目标优化问题转化成单目标优化问题,以简化求解过程。然后,在迭代过程中同时考虑优化分区负载平衡和最小化通信开销,从而提高图划分结果的质量。针对已有的标签传播算法中标签更新规则不能适应划分情况变化的问题,本文提出了动态标签更新策略。针对不能准确判断算法迭代收敛的问题,本文提出了双条件收敛判断准则。最后,在不同规模数据集上与当前最好的大规模图划分算法进行了性能对比实验,实验结果表明:BGPLP算法的划分质量与效率都优于目前最好的大规模图划分算法。(2)针对传统大规模图划分算法在迭代优化过程中会陷入局部最优的问题,本文在BGPLP算法的基础上,提出多阶段大规模图划分算法GPMP。首先,在图的初始划分过程中,GPMP算法充分利用大规模图结构信息,从而提高初始划分质量。然后,在后续的迭代步骤中,GPMP算法分为寻优和跳出局部最优两个阶段进行大规模图的精细划分。寻优阶段快速优化划分结果质量,跳出局部最优阶段对算法迭代进行扰动从而极大增加算法跳出局部最优的机会,两阶段协作交替运行从而提升算法全局寻优能力。同时,根据所提出的大规模图最优划分状态保留策略,从而解决迭代过程中划分质量波动问题。最后,本文在不同规模数据集上将GPMP算法与BGPLP算法进行了对比实验,实验结果表明GPMP算法的图划分结果具有更优的负载平衡和更少的通信开销。(3)为了优化Giraph图处理框架的性能,本文按照Giraph图处理框架的接口要求将GPMP算法实现为图划分组件,替换了Giraph默认图划分组件。然后在优化前和优化后的Giraph上实现了网页排名PageRank计算和连通分量Connected Components计算。通过在各种数据集上对上述两个大规模图运算实例的实验结果分析表明:优化后的Giraph大大减少了图计算任务的运行时间,表明GPMP算法对Giraph图处理框架具有显著优化作用。作者今后将进一步研究特殊的大规模幂律图,并且将进一步优化与扩展所提出的算法,使其具有处理大规模动态图的能力。
其他文献
在当今社会,文化作为一个国家的软实力,其重要性是不言而喻的。然而,什么是文化,或者说怎么给文化下一个规范性定义,却众说纷纭,莫衷一是。由于我们对于“文化”这一概念的指
随着普适计算的不断发展,活动识别引起了人们的广泛关注,在活动识别领域中深度学习模型取得了较好的应用效果,但目前仍有一些制约性的瓶颈问题:传感器数据的不直观性导致模型所提取的深度特征难以理解,因此无法结合传感器数据及其特征提高模型的识别准确率;深度学习模型通常在静态环境下进行批量学习,无法在动态环境中根据新的需求识别新的活动;深度学习模型需要耗费较多的存储和计算资源,不易在终端设备上计算,所以需要对
目前中国特色社会主义进入到新时代,中华民族伟大复兴中国梦的蓝图正在绘制,在这一时期深入研究并贯彻落实习近平全面从严治党思想意义非凡,对外有助于积极应对多变的国际形
长久以来,中国事业单位暴露出越来越多的弊病,政事不分、企事不分、职责不明的现象愈发严重。中国事业单位的分类革新已经是板上钉钉的事情,这一点是毫无疑问的。早在2011年,
精神疾病是一种高发疾病,具有患病率高、复发率高、致残率高等特点。据不完全统计,中国成人精神障碍的终生患病率高达16.6%,对家庭和社会造成了巨大的负担和影响。在众多的精
随机非线性离散时变系统的滤波问题是估计理论中的重要研究课题之一,相关估计方法被应用在军事、交通以及图像处理等众多领域。对非线性离散时变系统的性能进行分析,需明确其
作为计算机视觉领域的一个重要研究课题,图像语义分割的目标是将语义标签分配给图像中的每个像素,使彩色图像转化为语义标注图像。尽管深度学习方法的出现使得图像语义分割得到了明显改善,但仍存在一些问题:在某些复杂场景中,由于拍摄角度不同和光照不均匀,图像中包含许多不同目标相互重叠、低层视觉特征不明显等现象,因此常常出现一些因目标外貌特征相似而产生的语义混淆问题;除此之外,由于卷积神经网络中的下采样操作丢弃
随着科技的日益发展,数字图像越来越广泛地应用于人类生活的各个领域。计算机视觉领域中显著性检测技术变得越来越重要。图像的显著性检测基于视觉注意机制,旨在将人眼注意到
背景:慢性非特异性下腰痛(chronic non-specific low back pain,CNLBP)是世界范围内慢性健康问题中最常见、支出最高和造成功能障碍最多的疾患之一。多个临床指南一致推荐包
在当今的数字化信息时代,各种对于图像和影像采集、处理的系统应运而生.但是成像系统、传输介质以及存储设备的不完善,加之物体运动、噪声污染等原因,一定程度上导致图像的失真和降质,对于后续的处理带来不便.因此,对图像质量进行合理的评估具有非常重要的研究价值.本文首先用四元数表示彩色图像,设计两种评价指标,然后将全参考图像质量评价拓展到基于宽度学习的无参考图像质量评价.论文的主要工作如下:(1)提出四元数