基于MapReduce和FP-tree的图边权值计算算法优化

来源 :深圳大学 | 被引量 : 0次 | 上传用户:intel20107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多数据挖掘算法都是基于加权图的,如聚类分析、协同过滤等,然而在应用这些算法之前,必须先构造出加权图。从给定数据集中提取出加权图包括确定顶点、特征提取和计算边的权值,当提取的特征可以被表示为一组独立的属性时,则可以使用Jaccard相似系数来计算两个顶点集合间的边权值。然而计算任意两个集合交集计算的高计算复杂度、I/O,以及需要消耗大量的存储资源使得大规模图边权值计算具有挑战性。基于MapReduce和FP-tree的图边权值计算已经证明了其从大规模数据集中提取出加权图的显著性能。然而,经过进一步分析发现,现有的算法可以进一步优化。体现在1.原算法对数据库进行了多次扫描。2.FP-tree结构存在非必要的信息,这些都延长了算法的执行时间。3.应用不适当的Mappers/Reducers-to-cores映射策略可能会耗尽集群资源从而导致作业执行失败。4.计算节点负载不均,经过分析发现,并行FP-tree算法的分组策略是影响挖掘计算负载的关键因素,现有的基于FP-tree的图边权值计算算法采用基于相同项频度的分组策略,在算法执行过程中出现数据倾斜、计算负载不均的问题。本文针对现有基于FP-tree的大规模加权图边权值计算在MapReduce多核集群环境下存在计算负载不均、流程设计有待优化等问题,提出了相应的优化方案:1.重新设计了基于FP-tree的图边权值计算的算法设计流程,仅包含两个MapReduce作业,减少了一次数据库的扫描;2.提出了特定于边权值计算的精简FP-tree结构,减少了建树时间;2.分析讨论并用实验评估两种Reducers与核之间的映射策略:one-Reducer-one-core和one-Reducer-multiple-cores;4.提出基于贪心均衡负载的分组策略实现了集群计算节点间的负载均衡。本文算法评估阶段,使用真实的社交网络生成的大规模应用数据集,评估现有的和优化后的基于FP-tree的图边权值计算算法性能。实验结果表明,优化后的基于FP-tree的图边权值计算算法在执行时间上减少了39%~55%,同时获得了较好的横向扩展和纵向扩展加速比,其中基于贪心均衡负载的分组策略实现了计算负载均衡。本文的贡献还可以用于提高在多核MapReduce集群上进行大规模all-pairs集合交集的其他应用。
其他文献
古籍是中国传统文化的重要载体,如何对古籍进行有效的保护是一个紧迫的课题。自1979年力一先生提出利用计算机进行数据资料的保存开始,我国对人文资料的数字化工作一直在有序
产能过剩一直是困扰我国经济发展的难题之一。尤其是为应对2008年全球金融危机,我国政府推出的“四万亿”刺激计划又进一步恶化了产能过剩问题。为应对该问题,我国政府于2009
模型预测控制凭借其优越的性能和显示处理约束的能力得到了广泛应用,然而针对非线性系统预测控制的研究仍然存在诸多难点:一、难以建立精确的数学模型,且模型的形式复杂;二、
近几年,二维(2D)钙钛矿凭借带隙可调节、吸收系数高、激子束缚能大、稳定性好等特点,备受研究人员的青睐,在太阳能电池、发光二极管、光电探测器、激光器等领域展现出巨大的应
沙门氏菌(Salmonella)是一种常见的食源性人畜共患肠道致病菌,为肠杆菌科的革兰氏阴性短小杆菌,据报道共有2600多个血清型。由沙门氏菌感染引起的疾病在我国乃至世界范围内已经成为主要的公共卫生威胁。由于沙门氏菌主要通过污染食物进行传播,可导致急性肠胃炎、伤寒、败血症等多种疾病。沙门氏菌在食品安全风险预测和危害评估中一直都是重要的检测项目,因此,建立高效快速的沙门氏菌检测方法一直都是研究者们努
背景:膝关节(knee joint)是人体日常生活中使用频率较高的运动与承重关节,这一特点使其成为比较容易损受损的关节之一,其中半月板及前交叉韧带(Anterior cruciate ligament,ACL)是最容易发生磨损的解剖结构,而随着年龄的增大,膝关节各组成结构的损伤概率也将增加。ACL是维持膝关节功能稳定的重要韧带结构,一旦ACL发生损伤甚至断裂将导致局部疼痛甚至不能活动,极大地影响了
随着各种现代化驾驶座舱和舰船中先进信息系统的发展,越来越多的信息搜索等人机交互任务需要在晃动环境下进行。在飞机、航天器、汽车、火车和舰船等环境中进行视觉搜索相关
心血管类疾病是现如今对全人类生命和健康安全危害最大的重要的疾病之一,而其中,在中国无论是城市或是农村,急性心肌梗死已经成为了最重要的导致死亡的根源之一。除此之外,心
目的:小G蛋白在调控蛋白转运过程中发挥重要作用。近年来,小G蛋白对心肌离子通道(膜蛋白)的调控作用日益受到重视,目前相关的研究主要集中在钾离子通道和钙离子通道的调控方
目的通过观察吡非尼酮对体外培养的兔眼Tenons囊成纤维细胞(RTFs)增殖的抑制作用,探讨其可能的发生机制,为今后吡非尼酮应用于青光眼术后滤过区抗瘢痕化的实验研究提供分子生物学依据。方法1、RTFs的体外培养和鉴定:取兔眼Tenons囊组织,采用简化的组织块培养法,进行兔眼Tenons囊成纤维细胞体外培养,利用显微镜、免疫组化法进行细胞形态观察和细胞鉴定;2、采用CCK-8法检测与对照组(只含有