基于Hadoop的数据部署策略研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:yinjushicui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交网络的推广以及智能设备的普及,数据的增长速度也在不断加快。Hadoop,作为MapReduce的开源实现,在工业界和学术界的地位正变得越来越重要,大数据技术已经对社会和经济的发展产生了直接影响。在Hadoop系统中,数据部署影响任务的分发和执行效率,因此,数据部署策略的研究有重要的理论意义和实用价值。本文主要研究Hadoop分布式文件系统的默认数据部署策略和副本机制。针对原有数据部署策略的缺陷,利用节点的性能和数据之间的关联,提出一个两阶段数据部署算法。在此算法的基础上,利用K-means算法,调整副本的部署位置,减少算法在运行时的停顿时间。本文主要创新工作包括:1.提出一个基于PageRank的节点性能评估算法。本文采用多种Benchmark测试对节点性能进行评估,利用PageRank算法计算各个评估得分的价值,将多个评估得分归一。2.提出一个两阶段数据部署算法(TSDP,Two Stages Data Placement)。首先根据性能把数据块部署到各个节点。再根据数据之间的关联度将数据块进行分组,进行数据的第二阶段部署。实验表明,TSDP算法相对于一致性hash算法和负载均衡算法,任务执行效率明显提高。3.提出一个新的副本部署算法。本文首先定义了数据的热度,根据数据热度来调整数据的副本数。然后定义了节点的关联度,利用节点的关联度代替欧氏距离,使用K-means算法计算出聚类中心,从而减少副本的迁移距离,降低TSDP算法在运行时的停顿时间。通过实验,与未改进的TSDP算法相比,停顿时间明显减少,但任务执行效率略有降低。4.设计以及完成数据部署可视化分析平台的开发。
其他文献
针对点云场景的语义理解是计算机图像学和立体视觉领域重要的研究问题。其中,解析场景中实体的语义信息在场景重建、虚拟现实、智能家居等方向有重要的应用价值。然而,现有点
LTE-A系统通过引入异构网关键技术从网路层面进行系统扩容,在原有的宏蜂窝网络覆盖下进一步部署如Femto基站、Pico基站或Relay中继站等低功率节点(Low Power Node,LPN),实现
司法鉴定作为保障司法公正的重要环节,在我国构建和谐社会的进程中扮演着重要角色,发挥着特殊的作用。在司法鉴定活动中,司法鉴定主体作为司法鉴定活动的执行者,也成为保证司
随着国家经济的高速发展,人民群众对电力的需求与日剧增,国家对电力产业的投入也逐年增大。而电力安全作为电力行业的重要方面,在电力产业发展过程中扮演着重要角色,作为电力
随着深亚微米技术的日渐成熟和纳米工艺的发展及应用,超大规模集成(Very Large Scale Integrated,VLSI)电路已经越来越广泛地应用到了生活的方方面面,对国民经济的发展和科学
投资作为公司获取投资收益、实现财务目标的重要基础,投资决策就是企业所有决策中最为关键、最为重要的决策,通常将对企业未来的现金流量产生重大影响,影响着企业实现自身目
无线通信技术的快速发展使人们对频谱资源的需求大大增加,而现今的频谱分配政策又造成大部分可用频段的利用率较低。认知无线电技术能感知周围频谱环境,并机会性地接入空闲频
目前,我国教育部门对中职院校办学水平和教学质量的评估工作非常重视,社会各界也给予了极大的关注,这使得中职办学水平的评估工作成为摆在中职院校发展过程中的头等大事。办
当前无线网络对传输速率成百倍的需求增长与日益殆尽的频谱资源成为了一对急需解决的矛盾。认知无线电具备学习能力,能够通过频谱感知利用空闲频谱资源,大幅提高频谱利用率。
二十世纪九十年代以来,我国开始积极发展高等职业教育,郑州财税金融职业学院抓住了发展的机会,2013年学校由普通中等职业学校“郑州市财税学校”升格为高等职业院校“郑州财