HDFS分布式文件系统存储策略研究

被引量 : 14次 | 上传用户:jcfasd123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的高速发展和应用,带来了数据规模的爆炸式增长,使得大规模数据存储和处理成为目前高性能计算领域的研究热点。传统的数据处理模式多用于计算密集型作业。分布式存储的出现为海量的数据存储提供了全新的解决方案,它以“按需付费”的独特模式,为用户提供低成本、高可靠性、高性能的在线数据存储和访问服务。因此,如何在保证数据可用性和可靠性前提下高效存储和访问数据,成为分布式存储系统中尤为关键的一个问题。现有的数据副本决策算法主要是基于整个文件访问情况进行动态调整,然而,很多时候用户仅仅对文件中的部分数据块感兴趣,如果单纯的基于整个文件进行副本系数动态调整,有可能降低集群存储资源利用率和增加数据副本一致性维护开销。同时,在某些应用场景下,如视频点播应用中,HDFS并没有针对那些被用户频繁访问的热点数据进行读取优化。重复数据的频繁访问会使得DataNode节点产生频繁的磁盘I/O操作,增加数据访问延迟。同时,由于数据的重复传输大大浪费了集群系统网络流量。针对上述问题,本文在HDFS分布式文件系统的数据副本管理策略和数据访问流程两方面展开深入研究。本文完成的主要工作如下:1.在深入分析现有分布式存储系统数据副本管理技术的基础上,提出了基于数据块的副本系数动态调整策略。该策略基于数据块而非整个文件实现,首先,在数据访问具有时间局部性原则下,通过为数据块的各个历史访问周期赋予不同的权重,预测出数据块下一周期的访问频率。然后,根据HDFS中数据访问规律近似二八定律这一事实确定热点数据块阈值,从而对数据块进行热点判定,根据判定结果动态调整数据块副本系数。最后,通过实验对该策略的有效性进行验证。2.在对HDFS文件读取过程进行深入分析后,针对HDFS中频繁访问的热点数据提出了一种基于热点数据块的DataNode本地二级缓存策略。该策略通过在DataNode节点设置基于本地内存和本地磁盘的二级缓存机制,分别用于缓存HDFS中那些被频繁访问的热点小文件和热点大文件。该策略一定程度上提高了数据访问效率,减少了DataNode磁盘I/O负载以及节省了集群系统的网络带宽。最后,通过实验对该策略的有效性进行验证。
其他文献
随着我国政治和经济体制改革的深入和国民经济的发展,各级政府公共开支的大幅度增长,经济资源与需求矛盾的日益尖锐。政府运作的节约、效率、效果如何,为大众所关注。在这样的环
多年来,我国家电企业的竞争以价格战为主,试图通过降低成本来提高竞争力。随着"家电下乡"政策的普及和深入,家电产品无论采用连锁销售模式还是区域销售模式进行分销,都会导致
<正>一、农村电商、农村代购创业2015年,电商平台渠道下沉成为主流趋势,京东、阿里等电商平台在县域、农村非常火热。随着农村互联网的快速发展,农村电商在2015年出现井喷式
美、日、法三国农业生产和流通在全球具有很强的代表性,其典型特征是渠道短、环节少,我国农产品物流渠道建设应借鉴其经验,结合我国国情,充分发挥政府在农产品物流渠道建设中
化疗相关性恶心呕吐(CINV)是恶性肿瘤化疗中最常见的不良反应,严重者可给患者生理、心理带来极大痛苦,降低患者生活质量,甚至因为恐惧心理而中断化疗[1]。目前临床上多采用5-
目的对我国疫苗稳定性研究提出建议。方法对疫苗稳定性研究的重要性、研究目的、研究类型、稳定性研究中存在的几个主要问题进行分析。结果与结论针对疫苗这一重要而特殊产品
产生于20世纪末的中国"新写实小说"是当时社会背景下的一个必然。它化解了当代小说传统的写作模式,以下沉的创作视角和摒弃虚构的细节,使当代中国文学回到了生活的原生状态。
由于非线性技术可使压电式能量采集获得较宽的振动频率和较高的输出电压,本文基于非线性振动研究了一种压电式能量采集器。基于Dulling模型测试得到了非线性压电能量采集器的
温度采集在各个行业中占有重要地位。介绍了一种由MSP430F149单片机、DS18C20温度传感器和SMC1602A液晶显示器构成的实时温度显示的数显温度计。该数显温度计可以实现低功耗
基于盐渍土修复过程中盐分含量和同步实测光谱数据,通过对原始光谱数据、平滑光谱数据及平滑后的不同变换光谱数据等八种光谱数据集,分别以相关系数的极值和不同相关系数范围