分布式文件系统中元数据管理优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:uuuuurzm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代互联网技术的快速发展和数据时代的到来,数据量呈指数型增长,数据存储技术对众多应用服务的影响日益加深。分布式文件系统因其具备高可靠性和高扩展性,并且支持文件共享存储和完善的并发访问控制功能,在存储系统中发挥着至关重要的作用。分布式文件系统通常包含元数据服务器、数据服务器和客户端三个部分。元数据是用来描述文件系统和文件特征的系统数据,例如文件类型、文件大小、访问权限和数据索引信息等。用户在访问文件数据之前需要访问文件的元数据以获得文件的基本属性信息和数据的索引信息。在分布式文件系统中,超过50%的文件操作都是针对文件元数据的操作,因此分布式文件系统中元数据的存取性能至关重要。本文从分布式文件系统元数据预取机制、元数据服务器集群负载均衡策略和元数据管理方案三个方面,对现有分布式文件系统元数据存取流程和管理方案进行分析并加以优化,以提升分布式文件系统中元数据的存取性能。本文的主要研究内容和贡献如下所述。(1)基于数据关联性的元数据预取机制在众多应用场景中,工作负载的局部性特征引起多个文件同时被一起访问,即文件间存在访问关联性。如果分布式文件系统事先感知文件间的关联关系,则可以通过预取技术提前将关联文件的元数据从元数据服务器端预取到客户端。因此通过引入元数据预取技术可以减少系统中元数据I/O的数目,同时减轻元数据服务器的负载压力和缩短元数据请求的处理流程。但是现有的元数据预取策略主要采用离线的方式从文件历史访问记录中探索一起被频繁访问的文件集合,具有很强的限制性并且难以根据系统负载特征动态调整关联关系。为了解决现有预取技术中存在的问题,本文从一个全新的角度考量文件间的关联关系,并提出了一种基于数据关联性的元数据预取机制SMeta。SMeta通过轻量级的模式匹配算法来探索文件数据中存在的关联关系,并复用元数据扩展属性空间存储关联关系,以避免引入额外的元数据同步操作和修改系统接口。此外SMeta还引入了高效的客户端动态反馈机制以提高预取的准确度。本章基于Ceph实现了一套原型系统,并利用元数据操作密集型的基准测试程序和真实的工作负载进行性能评估。实验结果表明,相比于Ceph,SMeta可将系统中元数据请求数目减少58.5-87.8%,并达到其10.5倍元数据存取吞吐量和2.75倍客户端线性扩展性能。相较于基于存取关联性的预取方案,SMeta可进一步提升元数据存取性能。(2)元数据服务器集群负载均衡策略在元数据服务器集群中需要引入负载均衡机制以保证集群负载分布的均衡性,同时提升集群整体资源利用率和元数据服务的并发性能。但是现有的元数据服务器集群负载均衡策略只考虑元数据服务进程逻辑层面的负载均衡,难以根据元数据服务器集群架构动态调整均衡方案。同时仅基于系统负载的时间局部性的均衡决策方案过于单一,难以根据系统负载特征动态调整决策方案。此外采用两阶段提交的阻塞式元数据迁移操作使得迁移消息过多,并且因锁竞争问题进一步阻塞客户端元数据请求,从而影响系统元数据存取性能。为了解决现有负载均衡策略中存在的问题,本文基于元数据服务器集群两层架构提出了一种新型负载均衡策略,并实现了一套原型系统Fim。Fim通过引入节点内IPC通信方案加速节点内消息传递,并结合节点内优先迁移的调度方案进一步缩短元数据迁移时长。并且Fim在进行均衡决策时充分考虑系统负载特征,从而进一步提升负载迁移的效率。Fim通过将元数据迁移消息与客户端元数据请求并发处理,并引入非阻塞式元数据迁移方案来进一步降低元数据迁移操作对客户端元数据请求的影响。实验结果表明,Fim可以有效缩短元数据迁移时长并且提升元数据迁移的准确性。相比于Ceph,Fim可以将ImageNet数据集的预处理时间缩短77%。(3)混合元数据管理方案元数据管理方案包括建立文件系统命名空间到元数据服务器集群间的映射关系,同时负责调控整个集群的负载均衡等问题。现有的元数据管理方案分为两类,分别是基于子树划分和基于哈希映射的元数据管理方案。基于子树划分的元数据管理方案将文件系统目录树拆分成多棵目录子树,分布到元数据服务器集群中。而基于哈希映射的方案则根据文件唯一标志符的哈希运算结果分布元数据。但是现有基于子树划分和哈希映射的元数据管理方案难以同时在目录局部性和负载均衡特征中进行有效地权衡。本文提出了一种混合元数据管理方案并实现了一套原型系统SmartM2。SmartM2通过在元数据服务器节点间采用子树划分的方式保留了文件系统良好的目录局部性,并且在节点内部多个元数据服务进程间采用哈希映射的方法均匀分布子树元数据,从而实现节点内多元数据服务进程间的负载均衡。同时SmartM2引入节点内IPC通信方案加速节点内多个元数据服务进程间通信速度,以进一步弥补因哈希映射引起的目录局部性的损失。此外当元数据服务器集群规模发生变化时,SmartM2将哈希映射的影响范围局限在单个元数据服务器节点中,减少了需要重新映射引起的元数据迁移总量,并且仅在节点内的元数据迁移操作进一步缩短了元数据迁移时长。实验结果表明SmartM2可以有效地权衡目录局部性和负载均衡特征。相比于Ceph,SmartM2可达到其3.9倍的元数据访问吞吐量。并且当元数据服务器集群扩容时,相比于基于哈希映射的管理方案,SmartM2可以将元数据迁移用时缩短74.7-92.6%。
其他文献
2015年9月29日,国务院总理李克强主持召开国务院常务会议,会议中确定支持新能源和小排量汽车发展措施,促进调结构扩内需。会议决定:新能源汽车方面,各地需完善新能源汽车扶持
以狐尾藻种苗为研究对象,考察了不同盐度条件下其部分生理指标响应及对Pb^2+的吸附能力。结果显示,盐度在4‰以上,叶绿素含量随盐度增加而呈下降趋势,但其丙二醛含量却逐渐上
稀土是一组金属元素的简称,包含化学元素周期表中镧、铈、镨等17种元素。有人说,稀土是工业维生素,也有人说,稀土是工业黄金,总而言之,稀土的战略地位不可动摇,“十三五”期间,稀土
报纸
为了研究好氧反硝化菌源水脱氮过程中水体微生物群落的演变,利用Miseq高通量测序法对投菌和对照两系统水体样本的微生物信息进行统计,并对两组样品进行了优化序列统计,OTU分
加强和完善应急预案体系是应急管理的一项基础性工作。反思应急预案体系建设和预案工作的成败得失,需要对指导应急管理和应急预案工作的科学理论基础进行探讨与反思,从而使我
据最新发布的中经有色金属产业月度景气指数显示,2015年6月,中经有色金属产业景气指数为55.7,回升至“正常”区域,有色行业整体平稳运行,有持续企稳的迹象。2015年上半年,我国稀土
报纸
7月27日,工业和信息化部以“工信部规[2015]252号”文特急发布“2015年工业转型升级重点项目指南的通知”(下简称《通知》),决定组织实施2015年工业转型升级重点项目。《通知
在制度与道路的选择面前,突发的灾难是最有说服力的试金石。四川省芦山“4.20”7.0级强烈地震发生后,灾区人民的生命和财产遭受巨大损失。面对汶川地震之后又一次震灾剧痛,全
期刊
2014年LED企业普遍增速不及预期经过一年的激烈角逐,LED企业开始陆续披露去年业绩。此前LED照明灯具成本逐渐下降,开始加速替代传统白炽灯,一些行业人士因此预计2014年将是LED企
随着年报披露步入高峰期,上市公司2015年一季报业绩预告也开始纷纷露脸。上证报资讯对已披露的2015年一季度业绩预告梳理,发现多家公司业绩增长源于行业回暖,体现出其所处行业景
报纸