面向农业科学数据的分布式存储系统的研究与实现

被引量 : 3次 | 上传用户:handsomels
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
农业科学数据存储是农业科学研究的重要部分。现有农业存储系统在性能、存储容量、数据的可靠性、存储成本等方面存在很大的不足。为了解决农业科学数据的PB级非结构化且形式多样的数据存储难题,本文对农业科学数据文件进行深入分析,并展开对分布式存储技术的研究,提出了基于开源云平台Hadoop的分布式存储系统的解决方案。取得的主要成果如下:1)根据农业科学数据的自身特点与应用需求,本文设计了面向农业科学大数据的分布式存储系统的框架模型。该模型将非结构化的文件数据存入改进的HDFS架构中,将异构、结构化的属性数据存入HBase数据库系统,给出了保证数据文件与数据属性之间的关联性的设计方案,并且在Client端与数据节点端设置缓存,提高了文件的存取效率。2)面对农业科学数据中含有海量小文件的情况,本文给出了基于多属性的海量农业科学小文件合并存储策略。通过将农业科学数据中的小文件按照特定属性进行分类,将属于同一分类的数据合并成一个大的聚合文件,有效的降低了海量小文件对中心节点内存的消耗,提高了文件的存取效率;通过创建并缓存了小文件到聚合文件的索引,改善系统中农业科学数据读取的性能。3)针对农业科学数据文件因季节性强而导致的热点数据问题,提出了动态副本管理策略,包括两个方面的内容:一方面,基于文件访问频率的动态副本添加和删除方法,通过统计文件在固定的时间内访问频率,计算出文件使用的热度,并综合考虑统计周期、文件缓存等因素,动态调整文件副本的数量;另一方面,基于节点状态的副本动态放置方法,通过全面的考虑描述数据节点状态的多个参数,计算每个节点的性能,选择最优的存放节点,以改善系统性能以及文件读取效率。基于上述研究成果,本文设计并实现了面向农业科学大数据的分布式存储系统AGRFS。AGRFS实现了基本功能模块以及用户访问接口,并且搭建了一个Hadoop集群,通过实验来验证了上述策略的可行性以及本系统的可用性。结果表明,本文提出的小文件存储策略以及动态副本管理策略提高了小文件的读写操作效率,优化了系统的性能,同时本文设计的分布存储系统也能很好解决农业科学数据存储问题。
其他文献
<正> 一、大气污染的基本情况 大气是一种混合气体,我们当今世界所见到的大气主要是由氮(N2)和氧(O2)组成,另外还包括有许多微量气体: 惰性气体:氦(He)、氖(Ne)、氩(Ar)、氪(Kr)、氙(Xe)等;
随着科技的发展和计算机的普及,各种智能化产品开始逐渐深入人们的生活,如智能手机、智能家居等产品。智能市场的崛起,使得人们对人机交流方式有了更高的要求,这无疑促进了语
石油天然气是保障国民经济持续发展、社会生活稳定和国家安全的重要能源和战略资源。随着我国国民经济的高速发展,国家对油气资源的需求急剧增加,供需矛盾日益严峻,已成为制
目的观察妊娠早期单纯甲状腺自身抗体阳性孕妇妊娠晚期甲状腺功能(甲功)变化及妊娠结局,了解甲状腺自身抗体对妊娠的影响。方法选择妊娠早期127例甲功正常、甲状腺过氧化物酶
末次冰消期,巨量的冰盖从大陆和海面上消融,导致全球平均海平面上升120~140m.从地质记录中至少识别出3次规模巨大的冰盖快速融化和冰融水倾泻事件,按照发生时间先后,分别被命
随着经济社会的发展,排污权交易在我国环境经济政策当中的地位越来越重要。2007年开始,中国环境保护部开始在部分省市进行排污权交易试点,2014年国务院发布《国务院办公厅关
汽车工业的高速发展导致我国隧道、地下车库等半封闭空间空气污染十分严重,其中NOx对污染贡献最大。现有的半封闭空间气体净化技术普遍存在成本高或治理效果不佳的缺点。光催
目的:探讨重症监护病房导管相关感染防控中应用PDCA 循环管理模式的临床效果。方法:重症监护病房收治行中心静脉置管患者120例作对照组并予以常规护理干预,重症监护病房收治
在过去的10年里,有机小分子催化作为一门环境友好的有机合成方法学在不对称催化合成中的应用得到了重新发掘,新颖的有机小分子催化剂和新型有机小分子催化的不对称反应受到广
目的皮肤作为人体最大的器官,其在调节体温、排泄代谢废物以及维持机体内环境稳定等方面均发挥着重要作用。但是,皮肤在日常生活以及战(创、烧)伤中也最易受到损伤。轻度受损