基于EHDFS的农业小文件存取方案研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:lifeisaboat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代农业与信息技术的发展,农业数据的规模不断增大,数据类型越发多样化,结构日益复杂化。其中,占据相当比重的农业小文件造成了大数据存储平台HDFS(Hadoop Distributed File System)无法高效地存取该类数据。本文在完全分布式集群环境的基础上,结合HDFS的结构设计和农业数据的相关特征,分别从存储和检索方面进行研究,提出了一种基于可扩展EHDFS(Extensible HDFS)架构的多级小文件处理单元的存取方案,包括基于相关度与块空间的文件合并存储单元、基于MapFile策略的两级文件索引单元和基于LFU(Least Frequently Used)页面替换策略的文件预缓存单元。主要研究内容有:(1)基于文件相关度与块空间的优化合并存储。针对HDFS存储农业小文件造成数据节点Data Node空间损耗和主节点Name Node内存压力等问题,构建了一种小文件优化合并存储模型。首先,采用阈值法进行测试文件的判断与划分。然后,运用Sim Hash算法进行农业小文件的相关度检测,使得高相关度的文件邻近存储,降低关联文件的访问资源开销。最后,综合考虑体积差异的小文件的分布状态对数据块空间占用率的影响,构建了一种空间最优化的合并存储模型,使得小文件尽可能填满且均匀分布于数据块中,达到最大化利用节点空间的目标。(2)基于MapFile策略的两级文件索引。针对HDFS索引机制检索小文件时存在信息交互频繁和资源消耗较大等问题,构建了一种基于MapFile策略的两级文件索引模型。其通过优化文件映射关系结构,改进索引组成元素和索引存储位置,以此降低分散索引与跨越式检索目标文件产生的高时延和额外的资源消耗。(3)基于LFU页面替换策略的文件预缓存。针对在大规模数据集中进行热点数据检索,存在客户端与集群节点之间频繁的I/O操作和节点负荷问题,从缓存对文件检索效率的影响角度进行分析,构建了一种基于LFU页面替换策略的文件预缓存模型。其根据Edit Log、FSImage和Meta Data进行热点数据的索引预取,并使用LFU策略进行数据项的缓存替换与排序,以此提高小文件的缓存命中率和检索时效性。(4)EHDFS存取系统架构的建立、实验与结果分析。首先,建立了基于可扩展EHDFS架构的小文件存取方案的系统架构。然后,通过搭建完全分布式的集群实验环境,并设计相关实验方案,进行验证EHDFS存取模型的效率性。实验结果表明,针对农业小文件的分组存取场景,在文件写入时间消耗方面,对比HDFS和Hadoop Archive,EHDFS方案分别改善了89.36%和8.39%;在Name Node内存占用方面,EHDFS相对HDFS和Hadoop Archive,分别改善了97.28%和47.62%;在文件读取时间消耗方面,对比HDFS和MapFile,EHDFS提升了89.03%和18.79%的检索效率。
其他文献
新时代,面对纷繁复杂的国际国内形势,面对极具特点的大学生思想与行为,如何加强高校理想信念教育已成为重要的时代课题。大学生是可持续培养自由而全面发展人才的关键力量。当前,多元文化与思想借助互联网、新媒体、大数据、人工智能等平台迅速传播,一方面,大学生处于三观正在逐步成熟但却未完全成熟的关键时期;另一方面,受快速变化的社会环境影响,大学生难以正确辨别并吸收有益于自身成长发展的思想与价值观念,导致理想信
党的十九届五中全会提出,要建设高质量教育体系。随后的2021政府工作报告更是明确要求“发展更加公平更高质量的教育”,努力推动教育发展提质扩容,促进教育公平迈出更大步伐。然而,现阶段我国教育资源配置的城乡差距仍旧较大。在现代化进程进一步加快的过程中,我国农村家庭的文化观念、可支配收入也在逐步提高,随之对优质教育的需求度与投入度也在不断加大,农村学校教育资源现阶段的增长速度已经远不能满足广大农村家庭对
农业种植技术个性化推荐是运用推荐算法为农业用户推荐所需的种植技术,缓减信息过载,提高农业生产效率的技术。它是农业领域信息化服务建设的重要组成部分。为了提高农业用户的种植技术推荐服务质量,本文结合农业种植场景的特征,利用数据挖掘领域的个性化推荐对农业用户和农业种植技术从用户特征建模、个性化推荐算法、推荐系统三方面展开研究。本文对推荐所需的种植技术给农户具有参考意义。(1)静动态双维度农业用户特征构建
精神贫困问题是我国在精准扶贫进入后期阶段以后逐渐显露出来的,具体而言,精神贫困问题是指那些生活水平低于社会平均水平且缺乏主动改善自身生活水平意愿的人群,既包括贫困人群,也包括已脱贫人群,对政府的有限救济产生了依赖,以至于在改善自身生活水平方面十分被动,没有认清自身才是摆脱贫困或自我发展的主体。本文在总结学界既有精神贫困研究的基础上,将精神贫困划分为两种类型,主观性精神贫困和客观性精神贫困,并且针对
近年来,宁夏回族自治区为了解决贫困问题和生态问题,在“十三五”规划中继续执行移民搬迁政策,而劳务移民是宁夏移民工程的重要形式之一。然而,当劳务移民的子女跟随父母迁至城市社区后,由于环境、文化、生活习惯等方面的变化使劳务移民子女在融入城市时面临诸多问题和挑战。由于搬迁至银川市的劳务移民子女已落户当地变为城市户口,也成为今后城市建设的主人公,他们的城市化将会影响城市的进步和发展,所以应关注该群体的城市
In the rapid development of urbanization in my country,the number of"village-to-community" is gradually increasing as a new type of community created by exploring the integration of urban and rural ar
学位
流动经营是外来务工人员、文化水平不高人员谋求生存的一种方式,它不仅解决这些低收入人群的生存问题,还体现了一座城市的市井文化。然而,流动商贩大多沿路设摊,对城市发展产生了一定的负外部效应,为城市治理带来了十分大的压力。近年来,也正是因为城市治理压力的增大,各地均对流动经营实施严格的限制性政策。而在常态化疫情防控形势下,有序的流动经营,能迅速促进就业、保障民生,加快经济社会复苏。设定一定的范围,制定相
退耕还林是国家启动规模最大、参与度最广泛、投资额度最高的生态工程,截止2020年已实施了近20余年。退耕还林作为恢复森林植被的有效政策与手段,根据造林适地适树的准则要求,因地制宜植树还林,在涵养水源、固碳释氧、净化大气环境、保护生物多样性方面发挥着重要的作用。2018年,作为退耕还林工程的试点省份之一,陕西省的退耕还林面积位居全国首位,共计124.1万公顷。该阶段森林覆盖率也成为历史上增幅最大、增
“失独老人”作为老年人中一个特殊的群体,由于唯一的孩子走在了他们的前面,与其他儿女健全的老年人群体相比,他们在丧子之后的晚年生活中将会面临着巨大的痛苦和挑战,需要全社会给予他们更多的关注与支持。虽然近几年“失独老人”作为一个热点话题在社会上引发来了越来越多的关注,但从现实意义上来讲,各种福利支持政策和保障依然不够成熟。因此,若要改善失独老人现状,帮助他们摆脱困境,需要为他们搭建起相对完整的社会支持
计算机视觉技术在畜禽目标检测与跟踪和畜禽行为分析与理解等相关领域的研究已取得重大突破,但缺乏针对夜间环境下牛的行为分析的相关研究。夜间的牛行为分析研究,由于数据采集条件的限制以及任务自身的复杂行和综合性,在数据预处理、牛的目标检测与跟踪、牛的行为分析方面还存在一些问题,针对这些问题,本文提出一种基于MobileNetV3与运动轨迹的夜间牛行为分析方法,通过对增强后的畜棚内夜间图像进行目标检测、跟踪