基于Alluxio的数据高可用部署策略的研究与优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储着海量数据的分布式文件系统的进一步发展,为了满足各种企业、学术机构等组织对数据存取速度的需求,诞生了内存分布式文件系统这一概念。以开源的Alluxio为代表的内存分布式文件系统的逐渐发展,被人们运用到了日常生活中的方方面面,但这也暴露出了不少问题。本文以海量数据系统的可用性为研究目标,对比分析其他系统上的确保数据可靠性的机制,结合Alluxio自身特性,就数据部署策略方面提出改进的措施,以此来提高Alluxio自身的可用性,并且确保对上层计算框架更好的支持。Alluxio系统作为大数据生态系统的中间层,链接着上层计算框架与底层存储系统。当其正支持着上层计算框架对数据的读取时,若底层存储系统或者与之的通信网络发生故障,Alluxio中的数据的可靠性将不能从底层存储中获得保障,便会使系统不可用。同时考虑到远端调用在维护数据一致性的巨大消耗,建立或完善Alluxio内部对数据可用性的保障机制是十分必要的。所有的冗余措施都会占用Alluxio本就不多的内存存储,本文对此提出了一种改进思想。其主要分为两点,其一是将数据按热度进行划分,对热点数据以Alluxio层次化存储的方式固定到内存来提高内存空间的利用率进而提高系统整体的执行效率;其二是以数据块为粒度,通过设定合适的副本个数结合Alluxio并行化的读取措施进一步提高热点数据的读取效率,降低冷门数据占用的存储空间,也通过冗余措施确保了系统的可用性。这样当Alluxio在面对底层存储失联,自身节点故障等问题是仍能维持对上层计算框架的服务并坚持到故障被修复。基于上述的优化思想,在对Alluxio的源码进行解读后,本文在外部建立了一套按数据块预测读取频率来分类的计算模块与进行副本个数管理的动态调整模块;在内部改写了其自带的数据分配策略,添加了数据分层持久化的内容,同时对异常进行了监控,并以此实现了故障处理模块。最后,本文以一种模仿实际数据访问分布的读取算法对完成的热点数据分层部署策略和数据块副本动态调整策略进行测试,在与其他策略对比分析后,成功验证了本文策略的在提高系统响应效率、降低系统负载的有效性;在故障模拟后,通过分析任务的执行情况,也成功验证了本文策略对系统可用性提高上的有效性。
其他文献
电网系统是国家重要的基础设施和民生工程,在国计民生方面发挥着重要作用。而保护设备是整个网络中的重要基础设施,其部件多,结构复杂,负荷影响大,是电网设备的薄弱环节。对
传统的信号采样理论奈奎斯特定理指出,只有在采样频率高于两倍的信号最高频率时,才能完全不失真的恢复原信号。压缩感知理论以全新的视角,给出了解决问题的理论方法,利用信号
人工智能领域近年来得到了快速的发展,这得益于计算机处理能力的提升以及先进的机器学习算法。因此,在许多使用传统算法难以解决的问题,使用人工智能算法都逐步地被解决。一
近二十年来,有机电致发光器件(OLED)由于其视角宽、节省能源、材料来源多且环保、质量轻薄、可制备大尺寸柔性弯折显示等众多的突出优点,引起了学术界与制造界的高度重视,被
随着神经网络理论的提出及其不断发展,它已经给人类的科学技术,及其对自然的认知带来了很大的影响。忆阻器是除了电感器、电阻器、电容器之外的四种基本无源电子元件之一,是
无线传感器网络已广泛应用于军事、医疗、环境监测等多个领域。两层传感器网络作为传统无线传感器网络的延伸和发展,因其良好的可扩展性、有效的能耗和空间节省、高效的查询
集成电路规模的飞速增长,使得集成电路功能复杂度日益提升,一方面为信息技术产业带来了生机和活力,另一方面也产生了许多问题和挑战。集成电路的功能正确性是这些问题和挑战
计算机I/O总线连接丰富的各类I/O设备,是实现计算机I/O连接及外部扩展的关键技术。随着I/O设备性能的持续攀升,计算机系统总线已从传统的ISA、PCI等共享介质总线发展至基于点
嵌入式系统是一种专用的计算机系统,通过裁剪、结合软硬件的资源,可以满足用户各项性能指标的要求,包括功能需求、可靠性、成本、能耗、体积等等。在嵌入式系统设备中,有一种
近距离场景下的语音识别已经达到了令人满意的结果,但是由于受到噪声和混响等因素的影响,远距离场景下的语音识别依然具有很大的挑战性。和单路麦克风相比,麦克风阵列波束形