论文部分内容阅读
随着大数据处理与存储技术的发展,某些企业租用“公有云”或构建“私有云”来满足“云计算”和“云存储”需求。但租用“公有云”一般伴随着数据的安全性问题,而传统“私有云”的建立和维护需要更大的人力和资金成本。近年来,围绕物联网的结构化大数据的应用需求,低成本、高安全性的嵌入式“私有云”大数据中心倍受企业关注。论文研究基于嵌入式的大数据平台关键技术,搭建嵌入式“私有云”平台,适合中小型企业或家庭,以及对移动便携性有要求的系统。论文研究结构化大数据和节点信息在资源有限的嵌入式平台上的存储机制与集群管理算法优化方法,在分析传统集群管理中节点信息存储和容错机制的基础上,提出了一种优化的基于大堆树节点信息存储的低开销集群管理机制和一种基于列数据存储的混合压缩策略,降低了节点信息和数据的空间开销及故障检测通信量。在嵌入式平台上实现了大数据库引擎的移植与优化,搭建了嵌入式Web服务器Lighttpd,实现了嵌入式大数据平台的集群管理与数据存储等基本功能。论文的主要工作如下:(1)优化了基于大堆树的低开销集群管理机制,降低存储节点信息的平均空间开销,并在心跳检测机制中,得以区分Master的节点故障及链路故障,避免不必要的修复过程,降低节点维护的心跳检测进程数,从而降低通信量,同时采用改进的节点性能参数作为节点故障恢复的依据,使得故障恢复过程中通信量不再具有随机波动性,降低算法复杂度。(2)实现一种基于列数据存储的混合压缩策略。针对列数据库的特点,对行号和列数据值的压缩方式分别进行讨论,对于行号先使用差值编码再使用行程编码,对于数据值先使用差值编码再使用位图编码,以提高压缩比,节省数据存储空间。(3)嵌入式大数据引擎的设计与实现。在嵌入式平台上,移植基于列数据库的大数据库引擎,针对硬件平台实现了程序优化,提高程序运行效率;搭建嵌入式Web服务器Lighttpd,以实现用户对嵌入式大数据集群的远程访问。