论文部分内容阅读
Hadoop是对大规模数据进行分布式处理的软件框架,是一种实现云计算和云存储的分布式计算平台。在不知晓分布式架构的具体细节状况下,用户能开发和运行分布式应用。Hadoop充分利用廉价计算机集群,对海量数据存储和运算,具有可靠、容错、高效和可扩展的特点。为了满足企业业务的需求,一些企业在使用现有Hadoop平台的同时,也在开发和优化现有Hadoop技术。Hadoop生态要支撑各类数据的处理,就需要对Hadoop进行补充,以增强其功能。因此,在Hadoop已有性能优化的基础上,设计有效的方案分别从数据、应用和安全三个层面上来增强分布式系统Hadoop的相应功能具有重要的意义。 Hadoop已成为大数据处理的关键部件,并获得了工业界的支持。然而,海量的小文件,严重制约着HDFS的性能,同时,MapReduce在其他类型作业中体现的不足也愈加明显,加之系统默认FIFO算法对用户提交作业不作区别等问题。需要了解系统已有的MapReduce并行计算框架优化、作业调度优化和HDFS性能优化研究现状,分析这些技术的优势和不足,为后续的改进打下基础。 Hadoop任务调度的目标是尽可能多的考虑数据本地性(包括节点本地性和机架本地性)。然而由于调度的随机性,原生系统并不能保证良好的节点本地性。如何保障节点本地性是提升Hadoop数据处理实时性的一个关键问题。数据预取是一种预先从其它节点读入待处理数据、改善数据本地性、隐藏数据访问延迟的有效方法。为了保证良好的节点本地性,结合Hadoop任务调度理念提出一种有效的数据预取策略,通过副本约简算法,约简出节点上可能的本地化数据块任务序列,从全局上明确预取数据对象,提升数据块分布不均匀和节点数据处理能力各异状态下的集群处理性能。相比Hadoop原生的数据本地性机制,所提出的数据预取策略提高了数据本地化率,并减少了数据处理时间。 Hadoop主流版本并没有考虑数据存储的层次问题,因此一些常规的应用(如搜索引擎)试图采用快速存取设备SSD去改善读取性能,但性价比并不高。缓存是一种大数据检索的有效优化手段。而数据选择策略能够放置合适的数据于内存缓存中。在Hadoop平台中引入快速存取设备SSD,设计基于SSD的分布式混合存储结构,并提出一种基于背包的有效数据选择策略,该策略视缓存介质为背包,视检索结果和倒排列表为物品。通过贪婪算法,在不同的存储架构下,改善了检索的性能,同时也能减少SSD的磨损。实验结果表明,提出的EDS策略相比其它策略有最高的命中率,并有效降低了平均查询延时。 作为大数据处理和存储的主流平台,Hadoop不仅需要处理非敏感数据,也需要处理和存储海量的用户敏感数据。这些敏感数据的共享有助于企业降低为用户提供个性化服务的成本,实现数据增值,而敏感数据的安全共享是增强Hadoop功能亟待解决的问题。通过分析敏感数据安全共享的现状,提出了一种大数据平台敏感数据安全共享系统框架,包括数据平台上敏感数据的安全提交、存储、使用和销毁;研究了基于密文异构转化的代理重加密算法和基于虚拟机监控器的用户进程保护方法等关键技术,为系统安全功能的实现提供了支撑。安全性分析表明敏感数据在提交、存储和使用过程中是安全的。性能评估显示,所提出方案在用户端计算和存储开销小,而云端计算存储开销相对较大,但计算开销很小,这符合平台的存储和计算特征。