面向大数据处理的分布式系统性能优化与功能增强

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wgrlxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是对大规模数据进行分布式处理的软件框架,是一种实现云计算和云存储的分布式计算平台。在不知晓分布式架构的具体细节状况下,用户能开发和运行分布式应用。Hadoop充分利用廉价计算机集群,对海量数据存储和运算,具有可靠、容错、高效和可扩展的特点。为了满足企业业务的需求,一些企业在使用现有Hadoop平台的同时,也在开发和优化现有Hadoop技术。Hadoop生态要支撑各类数据的处理,就需要对Hadoop进行补充,以增强其功能。因此,在Hadoop已有性能优化的基础上,设计有效的方案分别从数据、应用和安全三个层面上来增强分布式系统Hadoop的相应功能具有重要的意义。  Hadoop已成为大数据处理的关键部件,并获得了工业界的支持。然而,海量的小文件,严重制约着HDFS的性能,同时,MapReduce在其他类型作业中体现的不足也愈加明显,加之系统默认FIFO算法对用户提交作业不作区别等问题。需要了解系统已有的MapReduce并行计算框架优化、作业调度优化和HDFS性能优化研究现状,分析这些技术的优势和不足,为后续的改进打下基础。  Hadoop任务调度的目标是尽可能多的考虑数据本地性(包括节点本地性和机架本地性)。然而由于调度的随机性,原生系统并不能保证良好的节点本地性。如何保障节点本地性是提升Hadoop数据处理实时性的一个关键问题。数据预取是一种预先从其它节点读入待处理数据、改善数据本地性、隐藏数据访问延迟的有效方法。为了保证良好的节点本地性,结合Hadoop任务调度理念提出一种有效的数据预取策略,通过副本约简算法,约简出节点上可能的本地化数据块任务序列,从全局上明确预取数据对象,提升数据块分布不均匀和节点数据处理能力各异状态下的集群处理性能。相比Hadoop原生的数据本地性机制,所提出的数据预取策略提高了数据本地化率,并减少了数据处理时间。  Hadoop主流版本并没有考虑数据存储的层次问题,因此一些常规的应用(如搜索引擎)试图采用快速存取设备SSD去改善读取性能,但性价比并不高。缓存是一种大数据检索的有效优化手段。而数据选择策略能够放置合适的数据于内存缓存中。在Hadoop平台中引入快速存取设备SSD,设计基于SSD的分布式混合存储结构,并提出一种基于背包的有效数据选择策略,该策略视缓存介质为背包,视检索结果和倒排列表为物品。通过贪婪算法,在不同的存储架构下,改善了检索的性能,同时也能减少SSD的磨损。实验结果表明,提出的EDS策略相比其它策略有最高的命中率,并有效降低了平均查询延时。  作为大数据处理和存储的主流平台,Hadoop不仅需要处理非敏感数据,也需要处理和存储海量的用户敏感数据。这些敏感数据的共享有助于企业降低为用户提供个性化服务的成本,实现数据增值,而敏感数据的安全共享是增强Hadoop功能亟待解决的问题。通过分析敏感数据安全共享的现状,提出了一种大数据平台敏感数据安全共享系统框架,包括数据平台上敏感数据的安全提交、存储、使用和销毁;研究了基于密文异构转化的代理重加密算法和基于虚拟机监控器的用户进程保护方法等关键技术,为系统安全功能的实现提供了支撑。安全性分析表明敏感数据在提交、存储和使用过程中是安全的。性能评估显示,所提出方案在用户端计算和存储开销小,而云端计算存储开销相对较大,但计算开销很小,这符合平台的存储和计算特征。
其他文献
文件分享是互联网的传统应用,在线视频则呈现爆炸性增长,若能将两者结合提供一体化服务将会带来更好的用户体验。P2P技术已被证明可以用来提供大规模的网络服务,BitTorrent是
无线传感器网络是结合了传感器、无线通信和嵌入式系统三方面技术的新型网络技术,自从被提出后,就引起了人们的极大关注,在医疗卫生、环境监测和军事等领域有着广阔的应用前
随着互联网技术的发展,人们进入了信息化的时代。在这个信息化的时代,信息就意味着财富,如何有效快速获得准确的、有价值的信息成为关键环节。当前,Web上出现了大量的、结构不同
随着物联网的发展和移动终端的普及,越来越多的数字资源被产生,数据安全的挑战也越来越大。尤其是随着云存储技术的普及,人们开始更多将自己的私有数据上传到云端备份,却对数
迭代算法是指那些对初始输入数据集进行多轮反复处理寻找所需近似解或者精确解的算法。它在早期用于数值分析中线性方程组和微分方程等方面的近似求解。经过几十年的发展,迭代
随着计算机视觉技术与工业生产技术的迅速发展,对机械零件尺寸测量精度的要求已经越来越高。因此,如何提高零件尺寸的测量精度已经成为目前研究的重点问题。本文在现有视觉测
随着互联网上资源和服务的日益增多,人们常常需要借助于搜索引擎来查找相关信息。通用搜索引擎返回的结果包含了大量的杂质信息,用户通常还需要从中筛选符合自己查询意图的结
三维编织复合材料是三维编织技术与现代复合材料技术相互结合的产物,是制作结构件的理想材料,它具有异形件一次编织成型、结构不分层、整体性能好与设计灵活等优点,已经成功地运
视频监控已在众多领域得到广泛应用,利用视频挖掘技术可以从海量视频数据中提取特征、进行有效的分析、发现高层语义知识和模式,实现对监控视频的自动化和智能化应用。目前,国内
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取