基于Map/Reduce框架的分布式日志分析系统的研究及应用

来源 :东北师范大学 | 被引量 : 5次 | 上传用户:wangxinyu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文研究了云计算集群中基于Hadoop框架的分布式日志分析系统,利用Map Reduce计算模型进行分布式计算,并结合HDFS进行分布式存储,利用分而治之的策略去分析企业云计算平台中产生海量数据,监控云计算集群中服务器的运行状态,并从海量数据中挖掘有价值的资源。本系统首先在被监控的集群上使用RandomAccess类收集包括各个节点上的系统日志、线程池中产生的日志等数据。然后,使用SSH工具将这些收集的日志数据传输到负责分析数据的集群中去,在这个过程中,使用一些聚类的方法将数据重新组织。之后,在负责分析数据的集群上,我们在Hadoop平台上,分别实现了MapReduce框架中的map模块和reduce模块,以此达到分布式分析日志的功能,并根据用户自定义的配置,实现定制化的日志分析。最后,导入生成的分析报告到Excel VBA,将图形化的分析报告呈现给用户。另外,我们将该分布式日志分析系统应用在Hadoop基准测试中,进行了大量的实验和数据分析,描述了在不同底层IO软件(主要包括IO调度器和文件系统)的选择上IO密集型基准测试的性能比较,方便Hadoop用户选择这些底层软件。并通过调节这些底层软件层的参数,对Hadoop上运行的MapReduce程序提供了优化方案。我们比较了TeraSort基准测试在几种不同IO调度算法和几大代表性的文件系统上的测试性能,并使用之前研究的分布式日志分析工具对其进行数据的收集与分析。之后,我们通过对最终结果进行优化,比如改进IO调度算法和调节文件系统参数,进一步优化了Hadoop IO密集型基准测试的性能。
其他文献
目前我国正在深入的进行新课程改革,改变以往的教师为中心和“灌输式”的教学模式,让学生成为学习的主体,倡导物理教学的生活化特色,从而使物理教学更具有生命力,提高物理在
随着信息化教学的发展,短小的微视频在授课过程中的应用越来越广泛.探 讨微视频在《PLC初级应用》课程中的应用,在授课过程的六个环节合理融入微视频, 很好解决难懂的知识点
目的提高住院病人病案书写质量,使医院、医务人员、病人三方的权益得到法律保障。方法检查某医院2006年第一季度出院病人病案,采用SPSS10.0统计分析软件进行分析。结果住院病人
随着互联网信息技术的飞速发展,以计算机、多媒体及网络通信技术为核心的信息技术广泛运用于教学中,数字化学习(E-learning)的理念在教育领域得到广泛应用和发展。由此推动了
众所周知,移动互联网已经成为了互联网企业开拓市场的又一方向。根据中国互联网络信息中心(CNNIC)发布的数据显示,目前中国手机用户人数达9.2亿,远远高于PC用户数。伴随着国
行业轮动在海外成熟市场倍受关注,从20世纪90年代到目前为止,这一定量投资策略正在被越来越广泛地采用,而国内的证券市场其实也明显存在这一规律。在理论界和投资实践领域中,
在新发展理念指导下,绿色金融在我国经济社会发展过程中将发挥日益重要的作用。实证研究表明,与其他地区相比,辽宁宽甸生态旅游产业带动效用水平偏低,最主要原因是绿色金融保
加强农村公共品有效供给是促进农村经济发展、农业增产增效、农民增收致富的重要途径,是破解城乡二元结构、推动城乡一体化的重要手段。农村公共品是公共品的一个重要组成部
本报讯(本报记者 于靖)夕阳中,数千只野鸭、野鹤在天空中自由翻飞竞翔,衬上满目的绿草碧水,构成了一幅幅生动和谐的水乡图画,而这画面每天傍晚都在距哈尔滨市区仅26公里的道外区巨
报纸
民航业是高科技、高风险的资本密集型服务性行业。为了贯彻民航“安全第一,预防为主”的方针,改善民航机场安全生产风险管理的科学性、可靠性,进一步降低事故率,减少航空事故