论文部分内容阅读
伴随着信息技术的飞速发展,计算机网络的应用已经深入到各个领域,并发挥着积极的作用。作为网络数据的重要形式,数据流的应用价值日益凸显,在网络管理、工业控制、市场分析等方面都有着十分重要的作用。在网络管理方面,管理员可以通过数据流分析网络运行情况,优化网络配置;在工业控制方面,控制系统可以通过对数据流的实时监控,提高工业管理的智能程度;市场分析方面,工作人员可以通过数据流挖掘用户的行为记录,分析用户的消费规律。
然而,随着网络数据的不断丰富,数据规模不断扩大,数据流变得越来越难以管理。传统的数据流管理系统在扩展性、并行性等方面,逐渐不能满足网络管理员的管理需求。网络管理员希望使用更加高效的工具,来分析管理目前庞大的数据流。近年来兴起的云计算技术,为我们提供了解决大数据处理问题的思路。我们可以利用云计算的并行计算、分布式存储等能力,提高数据流管理系统的扩展性、并行性等能力,提升数据流管理系统的总体效率。在调研比较了众多云计算平台之后,本系统采用Hadoop作为数据流管理系统的支撑平台。Hadoop是目前应用最广的云计算平台之一,拥有丰富的功能、开放的接口、良好的性能,符合作为数据流管理系统基础平台的要求。
本文在深入调研了数据流管理的特点,认真研究了Hadoop关键技术的基础上,设计并实现了基于Hadoop的数据流管理系统。本系统采用Hadoop的分布式文件系统HDFS存储管理数据流文件,并设计实现了一种文件存储加速策略,提高数据流文件的存储速度;采用Hadoop分布式数据库Hbase存储管理数据流信息,为用户提供高效可靠的数据库服务;采用Hadoop并行计算框架MapReduce开发分布式计算程序,用来高效处理用户的查询搜索等计算请求;并基于Hadoop的Web接口开发了一套良好的用户功能界面,为用户提供多项数据流管理服务。本系统较集中式的传统数据流管理系统,在扩展性、并行性等方面有了一定的改善。