论文部分内容阅读
在过去的二十年,随着科学技术的快速发展,医疗领域、科研领域、传感器领域、互联网公司以及金融机构产生了大量数据。为了适应非结构化的巨大数据量的数据集,“大数据”数据处理平台正蓬勃发展。相比于传统数据,“大数据”具有非结构化的、大数据集的以及需要实时处理等特点。根据以上特点,产生了“大数据”平台的数据采集、传输、存储和大规模数据处理机制的系统架构。本文使用Apache Ambari进行Hadoop大数据平台的搭建和管理,利用该平台的系统框架实现对车站数据的采集、存储和分析。该平台(在本文中也称为系统)分为前端可视化客户端和后端服务器两个部分,采用Python和Javascrip两种语言混合开发,Web框架是采用Python编写的轻量级框架Flask。该系统实现了对某车站安全和故障问题的数据传输、数据存储、数据挖掘和信息展示等多种功能。在本文中,我们首先对某车站大数据平台的需求进行了分析,并且根据需求对系统的架构进行了设计。其次为了方便管理和维护,设计了一种基于C4.5决策树算法的安全问题预测算法。之后,通过大量数据训练学习得到了合理的决策树,仿真结果表明该预测算法达到了预期的目标。