论文部分内容阅读
随着移动互联网的快速发展、智能手机的迅速普及,用户对数据流量业务的需求呈爆发式增长,流量经营成为未来发展高地。支撑系统需要在海量的数据中进行深度的分析,研究规律,掌握用户使用行为,挖掘使用需求,为业务发展提供科学的支撑。通信数据经营支撑系统通过DPI协议分析、爬虫等各类技术,将数以亿计的网络侧话单、报文等的各种源数据进行解析,获取所需的用户上网行为及特征信息,分类后输出为相应模型数据,并分发至各个系统,提供给各种渠道的界面作展示,或将相关的营销信息推送给用户。而在移动数据使用量激增、分析模型日趋复杂的情况下,传统基于DB2架构已经难以满足如此大数据量的系统支撑需求。本文通过研究Hadoop和Spark这两种大数据技术的应用场景、生态系统、关键技术等,结合系统自身数据量大,迭代运算较多的特点以及存储分析的用途,采用Spark以及Hadoop生态组件的深度优化、整合,设计了基于Spark作为运算核心,以HDFS作为存储,选取Spark on Yarn中的Yarn-client集群部署模式,构建的大数据计算平台,替代原先的DB2架构。该系统中数据采集、存储和分析均采用分布式和并行架构,可以支撑每天数以十亿计的海量数据分析需求;该系统也通过Hive支持基于SQL语言的查询,可以兼容已有分析工具。新的系统可以更高效完成用户行为分析、流量运营情况分析、各类关键场景下的实时营销及推送等功能的建设,满足日渐丰富的市场运营分析以及用户需求的支撑条件。