论文部分内容阅读
                            
                            
                                随着互联网、生物信息、传感器等产生的数据急剧增长,数据爆炸、大数据、分布式处理成为了当今比较流行的研究热点,与此同时,分析大数据,特别是在海量数据中挖掘有价值的信息,用较好的工具展现出来,是大数据可视化研究领域的研究趋势。然而这种大数据处理框架和可视化技术相结合的产品很少,在这种数据就是自然资源的信息时代,这种需求更是迫在眉睫。本文设计了一个大数据可视化模型的算法处理与应用架构,包括如下几个部分,大数据可视化算法设计模型、大数据实际应用生产系统。1)大数据可视化算法研发模型在本文主要从易用并行化算法设计方面体现,数据分析师,或者数据科学家能用这个模型设计自己的并行算法,而且还能进行大数据分析,并将数据进行可视化,因此本文提出的大数据可视化算法分析平台模型,很好地解决了传统只能用R进行数据抽样分析到用R进行数据全量分析的问题。为了验证这个模型,本文对协同过滤算法进行了改进,本文用DAG的思想并行实现了协同过滤算法,通过实验结果分析表明,这种模型有很好的扩展性与易操作性,同时算法本身也有很好的扩展性。2)大数据实际应用生产系统在本文主要体现在大数据算法集成之后的实时推荐系统应用,该应用主要用到了大数据处理和存储架构,比如说式文件系统HDFS和MapReduce、Spark等计算模型,还有实时流Storm框架等,在这个大数据实际应用生产系统框架中能跑多种策略,支持多个算法工程师在一个框架内实验多个大数据实际应用生产系统算法。其中包含很多大数据集成算法,比如Mahout框架中聚类、分类、推荐算法,Spark中包括Map Reduce、Streaming、Machine Learning与Graph Processing等通用的算法库,数据分析人员可以直接调用这些算法进行业务分析。运用这个大数据可视化模型的算法处理与应用架构,数据科学家就可以直接使用真实全量数据在前线进行各种研究和算法的设计,为行业加快实时决策速度,挖掘那些长尾数据中有价值的信息,从而为社会创造更大的使用价值。第三章就用这个大数据可视化模型设计了一个改进后的并行协同过滤算法,并通过各种算法和实验比较,展现着较好的扩展性与数据处理能力,之后以这为基础,设计并实现了大数据架构下的推荐算法集成应用。