社交网络大数据分析平台及用户转发行为分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tansb87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的今天,社交网络中无时不刻不在产生大量的数据,仅仅是新浪微博每天就会产生超过一亿条数据。在这样一个海量数据的背景下,单机的处理能力根本无法满足对信息处理能力的要求,大数据技术因此顺势而生。同样,机器学习在大数据场景中也面临需要学习的样本数据量过大的问题,所以机器学习算法也需要进行大规模并行化。本文基于BDAS软件架构提出并实现了以Spark为核心的社交网络大数据分析平台,该平台以Spark为核心构建相关模块,包含数据获取、数据处理、数据挖掘和数据可视化功能,具有良好的开放性、扩展性和通用性。同时为了验证平台可扩展性和挖掘数据更多的价值,本文进一步对微博用户转发行为预测算法进行研究和实现。针对社交网络大数据分析平台,按照模块可以划分为四个部分:第一,数据抓取使用分布式通信框架Akka实现了分布式新浪微博爬虫系统,为上层数据挖掘与分析模块和数据可视化模块提了可用的海量微博数据;第二,数据预处理与存储通过搭建Hadoop分布式文件系统(HDFS)为抓取到的海量微博数据提供分布式存储服务,保证了海量数据的存储、访问和容错;第三,数据挖掘与分析通过运用Spark快速分布式计算的能力、Spark提供的MLlib、GraphX等模块和本文实现的功能模块对平台存储系统中的海量微博数据进行快速处理,快速分析和挖掘;第四,数据可视化通过Tomcat服务器和Redis缓存从大数据平台底层获取数据细节和算法分析结果,并通过D3.js可视化工具实现了相关数据的可视化。作为社交网络大数据分析平台的算法应用,本文提出了微博用户转发行为预测算法。算法中引入了多任务学习框架,避免了传统预测模型同质性导致的无法对用户进行差异性分析问题。在完成对微博用户转发行为数据的特征筛选和提取后,本文在社交网络大数据分析平台上对提出的微博用户转发行为预测算法进行了实现,同时将逻辑回归(LR)、支持向量机(SVM)以及Passive-Aggressive算法(PA)作为对照算法对数据集上进行训练,验证了该算法的性能和社交网络大数据分析平台的可扩展性。本文提出的以Spark为核心的社交网络大数据分析平台的设计实现方案和对微博用户转发行为预测算法的研究。在理论上,对数据分析平台设计和微博用户行为进行研究具有参考价值;在实践上,对数据分析平台与用户行为预测算法进行实现具有探索意义。
其他文献
企业文化的形成、运用,在很大程度上要与人力资源管理相结合.我国现代企业要精心打造企业自身的文化,以企业文化为导向促进人力资源管理,以谋取企业最大的经济效益并在市场竞
9月18日,江苏省海外交流协会第六届理事大会在南京隆重召开。江苏省人民政府副省长郭元强出席会议并讲话。中央统战部、国务院侨办国外司司长张健青出席并致辞。省政府副秘书
李影心是萧乾主编的《大公报·文艺》上一位活跃度很高的书评家,却一度被文学史遗忘。李影心认为理想的书评既兼顾个性的存在又能做到客观公正,主张书评应该是分析的、批
新课程改革以培养学生的学科核心素养为理念.物理概念既是物理学大厦的基石,也是物理教学中培养学生核心素养的重要载体.探讨了物理概念教学与学科核心素养的内在联系,强调了
城市土地利用模式决定了城市的交通供需特征和交通方式,成为制定城市交通政策的基础。交通政策的选择也反映了城市土地利用的模式,导致城市交通可通达性的改变,从而引起城市各种
针对溶剂萃取法处理含砷烟尘碱浸液中的砷未能实现高效反萃的问题,探究了以4%H2O2+饱和Na2CO3为反萃剂的试验效果。结果表明,在25℃、相比O/A=1、油水接触时间7min的条件下,4
电镀行业是我市汽车、摩托车等支柱产业不可缺少的配套行业。随着汽车、摩托车等行业的迅速发展,我市的电镀行业快速增长。目前,全市有300余家电镀生产厂(车间),但大部分生产
整体爬升式钢平台模架是重要的超高层建筑施工装备,研究搁置状态下钢平台模架装备安全具有重要意义。为此,通过建立整体爬升式钢平台模架简化分析模型与精细化分析模型,分析
短链脂肪酸(SCFAs)是生物脱氮除磷的优质碳源,为提高剩余污泥碱性发酵SCFAs的产量,分别在20℃和35℃条件下,考察了不同盐度(0~25g/L)对剩余污泥碱性(p H=10)发酵的影响.结果