社交网络大数据分析平台及用户转发行为分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：tansb87

【摘要】

：

在互联网高速发展的今天,社交网络中无时不刻不在产生大量的数据,仅仅是新浪微博每天就会产生超过一亿条数据。在这样一个海量数据的背景下,单机的处理能力根本无法满足对信

【作者】

：

邓凯

【出处】

：

西安电子科技大学

【发表日期】

：

2015年期

【关键词】

：

大数据 Spark 社交网络分布式爬虫转发行为多任务学习数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在互联网高速发展的今天,社交网络中无时不刻不在产生大量的数据,仅仅是新浪微博每天就会产生超过一亿条数据。在这样一个海量数据的背景下,单机的处理能力根本无法满足对信息处理能力的要求,大数据技术因此顺势而生。同样,机器学习在大数据场景中也面临需要学习的样本数据量过大的问题,所以机器学习算法也需要进行大规模并行化。本文基于BDAS软件架构提出并实现了以Spark为核心的社交网络大数据分析平台,该平台以Spark为核心构建相关模块,包含数据获取、数据处理、数据挖掘和数据可视化功能,具有良好的开放性、扩展性和通用性。同时为了验证平台可扩展性和挖掘数据更多的价值,本文进一步对微博用户转发行为预测算法进行研究和实现。针对社交网络大数据分析平台,按照模块可以划分为四个部分:第一,数据抓取使用分布式通信框架Akka实现了分布式新浪微博爬虫系统,为上层数据挖掘与分析模块和数据可视化模块提了可用的海量微博数据;第二,数据预处理与存储通过搭建Hadoop分布式文件系统(HDFS)为抓取到的海量微博数据提供分布式存储服务,保证了海量数据的存储、访问和容错;第三,数据挖掘与分析通过运用Spark快速分布式计算的能力、Spark提供的MLlib、GraphX等模块和本文实现的功能模块对平台存储系统中的海量微博数据进行快速处理,快速分析和挖掘;第四,数据可视化通过Tomcat服务器和Redis缓存从大数据平台底层获取数据细节和算法分析结果,并通过D3.js可视化工具实现了相关数据的可视化。作为社交网络大数据分析平台的算法应用,本文提出了微博用户转发行为预测算法。算法中引入了多任务学习框架,避免了传统预测模型同质性导致的无法对用户进行差异性分析问题。在完成对微博用户转发行为数据的特征筛选和提取后,本文在社交网络大数据分析平台上对提出的微博用户转发行为预测算法进行了实现,同时将逻辑回归(LR)、支持向量机(SVM)以及Passive-Aggressive算法(PA)作为对照算法对数据集上进行训练,验证了该算法的性能和社交网络大数据分析平台的可扩展性。本文提出的以Spark为核心的社交网络大数据分析平台的设计实现方案和对微博用户转发行为预测算法的研究。在理论上,对数据分析平台设计和微博用户行为进行研究具有参考价值;在实践上,对数据分析平台与用户行为预测算法进行实现具有探索意义。

其他文献

精心打造企业文化促进人力资源管理

企业文化的形成、运用,在很大程度上要与人力资源管理相结合.我国现代企业要精心打造企业自身的文化,以企业文化为导向促进人力资源管理,以谋取企业最大的经济效益并在市场竞

期刊

企业文化人力资源管理中国传统文化

江苏省海外交流协会第六届理事大会在宁隆重举行

9月18日,江苏省海外交流协会第六届理事大会在南京隆重召开。江苏省人民政府副省长郭元强出席会议并讲话。中央统战部、国务院侨办国外司司长张健青出席并致辞。省政府副秘书

期刊

江苏省协会理事交流海外中央统战部人民政府副秘书长

李影心书评研究——以《大公报》文艺副刊为中心

李影心是萧乾主编的《大公报·文艺》上一位活跃度很高的书评家,却一度被文学史遗忘。李影心认为理想的书评既兼顾个性的存在又能做到客观公正,主张书评应该是分析的、批

期刊

李影心书评文学性《大公报·文艺》

“物理学科核心素养”导向下的高中物理概念教学设计

新课程改革以培养学生的学科核心素养为理念.物理概念既是物理学大厦的基石,也是物理教学中培养学生核心素养的重要载体.探讨了物理概念教学与学科核心素养的内在联系,强调了

期刊

学科核心素养物理概念教学设计

基于土地利用模式的城市交通政策选择

城市土地利用模式决定了城市的交通供需特征和交通方式，成为制定城市交通政策的基础。交通政策的选择也反映了城市土地利用的模式，导致城市交通可通达性的改变，从而引起城市各种

期刊

土地利用模式城市交通政策产业政策社会政策

碱性体系中砷的反萃性能研究

针对溶剂萃取法处理含砷烟尘碱浸液中的砷未能实现高效反萃的问题,探究了以4%H2O2+饱和Na2CO3为反萃剂的试验效果。结果表明,在25℃、相比O/A=1、油水接触时间7min的条件下,4

期刊

碱性体系砷反萃循环萃取性能短流程化alkaline systemarsenicstrippingcyclic extraction performan

关于规范电镀行业发展加强电镀行业污染防治实施方案

电镀行业是我市汽车、摩托车等支柱产业不可缺少的配套行业。随着汽车、摩托车等行业的迅速发展,我市的电镀行业快速增长。目前,全市有300余家电镀生产厂(车间),但大部分生产

期刊

电镀行业电镀质量污染防治行业发展实施方案环境保护摩托车排污许可证市场经济秩序重金属废水

底部约束变化对搁置状态下整体爬升式钢平台安全性能的影响分析

整体爬升式钢平台模架是重要的超高层建筑施工装备,研究搁置状态下钢平台模架装备安全具有重要意义。为此,通过建立整体爬升式钢平台模架简化分析模型与精细化分析模型,分析

期刊

超高层施工模架体系整体爬升式钢平台水平支撑竖向支撑限位装置super high-rise building construction formwork

盐度强化剩余污泥碱性发酵产酸

短链脂肪酸(SCFAs)是生物脱氮除磷的优质碳源,为提高剩余污泥碱性发酵SCFAs的产量,分别在20℃和35℃条件下,考察了不同盐度(0~25g/L)对剩余污泥碱性(p H=10)发酵的影响.结果

期刊

剩余污泥厌氧发酵短链脂肪酸盐度温度

社交网络大数据分析平台及用户转发行为分析

其他学术论文