基于社交网络的热点发现和关联分析

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:sjuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动互联网技术的飞速发展带动了互联网的第二次飞跃。快速增加的数据总量也加速了大数据时代的来临,对数据价值的挖掘受到人们前所未有的重视。社交网络这一传统而又不断变化的特殊网络应用,更是将数据时代的魅力展现的淋漓尽致。移动通信技术发展到4G时代,社交网络更是渗透到普通人生活的方方面面。这些体量巨大、形式丰富的数据中隐藏着巨大的商业和研究价值等待着人们去发掘,其成果可以成为互联网产业前进的巨大推动力。本文主要通过分析新时代社交网络数据的特征,总结现有的数据分析和处理方法,对基于社交网络的热点信息发现和关联分析进行研究。本文首先介绍了社交网络的基本概况,分析了社交网络的数据特征以及对其进行数据分析的重点和难点。总结了社交网络数据分析的基本流程,并介绍了本文采用的热点发现和关联分析的流程及方法。在具体的技术方法研究上,主要分为分词和排名两个环节。分词技术上,首先总结和分析了常用的中文分词和新词识别方法,在此基础上结合社交网络数据的特点改进了新词识别模型。本文采用n元递增的方式提取候选字符串,再经过词频、互信息和信息熵三个过滤环节,筛选出新词。最后使用ICTCLAS分词工具结合新词识别的结果,对语料进行分词。在排名模型的研究上,首先总结和分析了常用的基于用户投票的排名模型,结合社交网络热点发现的要求,融合了时间滑落模型和牛顿冷却模型的优点,提出了新的排名计算数学模型。最后将提取出的热点信息使用Apriori模型进行关联规则分析,研究它们之间的相关关系,并对成果应用进行了部分探究。在模型效果的实践上,本文以新浪微博的平台为基础对以上模型进行了实证分析。最后,本文对社交网络热点发现和关联分析的研究做了总结,分析了选择的方法和模型存在的优缺点,并对进一步的研究和未来发展进行了展望。
其他文献
期刊
继细胞外的信号与细胞膜上的受体结合之后,细胞内的信号转导机构发生各种反应,最终引起细胞的分化、增殖、效应、死亡等各种应答.其中,酪氨酸磷酸化和去磷酸化占据重要地位.
期刊
高三数学题目类型多且难度较大,因而很多学生在学习过程中便慢慢失去了学习数学的兴趣。但是高三数学是我们高三学生学习的重要科目之一,同时也是高考的重要科目之一,因此我
期刊
期刊
导数是高中数学限定选修课中的重要内容,是联系中学数学与大学数学的纽带,为以后进一步学习微积分奠定基础。导数作为一种重要的数学解题工具,为研究高中函数问题提供了广阔
期刊
期刊
期刊