社交媒体上消息流行度预测算法的研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:jianjian9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,随着移动互联网的普及与发展,使得为人们提供自由创作与内容分享的平台--社交媒体跨入了一个新的发展阶段,它已然成为人们日常生活中不可或缺的一部分。社交媒体上存在海量信息,这些信息通过被浏览、转发、点赞等方式获取用户的关注,同时带来了大量的流量,而用户对内容的关注分布是有偏的,即少量的内容获得了大量的关注。于是,预测社交媒体上消息的流行度就成为了一个十分有价值的研究问题,对于在线广告投放、在线营销等都具有重要的意义。本文首先介绍了社交媒体与流行度预测的国内外研究现状和与本文工作相关的技术基础,接着以twitter上的tweet作为研究对象,提取一些可能与转发量相关的特征进行研究,利用逻辑回归分类器和使用修改后的疾病传播模型,提出了解决社交媒体上消息流行度预测问题的解决方案。本文的主要工作有以下两点:1.提出一种基于分类的tweet转发量预测算法。它以tweet发布者粉丝数、发布时间、首次转发时间、早期转发时间间隔、早期转发用户的最大粉丝数、早期转发用户的平均粉丝数等6个特征为输入参数的逻辑回归分类器,用于对tweet进行分类预测,判断它是否属于Top20高转发量tweet,最终分类准测率为0.77。使用PCA分析上述6个特征并上转发量后的特征集合,发现将特征数据压缩至2维后,各特征往新的特征空间中的投影向量与转发量的投影向量的余弦值的绝对值大小与特征的重要程度是相关的,其中近似为1的有3个特征,它们的单特征预测分类准确性相较于其他特征更高。2.提出一种基于疾病传播模型的流行度预测算法,用于对tweet未来转发量进行数值预测。对于疾病传播模型进行了适当修改,添加了时间对用户转发兴趣的影响,以时间衰减函数来进行表示。在应用于对tweet的转发量预测上,时间函数特例化为一个幂函数。以算法预测值与实际转发量的平方残差为目标函数,使用LM算法训练参数。将本文算法与基准算法在twitter数据集上进行对比实验。实验结果表明,基于疾病传播模型的流行度预测算法相较于对比算法在高流行度的推文预测上更为准确(Top25推文的预测值MRE提升12.4%),且可以模拟流行度变化的动态过程。
其他文献
文章阐述跨学科的内涵及其研究的现实意义,分析其在研究生创新人才培养中的必要性和重要性,探讨跨学科联合培养体系的构建问题,为跨学科研究生培养提供理论依据。
水利工程砌体结构有其特殊性,运行中裂缝的产生原因有很多方面,本文就其中主要方面提出自己看法,同时从设计、施工、全过程质量控制提供了有效地、操作性很强的建议。
铝蜂窝复合材料作为一种新型材料,具有轻质高强的结构。对铝蜂窝复合材料的平拉性能、压缩性能、剥离强度等基本力学特性进行试验研究,试验结果表明:铝蜂窝客车底板具有比其