论文部分内容阅读
随着移动社交网络的快速发展,以微博为代表的短文本信息大量涌现,并以几何方式保持增长,具有非结构化、海量性、实时性、自媒体性等特点。聚集大量涉及公众日常生活有价值的信息,称之为话题。微博文本在移动互联网时代正慢慢承担着短信、博客、即时通讯等功能,不同于传统新闻,不受标题、关键字等固定格式拘束,同时大量短文本信息的同时涌入也为话题信息的抓取、提炼过程带来挑战。微博作为一种移动社交工具,话题信息新颖性、影响力的需求越来越受到公众关注,在恰当的时间、地点发现最有价值的话题也逐渐成为保持用户活跃度的重要手段,而传统话题发现方法不能满足相关话题的发现质量需求。因此,如何解决海量数据环境下的微博话题发现效率以及发现质量问题,从而更好地挖掘分析移动环境下的网络信息,已成为新的研究热点。基于以上问题,本文提出了一种融入公众情感投入的微博话题快速发现及影响力度量方法,主要研究内容包括以下几个方面:第一,针对海量的微博文本,本文提出了一种融入公众情感投入的微博话题快速发现方法。主要由情感词库构建、情感密集期检测、微博话题发现三部分组成。第一部分,基于大规模微博语料库和三大著名情感词集,采用TFDF值以及双字Hash索引表实现具体情感词库的构建;第二部分,基于Sigmoid函数挖掘情感密集期,抽取相应情感文本;第三部分,基于改进的模糊聚类算法,在约简后的文本集中,建立名词性实体表,不断迭代优化目标函数。该方法以情感词为基础,在微博话题发现中融入公众情感,可以有效约简微博文本集,大幅提升信息处理效率,发现高质量话题。第二,本文根据情感词与文本数的依存关系提出了情感密集期的概念。情感密集期挖掘算法综合考虑了微博的传播特性,融入微博转发、评论等影响因素,采用了Sigmoid函数抑制高频次商业微博对话题发现的影响,可以有效挖掘公众情感投入的密集期,提升话题发现质量与效率。第三,随着移动互联网的高速发展,人们越来越离不开社交网络。为解决用户节点在社交网络中的差异化影响问题,本文提出了一种融入公众情感投入的用户节点影响力度量方法。研究新兴网络结构下的微博用户影响力评估方法,避免用户话题兴趣差异造成的影响。主要从用户的真实情感表达出发,以情感词为基础定义了用户的话题情感浓度值,衡量用户对话题的兴趣,提升影响力评估精度。