论文部分内容阅读
微博已经成为表达用户观点的主要阵地之一,同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点,提高用户满意度,也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题,本文从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出了二次聚类算法,改进的K-means算法及其增量聚类算法实现话题发现与更新,相似强度来选取最优话题,以解决传统的先确定聚类个数再发现话题的不准确性问题;最后构建微博话题热度评估计算模型。本文主要研究的微博热点发现,其过程划分为三方面:(1)数据采集与清洗。经研究分析发现反映微博主题的因素主要有:标题、内容、转发次数、评论内容、作者和发表时间,采集结果中相同微博内容仅保留一个,清除内容中未处理的HTML标签,去除空值、广告等噪声,去停用词。(2)数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词,可以较多的保留低频词汇的隐含信息。通过向量空间模型构建的词-文档,该矩阵维度高且存在噪声,使用潜在语义分析可有效解决这些问题。(3)热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博,确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法,快速更新话题。聚类结果不唯一通过相似强度选取最优值,解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看,本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。根据以上研究,本文还设计了博热点发现流程,使用JAVA实现了流程中的关键步骤。通过抓取新浪微博中的相关数据及实验,验证了本文提出的方法具有较好的效果。