论文部分内容阅读
微博是现代人们社交生活的重要网络平台之一,众多行业的人们使用微博进行信息获取和网络交流,微博热点话题的发现与分析有助于实现舆情监控以及市场动态的监控。微博本质上是一个带有社交属性的自媒体信息传播分享平台,在短时间内可以产生极大的数据量,鉴于此微博非常有利于热点话题的形成,本文基于语义层面上的考虑,通过使用LDA主题模型,将文本数据向量化,设计实现一个发现和分析微博热点话题的原型系统。本文的主要工作包括:1.设计了微博数据爬虫,采用预先过滤的方式,通过比较不同类型帐号,选择认证账号,杜绝了大量不可靠的低质量数据。2.引入谷本距离,优化K-MEANS方法中K值和聚类中心的选取,基于聚类和速度增长角度,结合关键词与关键微博,发现并描述微博热点话题。3.使用自定义损失函数的XGBoost分类器,分析微博热点话题所属类别,同时分析了微博热点话题的变化趋势。在上述工作基础上,本文设计实现了一个基于LDA主题模型的微博热点话题发现与分析系统。本系统可在某个确定的时间段内,发现微博热点话题,给出热点话题的关键词、关键微博、类别和热度,利用系统的输出可以对热点话题进行准确的自然语言描述。最终的实验结果表明了本文实现的系统可以获得良好的效果。