基于LDA主题模型的微博热点话题发现与分析

来源 :东南大学 | 被引量 : 1次 | 上传用户:jie_er
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是现代人们社交生活的重要网络平台之一,众多行业的人们使用微博进行信息获取和网络交流,微博热点话题的发现与分析有助于实现舆情监控以及市场动态的监控。微博本质上是一个带有社交属性的自媒体信息传播分享平台,在短时间内可以产生极大的数据量,鉴于此微博非常有利于热点话题的形成,本文基于语义层面上的考虑,通过使用LDA主题模型,将文本数据向量化,设计实现一个发现和分析微博热点话题的原型系统。本文的主要工作包括:1.设计了微博数据爬虫,采用预先过滤的方式,通过比较不同类型帐号,选择认证账号,杜绝了大量不可靠的低质量数据。2.引入谷本距离,优化K-MEANS方法中K值和聚类中心的选取,基于聚类和速度增长角度,结合关键词与关键微博,发现并描述微博热点话题。3.使用自定义损失函数的XGBoost分类器,分析微博热点话题所属类别,同时分析了微博热点话题的变化趋势。在上述工作基础上,本文设计实现了一个基于LDA主题模型的微博热点话题发现与分析系统。本系统可在某个确定的时间段内,发现微博热点话题,给出热点话题的关键词、关键微博、类别和热度,利用系统的输出可以对热点话题进行准确的自然语言描述。最终的实验结果表明了本文实现的系统可以获得良好的效果。
其他文献
<正>利用pK46表达的λRed重组系统,将大肠杆菌中控制CoQ8侧链合成的聚八异戊二烯焦磷酸合成酶基因(ispB)替换为弱氧化葡糖杆菌(Gluconobacter suboxydans)的聚十异戊二烯焦磷酸合
会议
1事故经过 某日,35 k V焦岗变电站开展预防性试验,全站停电,检修公司变电分队负责本次施工。该分队下设一次检修、继电保护、试验3个班组,工作时各司其职。变电分队到达工作
基于导频辅助法,对相干光正交频分复用系统中采样时钟频率偏差进行估计和补偿,并研究了导频的插入位置对该算法补偿效果的影响,通过对五种不同的导频插入位置进行分析和比较,
近年来我国污染物排放量逐年递增,水环境污染程度日益严重。要想解决水污染问题,首先需要了解各水域的水质信息。随着移动智能设备的普及和各类传感器的发展,水质数据快速采
禽流感是由禽流感病毒引发的一种禽类间传染的传染性疾病。AIV的主要保护性抗原为血凝素(HA)和神经氨酸酶(NA),对于免疫保护、AIV的包装和释放中起到了至关主要的作用。疫苗