基于聚类与LDA的新闻评论主题挖掘研究

来源 :武汉纺织大学 | 被引量 : 0次 | 上传用户:dingyongguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻评论反映民众对新闻事件的观点,挖掘评论主题,对用户、企业、政府都具有很高的情报分析价值。我们经常对新闻及其评论有这些需求,第一:如何用简单的语言提取新闻评论,进行研究。第二,对于一系列新闻,提取新闻的评论主题与比例可以帮助人们了解新闻媒体及普通民众的态度倾向。我们还想获得各个主题随着事态的发展会如何变化,例如何时开始,变强,衰弱,结束或者变异成其他的主题。对于第一个问题。这篇论文提出了基于Python的动态网页爬虫算法,解决了采集动态网页评论的问题。其中,这篇论文使用静态网页信息构造动态链接,根据基于Python的动态网页评论爬虫算法实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。对于第二个需求:这篇论文提出了基于LDA的主题挖掘改进算法,它可以改善原有LDA算法应用在评论数据中的弊端。基于LDA的主题挖掘算法应用到新闻评论这些短文本中时,会出现精度不高,效率降低等现象。而且评论文本矩阵由于维度过高,还会造成程序溢出,速度过慢等问题。所以,改进模型根据LDA对文本顺序不敏感的特点,把相同时间段的评论化为一个文本块。接着,为解决同一文本块的内的相同评论重复率过高的问题,改进模型对各文本块进行简化。最后,改进算法的优良特性有利于管理者和政策制定者利用评论情报信息进行决策。然而,由于基于LDA的算法不便于理解主题,这篇论文提出了基于改进K-均值聚类的主题挖掘算法,它可以有效的抽取评论主题及对应比例,并作主题演化分析。其中,基于K-均值聚类的主题挖掘算法直接应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-均值聚类改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,挖掘新闻评论主题的效果明显。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
"互联网+"时代下,教师的信息素养是教育信息化与教学改革的关键。高职外语教师的信息素养直接影响着外语教学质量及人才培养的素质。通过问卷调查和深度访谈,对广州地区189名
以北部湾盆地实际测试井资料为基础,通过分析不同类型失效点的压力曲线特征,认识其产生的本质原因,有利于针对不同的储层条件制定出切实有效的测压方案。也有利于科学合理的
在物理解题中常常会出现一些不符合题意的解 ,对这些解我们往往是依靠经验或凭借感觉认为其不合理而将其取舍 ,并没有去考虑其物理含义 .其实很多不合题意的解也都具有一定的
为实现槟榔切片在槟榔产业的自动化作业,在现有槟榔机械切片的基础之上,设计一种槟榔切片试验台,该试验台可对影响槟榔切片力因素的有效工作范围进行调整,采用响应曲面试验方