论文部分内容阅读
信息网络时代的到来,使得互联网新闻信息急剧增长,面对着交错纷杂的新闻信息报道,人们在从中获取社会热点话题,掌握社会信息动态,了解网络信息舆论变得越来越困难,网络热点新闻话题检测与发现技术的发展很好的解决了这一问题,它是为了从广泛的网络新闻事件报道信息中寻找出备受社会关注讨论的热点话题,方便用户了解社会焦点信息。本文的研究重点是利用获取的新闻事件信息,去检测发现网络新闻中的热点话题,主要成果包括以下内容:1.网络新闻数据的获取。数据源的获取是第一步,本文首先以数据的获取,以及新闻事件信息的提取为切入点,为之后的研究做铺垫。2.新闻数据信息获取之后,如何对新闻文档进行建模是本文研究的关键所在,.本文讨论采用向量空间模型(VSM)和主题模型(LDA)对新闻文档信息建模。3.本文对建模完的新闻文档按照所属领域进行分类,使新闻文档尽可能的按照报道事件所属的不同领域区分开来。接着,利用热点话题检测的方法对新闻文档信息检测,发现各领域中的热点话题。4.针对当前网络信息中的海量新闻数据资源的处理,传统处理方法显得越来越力不从心,本文中采用Hadoop开源云平台处理获取的新闻文档数据信息,利用MapReduce并行计算的方式实现文中话题检测的方法。5.为了对本文实现的新闻网页分类以及话题检测的方法结果进行分析,分别利用了搜狐新闻分类语料以及搜狗话题检测与发现语料进行评估,均得到较为准确的结果。