基于云平台的网络新闻热点话题检测与发现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:yahu911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络时代的到来,使得互联网新闻信息急剧增长,面对着交错纷杂的新闻信息报道,人们在从中获取社会热点话题,掌握社会信息动态,了解网络信息舆论变得越来越困难,网络热点新闻话题检测与发现技术的发展很好的解决了这一问题,它是为了从广泛的网络新闻事件报道信息中寻找出备受社会关注讨论的热点话题,方便用户了解社会焦点信息。本文的研究重点是利用获取的新闻事件信息,去检测发现网络新闻中的热点话题,主要成果包括以下内容:1.网络新闻数据的获取。数据源的获取是第一步,本文首先以数据的获取,以及新闻事件信息的提取为切入点,为之后的研究做铺垫。2.新闻数据信息获取之后,如何对新闻文档进行建模是本文研究的关键所在,.本文讨论采用向量空间模型(VSM)和主题模型(LDA)对新闻文档信息建模。3.本文对建模完的新闻文档按照所属领域进行分类,使新闻文档尽可能的按照报道事件所属的不同领域区分开来。接着,利用热点话题检测的方法对新闻文档信息检测,发现各领域中的热点话题。4.针对当前网络信息中的海量新闻数据资源的处理,传统处理方法显得越来越力不从心,本文中采用Hadoop开源云平台处理获取的新闻文档数据信息,利用MapReduce并行计算的方式实现文中话题检测的方法。5.为了对本文实现的新闻网页分类以及话题检测的方法结果进行分析,分别利用了搜狐新闻分类语料以及搜狗话题检测与发现语料进行评估,均得到较为准确的结果。
其他文献
随着计算机网络技术的发展和计算机网络的广泛应用,人们对网络的实时性要求越来越高,因而对ATM网实时通信的研究近年来已经成为实时系统研究的一个热点问题。ATM是一种面向连接
虚拟内窥镜是用计算机处理CT或MRI获取的三维医学数据,以获得类似用标准内窥镜观察病人内脏过程观察效果的一种诊断的新方法。由于传统的内窥镜技术存在着许多的弊端,科学工作
随着软件技术的发展,程序的规模逐渐增大,复杂度也逐渐增加。在软 件的开发过程中,完全依靠人力进行分析测试效率太低,而且不能保证软件 质量。测试过程中的一个主要问题是生成