基于新闻时空要素的新事件检测方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:woshizzh1713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展以及计算机用户的急剧增加,互联网已经成为人们获取信息的一项主要途径。然而互联网上很多重要的信息一般都被其它信息掩盖,人们很难从如此众多的网络信息资源中获取到有用的信息。尤其是在当今社会,突发事件已经成为困扰世界各国的重大问题,人们对突发事件的发生以及影响比较关注,相关人员需要第一时间掌握相关动态。本文的研究对象——新事件检测(NED)的目标就是检测出报道一个新闻话题种子事件的第一篇新闻。本文主要针对时间与地点在新闻报道中的作用进行研究,把时间与地点作为新闻报道间计算相似度的重要测度。并针对新事件检测过程中新闻簇的漂移现象进行了一定的分析研究,设计相关的新闻簇模板更新算法来减少漂移给新事件检测带来的影响。本文的主要工作为以下几点:1.本文采用特征加权的方式对传统的tf-idf模型进行改进。设置了一个参数ω,用参数ω来调整特征项权值的大小,这样就对一些词频低,但是比较重要的特征词的权重做了适当的放大,从而提高新事件检测的准确率。2.设计了一个基于主题要素的突发事件新闻新事件检测算法,利用时空信息提高新事件检测效率。对时间信息与地点信息进行规范化,分别计算出新闻报道与新闻簇的时间相似度与地点相似度;并将时间相似度、地点相似度与内容相似度三者结合起来表示新闻文档间的相似度。3.引入了特定的新闻簇模板自动更新算法,让新闻簇模板的表示随着新闻报道的不断加入而发生变化。4.设计了一个实验系统,分为五组实验,并从失报率、错报率、标准化代价函数三个方面对本文采用的方法进行评测。
其他文献
随着IP网络的迅速普及和相关技术的进步,VoIP技术不断发展并被广泛应用。依赖VoIP技术和IP网络,企业就可以构建自己的通信系统,为企业内部提供通信服务。公共交换电话网络因
图像分割是由图像处理进入到图像分析的关键步骤,是图像工程中的一个重点和难点。目前关于图像分割已有很多成熟的算法,不同算法都有各自的优点和不足之处。由于细胞图像的特