论文部分内容阅读
随着互联网的迅速普及,网络媒体已经成为当今社会的主流媒体和主要信息来源。然而,网络信息资源的爆炸式增长给用户的信息获取造成了很大的困难。如何从海量网络信息中及时、准确地获取热点信息,成为一个亟待解决的问题。 本文设计并实现了一个网络新闻热点话题自动发现系统,该系统由数据采集、数据处理和热点话题自动发现三部分组成,其中热点话题自动发现是系统的核心。本文的主要成果和创新点包括:1)依据新闻文本的结构特征和内容特征,对传统的文本向量化方案进行改进,主要的改进体现在特征选取和特征权重计算上;2)计算新闻文本相似度时,在余弦距离的基础上,引入了一个能够体现网络新闻报道时间特征的时间修正因子;3)采用K-Means算法和Single-Pass算法相结合的文本聚类方案,较好地结合了二者的优点;4)制定了一个基于话题的媒体关注度的话题热度计算方案,该方案不仅可以计算话题的当前热度,还可以计算话题在过去某一个时间段内的热度。 本文紧紧围绕网络新闻的基本特征,在深入研究热点话题自动发现系统实现流程的基础上,设计并实现了一个网络新闻热点话题自动发现系统,该系统能够从自动采集到的新闻数据中动态、实时地发现热点话题。最终进行的系统测试表明,系统预期功能得以实现,并达到了较好的性能指标。