论文部分内容阅读
随着互联网这一新媒体的出现,我们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的时代。但是在目前信息爆炸的情况下,网络信息呈现出以下两个显著特点:(1)规模急剧膨胀;(2)结构凌乱无序。这些使得发现和管理所需的信息变得越来越困难,因此一种能快速从网络上获取所需信息的工具,成为了人们的迫切需求。目前,搜索引擎能在一定程度上满足人们对于信息快速获取的需求,但其一般采用关键字匹配来查找信息,这种方法返回的信息冗余度很高,只要信息中含有指定的关键词就被作为结果返回了,因此必定导致结果中包含有很多不相关的信息。并且,它对结果中的信息只是简单罗列,而没有进行有效的组织,人们对某些新闻事件难以做到全面把握。另外,每年一些权威的网络媒体机构也会发布当年某些领域的热点事件排行榜,但其通常都是由人工投票筛选得到的,其结果的客观性和实时性都有很大的局限。本文设计了一个热点事件发现及表示模型,并实现了实验系统,试图在一定程度上去缓解这些问题。该系统面向互联网新闻报道流,自动去发现用户选择的任意一段时间内网络上的热点事件,并抽取热点事件的内容特征,从不同层面将事件的信息全面呈现给用户。因此,本文从以下几个方面展开了相关研究:第一,设计了一种基于两层聚类的事件发现算法。由于系统处理的是大规模的网络数据流,为了降低系统的复杂度,提高事件发现的实时性和精确性,系统对每天的语料作第一层聚类,得到微类,然后选取用户选定的任意一段时间内所有天的微类,按照微类间的时间顺序,对微类做第二层聚类,得到事件列表。第二,归纳了事件热度的计算公式。通过对历年热点事件特征的分析,提取出能度量事件热度的特征量,组合这些特征量构建了一个事件热度计算公式。对新事件列表中的事件进行热度的计算后排序,并通过事件发展曲线图过滤掉不满足热点事件发展特性的事件。第三,研究了从不同层面自动抽取热点事件内容特征的计算方法。从事件标题、事件摘要、事件相关词群、事件相关文档以及事件发展曲线图五个方面,将热点事件的信息全面呈现给用户。最后,选取2008年的新闻语料进行了实验,并做了相关评测,结果显示本文的实验系统取得了较好的效果。