热点事件发现及事件内容特征自动抽取研究

被引量 : 0次 | 上传用户:q_yong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网这一新媒体的出现,我们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的时代。但是在目前信息爆炸的情况下,网络信息呈现出以下两个显著特点:(1)规模急剧膨胀;(2)结构凌乱无序。这些使得发现和管理所需的信息变得越来越困难,因此一种能快速从网络上获取所需信息的工具,成为了人们的迫切需求。目前,搜索引擎能在一定程度上满足人们对于信息快速获取的需求,但其一般采用关键字匹配来查找信息,这种方法返回的信息冗余度很高,只要信息中含有指定的关键词就被作为结果返回了,因此必定导致结果中包含有很多不相关的信息。并且,它对结果中的信息只是简单罗列,而没有进行有效的组织,人们对某些新闻事件难以做到全面把握。另外,每年一些权威的网络媒体机构也会发布当年某些领域的热点事件排行榜,但其通常都是由人工投票筛选得到的,其结果的客观性和实时性都有很大的局限。本文设计了一个热点事件发现及表示模型,并实现了实验系统,试图在一定程度上去缓解这些问题。该系统面向互联网新闻报道流,自动去发现用户选择的任意一段时间内网络上的热点事件,并抽取热点事件的内容特征,从不同层面将事件的信息全面呈现给用户。因此,本文从以下几个方面展开了相关研究:第一,设计了一种基于两层聚类的事件发现算法。由于系统处理的是大规模的网络数据流,为了降低系统的复杂度,提高事件发现的实时性和精确性,系统对每天的语料作第一层聚类,得到微类,然后选取用户选定的任意一段时间内所有天的微类,按照微类间的时间顺序,对微类做第二层聚类,得到事件列表。第二,归纳了事件热度的计算公式。通过对历年热点事件特征的分析,提取出能度量事件热度的特征量,组合这些特征量构建了一个事件热度计算公式。对新事件列表中的事件进行热度的计算后排序,并通过事件发展曲线图过滤掉不满足热点事件发展特性的事件。第三,研究了从不同层面自动抽取热点事件内容特征的计算方法。从事件标题、事件摘要、事件相关词群、事件相关文档以及事件发展曲线图五个方面,将热点事件的信息全面呈现给用户。最后,选取2008年的新闻语料进行了实验,并做了相关评测,结果显示本文的实验系统取得了较好的效果。
其他文献
上个世纪90年代初,上海和深圳两个证券交易所的相继成立,标志着中国资本市场的起步。在不到20年的时间里,中国的股票市场获得了突飞猛进的发展。到目前为止形成了主板市场、
酶生物传感器自发现以来,因具有高度的选择性、结构简单、自动、价廉而备受研究者的关注。特别是微电子技术、纳米材料制备技术、生物技术的发展为扩展生物传感器的应用范围
刑法对徇私舞弊型渎职犯罪的有关规定一直存在争议,主要集中在三个问题。其一,是徇私是否是必备要件,是行为还是动机或目的。笔者认为徇私明确写入罪状之中,理当认为是构成必
当前,我国职业教育大力推行工学结合、校企合作、顶岗实习的新模式。而学生在顶岗实习期间如何开展德育工作,成为我们必须面对的实际问题。文章分析了中等职业学校学生在顶岗
制作了适用于透平叶片射线CR检测的曝光曲线,对燃气轮机透平叶片裂纹缺陷进行了射线CR检测研究。结果表明,采用射线CR检测技术可实现透平叶片叶型进气侧和出气侧深度≥0.6 mm
匹伐他汀钙(Pitavastatin Calcium),作为羟甲基戊二酸单酰辅酶A(HMG-CoA)还原酶抑制剂,用于临床治疗高脂血症,于1999年11月在日本注册,在美国进行Ⅱ期临床试验。它不仅具有其
小麦胚是小麦加工的副产品,我国小麦胚资源丰富,年储藏量达200~300万吨。小麦胚是小麦籽粒的精华,含有丰富、优质的蛋白质、脂肪、多种维生素、矿物质及一些生理活性成分,因此
改革开放30年,福建省漳州市农业经济迅速发展。因此,有必要创新新型农民培训模式,以加速漳州现代农业的发展。在掌握大量第一手资料的基础上,研究提出了漳州市新型农民培训的
本文以与传统工业射线胶片照相检测方法作比较的方式,着重论述了计算机X射线照相检测技术(CR)的基本原理、检测工艺、与X射线胶片照相法的异同,澄清了一些数字射线照相检测方法
碳纳米管(Carbon Nanotubes,CNTs)是由碳原子形成的石墨烯片层卷成的无缝、中空的纳米级同轴圆柱体,两端各有一个由半个富勒烯球体分子形成的帽子,被广泛应用于物理、化学、环