新闻事件的自动摘要研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:lzm8020117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络新闻的数量飞速增长,人们面对海量的新闻信息难以准确快速地获取到自己所需的关键信息。为此,本文设计了一种新闻事件的自动摘要系统。该系统能够根据用户输入的关键词采集相关事件的新闻报道,获得新闻事件的演化过程和各个子话题的文本摘要。本文的主要工作和创新点如下。首先,出一种改进的Single-Pass聚类算法。此算法利用Doc2vec模型表示新闻文本信息,该模型能较好地挖掘文本的语义信息。针对新闻事件子话题的特点,设计了一种新闻报道的复合相似度计算方法。此方法充分考虑了新闻标题对新闻文本信息表达的重要性,由新闻标题和新闻正文内容各自相似度组成新闻报道的文本相似度。另外考虑到发布时间是新闻子话题聚类的关键影响因素,于是引入新闻报道的时间相似度计算方法。接着,综合利用新闻报道的文本相似度和时间相似度共同计算新闻报道的复合相似度,给出了改进的聚类算法。其次,出一种基于TextRank的自动文本摘要算法。针对句子的表示问题设计了一种基于Word2vec模型的表示方法来完成文本的自动摘要工作:(1)采用所出的句子表示方法将句子文本向量化;(2)从句子之间的相似度、关键词的覆盖率和句子与标题的相似度三个方面考虑,计算句子之间的影响权重;(3)利用TextRank迭代算法计算句子的最终权重,并选取排序靠前的句子进行润色处理、重新排序后,作为新闻报道的文本摘要。最后,基于上述方法,设计并实现聚类模块和摘要模块,完成新闻事件的自动摘要系统。该系统通过实现新闻数据采集、文本预处理、子话题聚类、自动文本摘要和Web展示等功能,获得新闻事件演化阶段的摘要。同时,系统采用MVC设计思想,各个模块各司其职、互不干涉,有利于以后系统功能的更新和扩展。
其他文献
从古今中外许多学者的治学经验来看,“摘抄”确是一条行之有效的读书方法。唐朝的大文学家韩愈曾提出“记事者必提其要,纂言者必钩其玄”的主张。梁启超在《治国学杂话》中也
期刊
文章从组织结构的视角,运用组织结构理论,分析了当前高职德育工作存在的组织结构问题,构建了适宜于高职德育工作的理想组织结构的三个判定标准:健康的、道德的和人性的,提出了
本期讨论话题:2009年9月。全国人大常委会副委员长、民革中央主席周铁农在山西考察调研时强调,各级各部门要以科学发展观为指导,全力破解农村环境污染和治理难题。防止城市污染
以色列于20世纪40年代末在中东地区建国以来,一直处于同周围阿拉伯国家的战乱与纷争之中。在不同时期,以色列采取了不同的安全战略,成为影响中东地区和以色列安全的重要因素。