论文部分内容阅读
随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征,文本摘要技术也固此成为解决这个问题的关键技术之一。针对文本摘要,出现了很多方法。基于理解的摘要方怯需要对文本进行深层的理解,这在目前依然是自然语言理解的巨大挑战。而传统的摘要方法则忽略词与词之间的关系,仅仅依靠文本的表面特征来抽取摘要。这种方法过于简单,会
严重损害摘要的质量。在本文中,我们采用一种对传统方法进行扩展的技术,利用领域知识库,在无须对文本进行深层理解的情况下,自动获取文本摘要。 集聚是文本中把不同部分“粘在一起”的现象。它是文本的表面特征,同时它与文本的连贯性具有密切的关系,这使得我们可以利用易于计算的集聚性来进行文本分析。在各种集聚类型中,最主要的是词汇的集聚。利用词汇的集聚,把文本中相关的词联系在一起,就构成了词汇链。词汇链是传统的高频词表的一种扩展,它考虑了文本中词与词之问的各种关系。本文研究了基于领域知识的词汇链技术,深入分析了知识库、相关性计算以及构建算怯等问题。领域知识库从领域属性的角度去表达特征词之间的关系,是词汇间关系的更高一层的表达。在领域知识库的基础上,我们的算法能够对特征
词的领域属性进行更有效地消歧。在词汇链技术的基础上,本文提出了应用词汇链的一般模型,并在此模型基础上应用词汇链构建文本摘要。我们提出了两种基于词汇链的摘要方祛。实验结果表明,词汇链技术能够很好地识别出文本的主题,尤其对于新闻语料,我们的方法具有非常好的效果。