基于领域知识的词汇链技术及其在摘要中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:fjlmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征,文本摘要技术也固此成为解决这个问题的关键技术之一。针对文本摘要,出现了很多方法。基于理解的摘要方怯需要对文本进行深层的理解,这在目前依然是自然语言理解的巨大挑战。而传统的摘要方法则忽略词与词之间的关系,仅仅依靠文本的表面特征来抽取摘要。这种方法过于简单,会 严重损害摘要的质量。在本文中,我们采用一种对传统方法进行扩展的技术,利用领域知识库,在无须对文本进行深层理解的情况下,自动获取文本摘要。 集聚是文本中把不同部分“粘在一起”的现象。它是文本的表面特征,同时它与文本的连贯性具有密切的关系,这使得我们可以利用易于计算的集聚性来进行文本分析。在各种集聚类型中,最主要的是词汇的集聚。利用词汇的集聚,把文本中相关的词联系在一起,就构成了词汇链。词汇链是传统的高频词表的一种扩展,它考虑了文本中词与词之问的各种关系。本文研究了基于领域知识的词汇链技术,深入分析了知识库、相关性计算以及构建算怯等问题。领域知识库从领域属性的角度去表达特征词之间的关系,是词汇间关系的更高一层的表达。在领域知识库的基础上,我们的算法能够对特征 词的领域属性进行更有效地消歧。在词汇链技术的基础上,本文提出了应用词汇链的一般模型,并在此模型基础上应用词汇链构建文本摘要。我们提出了两种基于词汇链的摘要方祛。实验结果表明,词汇链技术能够很好地识别出文本的主题,尤其对于新闻语料,我们的方法具有非常好的效果。
其他文献
在数据库应用程序中,对数据库访问性能的优劣是制约整个应用程序的一个重要方面,特别是在B/S和C/S结构中,这一点就显得尤为重要.但是现今的很多数据库应用程序所使用的数据库
嵌入式浏览器是一个网络应用程序,网络延迟会严重影响嵌入式浏览器的速度和交互性.在分析了几种常用的网络传输模型的基础上,设计了用线程和模拟信号驱动I/O相结合的组合传输
嵌入式系统开发过程中,目标软件调试工作最终需要采用交叉调试方式进行。借助于常规调试工具用户只能通过设置断点等方式控制程序执行,实现基本调试功能。所看到的程序执行现状
虚拟制造技术现在是科学界和企业界研究和应用的热点问题之一,它是沟通信息系统与制造系统之间的桥梁,它为解决快速制造提供了有效手段.该文研究的内容是基于PCB板级的虚拟制
椭圆曲线密码体制(ECC)最早是在1985年分别由V.S.Miller和Neal Koblitz独立提出的,它是迄今为止每比特具有最高安全强度的密码体制。它还具有计算量小,密钥尺寸短,占用带宽少等
近年来,B/S结构以零客户端、易维护性、分布性等优点成为企业应用系统的主流结构之一。相应的开发标准(如J2EE等)、开发工具(如Delphi等)也层出不穷。但是这些工具与标准一般都
安全性是电子商务能否生存、发展的最重要因素之一.考虑电子商务网络安全时,应当从系统的角度,从全局性的角度去指导为实现安全网络所采取的措施.对于网络环境来说,只要在某
如果说二十世纪末,是互联网辉煌的时期;那么二十一世纪初,是移动互联网崛起的时代.短信、WAP、MMS、定位服务、下载服务等等种类繁多的移动增值业务相继成为新的经济热点,同
随着信息技术的飞速发展,实时系统已经渗透到我们生活的各个层面,包括传统的工控领域、数控领域、军事、航天、制造业、通信业,以及潜力巨大的信息家电(IA)、媒体广播系统和数字