中文自动文摘的研究与应用

来源 :辽宁科技大学 | 被引量 : 0次 | 上传用户:antoneychang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本自动摘要是自然语言处理领域中的一个重要研究方向。面对当今信息社会,如何在海量信息中搜寻所需要的信息,获取信息的主旨,已经是一个迫在眉睫的问题。自动文摘正是解决这一问题的有效技术,因此它具有广泛的应用前景和较高的研究价值。 本文首先介绍了文摘的定义、自动文摘的主要方法及其在国内外的研究现状,针对目前四种主要文摘方法的模型和各自优缺点进行了讨论分析,发现在现有的自然语言处理研究状况下,基于篇章结构的中文自动文摘方法能够扬长避短,最大限度的保证文摘的质量,进而将深入研究篇章结构作为主导思想,设计了一个基于篇章结构的中文自动摘要系统模型。 本文重点研究内容及所做主要贡献为篇章层次结构分析、篇章内容结构分析和系统的设计。 1.篇章层次结构分析是篇章结构分析的首要工作。主要提出了一个篇章自动标引算法,此算法是根据文本层次结构特点给出的基本定义,结合语法分析的部分结果而设计,以此作为划分层次的标准。通过此算法,能够快速有效的划分篇章层次结构,掌握文本各个语言单元之间的隶属关系。 2.篇章内容结构分析是篇章结构分析的主要工作。在篇章层次结构分析结果的基础上,首先通过对语料的分析,总结出大量有用的识别规则和专用词典,其次根据将RST理论、汉语的复句研究理论和汉语的语言特征研究相结合的理论思想进行内容结构分析。主要提出了篇章内容结构分析算法,此方法不同于以往针对整个文本内容进行分析的方法,而是对篇章层次结构中所划分的每一个层次进行分析,针对每一层次不同的语言特点设计了不同的分析算法,并通过实例分析证明了此方法的有效性。 3.基于篇章结构分析的方法,本文设计了自动摘要系统模型。在综合统计方法加权并抽取文摘之后,利用了指代消解技术进行文摘句后处理,使摘要能够流畅易读。实例分析证明了系统摘要结果明显优于微软和哈工大IR-LabLTP的文摘结果,实验结果证明了本系统性能的提高。
其他文献
无线传感器网络是监视远程环境的有力工具,随着MEMS技术和无线通信技术的发展,其重要性越来越突出。它可以广泛应用于军事、交通、环境、卫生保健等各个领域进行数据采集和环境
本文针对油田综合开发业务现状和存在问题,及数字油田建设的需要,以河南油田为例,对国内陆上油田开发业务流程进行了归纳、分析、抽象,提出将国内陆上油田开发业务划分为五个子系
无线通信面临用户数量急剧增加,移动业务逐步多元化,促使对多业务通信服务质量的要求不断提高。如何高效地管理和使用有限的无线资源是无线通信技术急待解决的关键问题。对于多
随着Internet的迅猛发展和WEB的全球普及,各类网站所提供的功能和服务越来越丰富,然而在智能化方面表现得却不够理想。比如,网站结构缺乏灵活性;提供的服务或信息分布不合理,未能
随着Web服务的广泛应用,服务质量(quality of service, QoS)已成为一个判定服务提供者是否成功的重要因素。QoS决定服务的可用性和效用,而这两方面都会影响到服务的普及。本
教学质量评价主要是利用教育评价的理论和技术,对教学过程及结果是否达到一定质量要求而做出的价值判断。国内高校目前均建立了教学质量监控体系,定期开展各项评价活动。因评
Internet的迅速发展使其成为当今世界上最大的信息库,并日益成为人们获取所需资源的主要来源,然而其巨大的信息量以及纷繁芜杂的内容与人们有目的的利用信息形成了很大的矛盾。
软件可靠性工程可以应用于任何基于软件产品的任一版本,可以开始于任一版本周期。它是对于软件产品质量保证的一门科学。应用于软件工程的整个生命周期。而软件可靠性增长模
现代社会正朝着信息化方向发展,信息技术在社会中发挥着越来越核心的作用。数据容灾技术作为信息技术的重要组成部分也显得越来越重要,它可以保证数据在发生计算机系统故障、网
信息技术的发展,使得信息数据量迅猛增长。数据量的剧增促使数据存储方式从传统的单机存储方式向网络存储方式转变。网络附加存储(NAS)是网络存储方式中的一种,它将文件服务器