论文部分内容阅读
中文文本自动摘要是自然语言处理领域中的一个重要研究方向。面对当今信息社会,如何在海量信息中搜寻所需要的信息,获取信息的主旨,已经是一个迫在眉睫的问题。自动文摘正是解决这一问题的有效技术,因此它具有广泛的应用前景和较高的研究价值。
本文首先介绍了文摘的定义、自动文摘的主要方法及其在国内外的研究现状,针对目前四种主要文摘方法的模型和各自优缺点进行了讨论分析,发现在现有的自然语言处理研究状况下,基于篇章结构的中文自动文摘方法能够扬长避短,最大限度的保证文摘的质量,进而将深入研究篇章结构作为主导思想,设计了一个基于篇章结构的中文自动摘要系统模型。
本文重点研究内容及所做主要贡献为篇章层次结构分析、篇章内容结构分析和系统的设计。
1.篇章层次结构分析是篇章结构分析的首要工作。主要提出了一个篇章自动标引算法,此算法是根据文本层次结构特点给出的基本定义,结合语法分析的部分结果而设计,以此作为划分层次的标准。通过此算法,能够快速有效的划分篇章层次结构,掌握文本各个语言单元之间的隶属关系。
2.篇章内容结构分析是篇章结构分析的主要工作。在篇章层次结构分析结果的基础上,首先通过对语料的分析,总结出大量有用的识别规则和专用词典,其次根据将RST理论、汉语的复句研究理论和汉语的语言特征研究相结合的理论思想进行内容结构分析。主要提出了篇章内容结构分析算法,此方法不同于以往针对整个文本内容进行分析的方法,而是对篇章层次结构中所划分的每一个层次进行分析,针对每一层次不同的语言特点设计了不同的分析算法,并通过实例分析证明了此方法的有效性。
3.基于篇章结构分析的方法,本文设计了自动摘要系统模型。在综合统计方法加权并抽取文摘之后,利用了指代消解技术进行文摘句后处理,使摘要能够流畅易读。实例分析证明了系统摘要结果明显优于微软和哈工大IR-LabLTP的文摘结果,实验结果证明了本系统性能的提高。