论文部分内容阅读
由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量的飞速增长,多文档自动文摘越来越受到人们的重视。句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下,使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析模型三个方面的研究和多文档自动文摘中句子表示形式和排序方法的研究,并通过实验对研究结果进行了验证和分析。在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法和文摘的冗余消除方法。本文的主要研究内容和创新点包括以下四个方面:1.提出了一种以词汇组合关系描述语法的二元组合语法体系由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题,提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。2.提出了一种基于局部优先级的句法分析算法句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息融入到二元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本文对传统的CYK(Cocke,Younger,Kasami)图算法进行改进,提出了一种基于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行了句法分析实验。结果表明,改进后的CYK图算法在产生树结构的数量和花费的时间上都明显低于传统的CYK算法。3.提出了一种基于嵌套层次限制的句法分析模型在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于局部优先的CYK图算法的基础上,提出了一种融合嵌套层次限制的二元组合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效的避免非法结构的生成。4.提出了一种基于生成性概率主题模型的多文档自动文摘方法使用潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型为句子建模,以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p(w|z)和句子在主题上的概率分布p(z|s),提出了概率生成模型和句子生成模型两种句子权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的句子作为文摘句。实验在DUC2002会议中提供的通用型多文档文摘测试集上进行,以ROUGE自动评测工具作为评测标准。结果表明,与基于词频的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以获得更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。本文进一步的工作包括:将组合关系的标签作为上下文纳入到分析算法中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。