论文部分内容阅读
哈萨克语句子级别的分析技术主要包括词性标注,组块,句法分析和语义分析,现在哈萨克语处理已经进展到短语结构句法分析层面。本文主要对哈萨克语词性标注,组块和短语结构句法分析进行相应研究。传统的哈萨克语句子分析技术一般采用层次顺序串行分析每个任务,每个任务分析时都采用最佳模型进行分析。但是这种串行分析的方法存在两个问题:第一是错误蔓延,即低层任务的结果作为上层任务的输入,如果低层任务出现错误,势必会影响上层任务的结果。第二是每层任务采用局部最优,高层任务的信息无法传送到低层任务。对于这个问题,联合模型很好的解决了这个问题。由于联合模型的解码时搜索空间是各个任务搜索空间的乘积,因此联合分析模型中最多选择两个任务进行联合分析。统计模型的方法包括基于转移的分析方法和基于图模型的分析方法。基于转移的分析方法相比于基于图的分析方法在性能上略差,但是其解码效率上有明显的优势。为了提高基于转移的分析方法性能,有两种可行性方法。第一,提高下层任务性能,从而提高整体任务性能。第二,建立联合模型,利用任务之间的相互作用提升整体性能。在本文中对词性标注、组块、句法分析三个任务展开四个方面的研究工作:1.本文设计词性标注和组块进行联合分析,词性和组块进行相互作用提升各自准确率,并把其结果作为句法分析的输入,从而提高句法分析的准确率。2.设计混合模型对词性标注和组块联合分析,既解决了串行模型错误蔓延和下层任务不能利用上层任务信息的问题,在本文中利用组块信息解决兼类词的歧义问题;又解决了联合模型特征选择受限问题,整体上提高词性标注和组块的准确率。3.本文改进Beam-Search解码算法,即把固定柱值B改为动态柱值。即对候选集合中选项的分值都与集合中的最大分值相比,并设计固定阈值进行剪枝比值较小的候选结果。改进精准了搜索空间,使结果准确率提高。4.在句法分析中,设计奖励函数来降低Beam-Search解码算法在搜索时剪枝最佳结果的风险,使解码更为精准,从而提高准确率。