论文部分内容阅读
句法分析是自然语言处理的基本技术,包括短语结构解析和依存关系解析两种句法分析方法。依存关系可以明确地表明词之间的句法依存关系,并方便地转化为语意依存描述,近年来得到广泛重视,在机器翻译、信息检索、自动文摘等领域有着直接的应用。日语依存关系解析是基于日语依存文法来确定句子中文节与文节之间的依存关系。基于支持向量机(Support Vector Machine,SVM)的组块逐步应用算法是一种比较成功的日语依存关系解析算法,依存关系精确率达到88.66%。这种方法存在两个问题,一个是使用SVM模型进行分类时,分类超平面附近的向量分类正确率较低;另一个问题是,日语长句的依存关系解析精度较低。针对这两个问题,本文提出了四种方法进行改进。(1)基于支持向量机与K邻近算法(K Nearest Neighbor,KNN)相结合的日语依存关系解析,首先使用SVM模型对向量进行分类,对位于分类超平面附近的向量,使用KNN算法进行修正。(2)基于支持向量机与条件随机场(Conditional Random Field,CRF)相结合的日语依存关系解析,当判断两个文节间是否存在依存关系时,综合考虑SVM和CRF两个模型的判断结果,利用中间参数比较两种结果的可信度,将其中可信度较高的模型的判断结果作为最终结果。(3)针对长句中依存关系复杂,解析精确率低的问题,本文提出了基于并列关系树的解析算法,依据并列关系将日语句子划分为层次结构,由里向外依次解析各层的依存关系,每次的解析过程都相当于是对短句的依存关系解析。(4)距离模糊支持向量机(Distance Fuzzy Support Vector Machine,DFSVM)是对模糊支持向量机(Fuzzy Support Vector Machine,FSVM)的改进。DFSVM重新定义了隶属度,将训练样本距离其正确分类超平面的距离转化为隶属度,能较好的反应训练样本对于分类的贡献程度,从而改进了分类精度。SVM与KNN结合方法、SVM与CRF结合方法解决了SVM分类超平面附近向量分类精度较低的问题。基于并列关系树的日语依存解析算法,解决了日语长句依存关系解析精确率较低的问题。DFSVM模型对FSVM进行了改进,给出了新的隶属度定义。实验采用日本京都大学语料库,几种方法均比传统SVM算法更具优越性,达到了较高的精确率。基于DFSVM模型解析算法的解析效果最好,精确率为89.87%。