结构化支持向量机学习方法及应用研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:wanjia456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, SVM)具有统计学习理论(Statistical learning theory, SLT)的坚实理论基础,而且具有完美的数学形式、直观的几何解释和良好的泛化能力,是解决数据挖掘中若干问题的有力工具。然而在实际应用中大部分要处理的数据往往具有复杂的结构,如树形结构、网状结构和队列结构等,这时用传统的支持向量机处理这类数据问题会非常困难。针对这些复杂的且彼此之间存在相互依赖关系的结构性数据,结构化支持向量机(Structured Support Vector Machine, SVM-Struct)是一种较好的可解决此类数据处理问题的学习方法。因此,对结构化支持向量机学习方法的研究以及将其应用在实际领域具有重要的理论意义和实际应用价值。为研究SVM-Struct的学习机理,本文以中文句法分析为例,通过构造适合中文句法分析的结构化特征函数ψ(x,y),建立加权上下文无关文法分析模型,将SVM-Struct学习方法应用于中文句法分析中。由于中文句法具有复杂的数据结构,所以可以很好地检验本文提出方法的有效性。本文的研究工作主要包括以下内容:(1)对结构化支持向量机学习原理进行了深入的分析,讨论了结构化特征函数的构造方法。(2)提出了一种面向中文句法分析的结构化支持向量机学习方法。该方法通过构造适合于中文句法分析的结构化特征函数Ψ(x,y),建立了加权上下文无关文法模型,结合CYK (Cocke, Kasami, Younger,简称CYK)算法对中文句法进行分析。(3)在来自北京大学计算语言学研究所公开的微型语料库中的树库样上对本文提出的学习算法进行了验证,同时与经典的概率上下文无关文法(Probabilistic Context-Free Grammar,简称PCFG)进行了比较,实验结果验证了本文提出的基于结构化支持向量机的中文句法分析的可行性及有效性。本文通过对SVM-Struct学习方法的深入研究,提出一种面向中文句法分析的SVM-Struct学习方法,拓展了SVM-Struct的应用领域。本文所取得的研究成果不仅丰富了支持向量机的理论和方法研究,同时为中文句法分析提供了全新的研究方法。
其他文献
偶发E层(Sporadic E,简称Es)是指距地面90~120km高度区域内短暂出现的高电子密度薄层结构。当无线电波穿过Es不规则结构时,会引起电波信号的振幅、相位和偏振方向发生快速随