基于转移的哈萨克语句子分析技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:huang7567802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈萨克语句子级别的分析技术主要包括词性标注,组块,句法分析和语义分析,现在哈萨克语处理已经进展到短语结构句法分析层面。本文主要对哈萨克语词性标注,组块和短语结构句法分析进行相应研究。传统的哈萨克语句子分析技术一般采用层次顺序串行分析每个任务,每个任务分析时都采用最佳模型进行分析。但是这种串行分析的方法存在两个问题:第一是错误蔓延,即低层任务的结果作为上层任务的输入,如果低层任务出现错误,势必会影响上层任务的结果。第二是每层任务采用局部最优,高层任务的信息无法传送到低层任务。对于这个问题,联合模型很好的解决了这个问题。由于联合模型的解码时搜索空间是各个任务搜索空间的乘积,因此联合分析模型中最多选择两个任务进行联合分析。统计模型的方法包括基于转移的分析方法和基于图模型的分析方法。基于转移的分析方法相比于基于图的分析方法在性能上略差,但是其解码效率上有明显的优势。为了提高基于转移的分析方法性能,有两种可行性方法。第一,提高下层任务性能,从而提高整体任务性能。第二,建立联合模型,利用任务之间的相互作用提升整体性能。在本文中对词性标注、组块、句法分析三个任务展开四个方面的研究工作:1.本文设计词性标注和组块进行联合分析,词性和组块进行相互作用提升各自准确率,并把其结果作为句法分析的输入,从而提高句法分析的准确率。2.设计混合模型对词性标注和组块联合分析,既解决了串行模型错误蔓延和下层任务不能利用上层任务信息的问题,在本文中利用组块信息解决兼类词的歧义问题;又解决了联合模型特征选择受限问题,整体上提高词性标注和组块的准确率。3.本文改进Beam-Search解码算法,即把固定柱值B改为动态柱值。即对候选集合中选项的分值都与集合中的最大分值相比,并设计固定阈值进行剪枝比值较小的候选结果。改进精准了搜索空间,使结果准确率提高。4.在句法分析中,设计奖励函数来降低Beam-Search解码算法在搜索时剪枝最佳结果的风险,使解码更为精准,从而提高准确率。
其他文献
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署
科学计算正在从传统的以计算为核心的计算密集型时代转向以数据为核心的数据密集型超级计算的时代,数据已经逐渐成为企业或机构运转的枢纽与支柱,任何形式的数据损坏都可能带来
Web2.0和社会化标签系统的流行,使得Folksonomy和标签推荐系统得到了越来越多的关注。随着语义Web研究的深入,研究者尝试利用本体来解决Folksonomy的不足并为其构建统一的结
随着计算机技术的发展,嵌入式实时系统在众多领域得到广泛应用。相比于单核处理器,多核处理器能够使嵌入式系统获得更高的性能。在PC全面进入多核时代的背景下,嵌入式领域的
随着市场经济的不断发展,企业信息化显的越来越重要。物流被称作“第三方利润源”也受到了各行各业的重视并得到了较快的发展。将计算机网络,电子商务等技术与物流相关技术结
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大
本文对织物染色配色问题进行了比较详细的介绍,并描述了此次建模所用的数学方法和分析过程。通过对传统的织物染色配色问题研究发现:基于Kubelka-Munk理论的织物染色配色方法费
在过去的40年里,人类阅读的机器仿真是很重要的研究方向。由于阿拉伯文字的复杂性,对阿拉伯文字自动识别的研究很少见。随着拉丁文、中文和日文在光学文本识别上的成功,光学识别
随着互联网技术的飞速发展,海量数据应用处理逐渐成为主流,而流数据系统则是其中最为典型的应用之一。作为新型的数据密集型应用,流数据具有有序实时到达,数据量接近于无限而
远程教育管理平台是西安电子科技大学网络教育学院的核心,承担着教学资源、教育活动的组织与执行等大部分功能。自2010年以来,远程教育管理平台服务的学生也越来越多,最终造成远